diff options
-rw-r--r-- | .gitignore | 1 | ||||
-rw-r--r-- | python-sudachitra.spec | 405 | ||||
-rw-r--r-- | sources | 1 |
3 files changed, 407 insertions, 0 deletions
@@ -0,0 +1 @@ +/SudachiTra-0.1.8.tar.gz diff --git a/python-sudachitra.spec b/python-sudachitra.spec new file mode 100644 index 0000000..0f5fa87 --- /dev/null +++ b/python-sudachitra.spec @@ -0,0 +1,405 @@ +%global _empty_manifest_terminate_build 0 +Name: python-SudachiTra +Version: 0.1.8 +Release: 1 +Summary: Japanese tokenizer for Transformers. +License: Apache-2.0 +URL: https://github.com/WorksApplications/SudachiTra +Source0: https://mirrors.nju.edu.cn/pypi/web/packages/df/9f/4d4bbc970ef4dec229ad0eacaa92fd1e5d6cb0cafab0b38c1cfb12bab14b/SudachiTra-0.1.8.tar.gz +BuildArch: noarch + + +%description +# Sudachi Transformers (chiTra) + +[](https://www.python.org/downloads/release/python-360/) +[](https://github.com/WorksApplications/SudachiTra/actions/workflows/test.yaml) +[](https://github.com/WorksApplications/SudachiTra/blob/main/LICENSE) + +chiTraは事前学習済みの大規模な言語モデルと [Transformers](https://github.com/huggingface/transformers) 向けの日本語形態素解析器を提供します。 / chiTra provides the pre-trained language models and a Japanese tokenizer for [Transformers](https://github.com/huggingface/transformers). + +chiTraはSuda**chi Tra**nsformersの略称です。 / chiTra stands for Suda**chi Tra**nsformers. + +## 事前学習済みモデル / Pretrained Model +公開データは [Open Data Sponsorship Program](https://registry.opendata.aws/sudachi/) を使用してAWSでホストされています。 / Datas are generously hosted by AWS with their [Open Data Sponsorship Program](https://registry.opendata.aws/sudachi/). + +| Version | Normalized | SudachiTra | Sudachi | SudachiDict | Text | Pretrained Model | +| ------- | ---------------------- | ---------- | ------- | ------------- | ------------ | ------------------------------------------------------------------------------------------- | +| v1.0 | normalized_and_surface | v0.1.7 | 0.6.2 | 20211220-core | NWJC (148GB) | 395 MB ([tar.gz](https://sudachi.s3.ap-northeast-1.amazonaws.com/chitra/chiTra-1.0.tar.gz)) | + +### 特長 / Features +- 大規模テキストによる学習 / Training on large texts + - 国語研日本語ウェブコーパス (NWJC) をつかってモデルを学習することで多様な表現とさまざまなドメインに対応しています / Models are trained on NINJAL Web Japanese Corpus (NWJC) to support a wide variety of expressions and domains. +- Sudachi の利用 / Using Sudachi + - 形態素解析器 Sudachi を利用することで表記ゆれによる弊害を抑えています / By using the morphological analyzer Sudachi, reduce the negative effects of various notations. + +# chiTraの使い方 / How to use chiTra + +## クイックツアー / Quick Tour +事前準備 / Requirements +```bash +$ pip install sudachitra +$ wget https://sudachi.s3.ap-northeast-1.amazonaws.com/chitra/chiTra-1.0.tar.gz +$ tar -zxvf chiTra-1.0.tar.gz +``` + +モデルの読み込み / Load the model +```python +>>> from sudachitra.tokenization_bert_sudachipy import BertSudachipyTokenizer +>>> from transformers import BertModel + +>>> tokenizer = BertSudachipyTokenizer.from_pretrained('chiTra-1.0') +>>> tokenizer.tokenize("選挙管理委員会とすだち") +['選挙', '##管理', '##委員会', 'と', '酢', '##橘'] + +>>> model = BertModel.from_pretrained('chiTra-1.0') +>>> model(**tokenizer("まさにオールマイティーな商品だ。", return_tensors="pt")).last_hidden_state +tensor([[[ 0.8583, -1.1752, -0.7987, ..., -1.1691, -0.8355, 3.4678], + [ 0.0220, 1.1702, -2.3334, ..., 0.6673, -2.0774, 2.7731], + [ 0.0894, -1.3009, 3.4650, ..., -0.1140, 0.1767, 1.9859], + ..., + [-0.4429, -1.6267, -2.1493, ..., -1.7801, -1.8009, 2.5343], + [ 1.7204, -1.0540, -0.4362, ..., -0.0228, 0.5622, 2.5800], + [ 1.1125, -0.3986, 1.8532, ..., -0.8021, -1.5888, 2.9520]]], + grad_fn=<NativeLayerNormBackward0>) +``` + +## インストール / Installation + +```shell script +$ pip install sudachitra +``` + +デフォルトの [Sudachi dictionary](https://github.com/WorksApplications/SudachiDict) は [SudachiDict-core](https://pypi.org/project/SudachiDict-core/) を使用します。 / The default [Sudachi dictionary](https://github.com/WorksApplications/SudachiDict) is [SudachiDict-core](https://pypi.org/project/SudachiDict-core/). + +[SudachiDict-small](https://pypi.org/project/SudachiDict-small/) や [SudachiDict-full](https://pypi.org/project/SudachiDict-full/) など他の辞書をインストールして使用することもできます。 / You can use other dictionaries, such as [SudachiDict-small](https://pypi.org/project/SudachiDict-small/) and [SudachiDict-full](https://pypi.org/project/SudachiDict-full/) .<br/> +その場合は以下のように使いたい辞書をインストールしてください。 / In such cases, you need to install the dictionaries.<br/> +事前学習済みモデルを使いたい場合はcore辞書を使用して学習されていることに注意してください。 / If you want to use a pre-trained model, note that it is trained with SudachiDict-core. + +```shell script +$ pip install sudachidict_small sudachidict_full +``` + +## 事前学習 / Pretraining + +事前学習方法の詳細は [pretraining/bert/README.md](https://github.com/WorksApplications/SudachiTra/tree/main/pretraining/bert) を参照ください。 / Please refer to [pretraining/bert/README.md](https://github.com/WorksApplications/SudachiTra/tree/main/pretraining/bert). + + +## 開発者向け / For Developers +TBD + +## ライセンス / Licence + +Copyright (c) 2022 National Institute for Japanese Language and Linguistics and Works Applications Co., Ltd. All rights reserved. + +"chiTra"は [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0) で [国立国語研究所](https://www.ninjal.ac.jp/) 及び [株式会社ワークスアプリケーションズ](https://www.worksap.co.jp/) によって提供されています。 / "chiTra" is distributed by [National Institute for Japanese Language and Linguistics](https://www.ninjal.ac.jp/) and [Works Applications Co.,Ltd.](https://www.worksap.co.jp/) under [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0). + + +## 連絡先 / Contact us +質問があれば、issueやslackをご利用ください。 / Open an issue, or come to our Slack workspace for questions and discussion. + +開発者やユーザーの方々が質問したり議論するためのSlackワークスペースを用意しています。 / We have a Slack workspace for developers and users to ask questions and discuss. +https://sudachi-dev.slack.com/ ( [こちら](https://join.slack.com/t/sudachi-dev/shared_invite/enQtMzg2NTI2NjYxNTUyLTMyYmNkZWQ0Y2E5NmQxMTI3ZGM3NDU0NzU4NGE1Y2UwYTVmNTViYjJmNDI0MWZiYTg4ODNmMzgxYTQ3ZmI2OWU) から招待を受けてください) / https://sudachi-dev.slack.com/ (Get invitation [here](https://join.slack.com/t/sudachi-dev/shared_invite/enQtMzg2NTI2NjYxNTUyLTMyYmNkZWQ0Y2E5NmQxMTI3ZGM3NDU0NzU4NGE1Y2UwYTVmNTViYjJmNDI0MWZiYTg4ODNmMzgxYTQ3ZmI2OWU) ) + + + +## chiTraの引用 / Citing chiTra +chiTraについての論文を発表しています。 / Citing chiTra +We have published a following paper about chiTra; +- 勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸, 単語正規化による表記ゆれに頑健な BERT モデルの構築. 言語処理学会第28回年次大会, 2022. + +chiTraを論文や書籍、サービスなどで引用される際には、以下のBibTexをご利用ください。 / When citing chiTra in papers, books, or services, please use the follow BibTex entries; +``` +@INPROCEEDINGS{katsuta2022chitra, + author = {勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸}, + title = {単語正規化による表記ゆれに頑健な BERT モデルの構築}, + booktitle = "言語処理学会第28回年次大会(NLP2022)", + year = "2022", + pages = "", + publisher = "言語処理学会", +} +``` + +Enjoy chiTra! + + +%package -n python3-SudachiTra +Summary: Japanese tokenizer for Transformers. +Provides: python-SudachiTra +BuildRequires: python3-devel +BuildRequires: python3-setuptools +BuildRequires: python3-pip +%description -n python3-SudachiTra +# Sudachi Transformers (chiTra) + +[](https://www.python.org/downloads/release/python-360/) +[](https://github.com/WorksApplications/SudachiTra/actions/workflows/test.yaml) +[](https://github.com/WorksApplications/SudachiTra/blob/main/LICENSE) + +chiTraは事前学習済みの大規模な言語モデルと [Transformers](https://github.com/huggingface/transformers) 向けの日本語形態素解析器を提供します。 / chiTra provides the pre-trained language models and a Japanese tokenizer for [Transformers](https://github.com/huggingface/transformers). + +chiTraはSuda**chi Tra**nsformersの略称です。 / chiTra stands for Suda**chi Tra**nsformers. + +## 事前学習済みモデル / Pretrained Model +公開データは [Open Data Sponsorship Program](https://registry.opendata.aws/sudachi/) を使用してAWSでホストされています。 / Datas are generously hosted by AWS with their [Open Data Sponsorship Program](https://registry.opendata.aws/sudachi/). + +| Version | Normalized | SudachiTra | Sudachi | SudachiDict | Text | Pretrained Model | +| ------- | ---------------------- | ---------- | ------- | ------------- | ------------ | ------------------------------------------------------------------------------------------- | +| v1.0 | normalized_and_surface | v0.1.7 | 0.6.2 | 20211220-core | NWJC (148GB) | 395 MB ([tar.gz](https://sudachi.s3.ap-northeast-1.amazonaws.com/chitra/chiTra-1.0.tar.gz)) | + +### 特長 / Features +- 大規模テキストによる学習 / Training on large texts + - 国語研日本語ウェブコーパス (NWJC) をつかってモデルを学習することで多様な表現とさまざまなドメインに対応しています / Models are trained on NINJAL Web Japanese Corpus (NWJC) to support a wide variety of expressions and domains. +- Sudachi の利用 / Using Sudachi + - 形態素解析器 Sudachi を利用することで表記ゆれによる弊害を抑えています / By using the morphological analyzer Sudachi, reduce the negative effects of various notations. + +# chiTraの使い方 / How to use chiTra + +## クイックツアー / Quick Tour +事前準備 / Requirements +```bash +$ pip install sudachitra +$ wget https://sudachi.s3.ap-northeast-1.amazonaws.com/chitra/chiTra-1.0.tar.gz +$ tar -zxvf chiTra-1.0.tar.gz +``` + +モデルの読み込み / Load the model +```python +>>> from sudachitra.tokenization_bert_sudachipy import BertSudachipyTokenizer +>>> from transformers import BertModel + +>>> tokenizer = BertSudachipyTokenizer.from_pretrained('chiTra-1.0') +>>> tokenizer.tokenize("選挙管理委員会とすだち") +['選挙', '##管理', '##委員会', 'と', '酢', '##橘'] + +>>> model = BertModel.from_pretrained('chiTra-1.0') +>>> model(**tokenizer("まさにオールマイティーな商品だ。", return_tensors="pt")).last_hidden_state +tensor([[[ 0.8583, -1.1752, -0.7987, ..., -1.1691, -0.8355, 3.4678], + [ 0.0220, 1.1702, -2.3334, ..., 0.6673, -2.0774, 2.7731], + [ 0.0894, -1.3009, 3.4650, ..., -0.1140, 0.1767, 1.9859], + ..., + [-0.4429, -1.6267, -2.1493, ..., -1.7801, -1.8009, 2.5343], + [ 1.7204, -1.0540, -0.4362, ..., -0.0228, 0.5622, 2.5800], + [ 1.1125, -0.3986, 1.8532, ..., -0.8021, -1.5888, 2.9520]]], + grad_fn=<NativeLayerNormBackward0>) +``` + +## インストール / Installation + +```shell script +$ pip install sudachitra +``` + +デフォルトの [Sudachi dictionary](https://github.com/WorksApplications/SudachiDict) は [SudachiDict-core](https://pypi.org/project/SudachiDict-core/) を使用します。 / The default [Sudachi dictionary](https://github.com/WorksApplications/SudachiDict) is [SudachiDict-core](https://pypi.org/project/SudachiDict-core/). + +[SudachiDict-small](https://pypi.org/project/SudachiDict-small/) や [SudachiDict-full](https://pypi.org/project/SudachiDict-full/) など他の辞書をインストールして使用することもできます。 / You can use other dictionaries, such as [SudachiDict-small](https://pypi.org/project/SudachiDict-small/) and [SudachiDict-full](https://pypi.org/project/SudachiDict-full/) .<br/> +その場合は以下のように使いたい辞書をインストールしてください。 / In such cases, you need to install the dictionaries.<br/> +事前学習済みモデルを使いたい場合はcore辞書を使用して学習されていることに注意してください。 / If you want to use a pre-trained model, note that it is trained with SudachiDict-core. + +```shell script +$ pip install sudachidict_small sudachidict_full +``` + +## 事前学習 / Pretraining + +事前学習方法の詳細は [pretraining/bert/README.md](https://github.com/WorksApplications/SudachiTra/tree/main/pretraining/bert) を参照ください。 / Please refer to [pretraining/bert/README.md](https://github.com/WorksApplications/SudachiTra/tree/main/pretraining/bert). + + +## 開発者向け / For Developers +TBD + +## ライセンス / Licence + +Copyright (c) 2022 National Institute for Japanese Language and Linguistics and Works Applications Co., Ltd. All rights reserved. + +"chiTra"は [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0) で [国立国語研究所](https://www.ninjal.ac.jp/) 及び [株式会社ワークスアプリケーションズ](https://www.worksap.co.jp/) によって提供されています。 / "chiTra" is distributed by [National Institute for Japanese Language and Linguistics](https://www.ninjal.ac.jp/) and [Works Applications Co.,Ltd.](https://www.worksap.co.jp/) under [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0). + + +## 連絡先 / Contact us +質問があれば、issueやslackをご利用ください。 / Open an issue, or come to our Slack workspace for questions and discussion. + +開発者やユーザーの方々が質問したり議論するためのSlackワークスペースを用意しています。 / We have a Slack workspace for developers and users to ask questions and discuss. +https://sudachi-dev.slack.com/ ( [こちら](https://join.slack.com/t/sudachi-dev/shared_invite/enQtMzg2NTI2NjYxNTUyLTMyYmNkZWQ0Y2E5NmQxMTI3ZGM3NDU0NzU4NGE1Y2UwYTVmNTViYjJmNDI0MWZiYTg4ODNmMzgxYTQ3ZmI2OWU) から招待を受けてください) / https://sudachi-dev.slack.com/ (Get invitation [here](https://join.slack.com/t/sudachi-dev/shared_invite/enQtMzg2NTI2NjYxNTUyLTMyYmNkZWQ0Y2E5NmQxMTI3ZGM3NDU0NzU4NGE1Y2UwYTVmNTViYjJmNDI0MWZiYTg4ODNmMzgxYTQ3ZmI2OWU) ) + + + +## chiTraの引用 / Citing chiTra +chiTraについての論文を発表しています。 / Citing chiTra +We have published a following paper about chiTra; +- 勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸, 単語正規化による表記ゆれに頑健な BERT モデルの構築. 言語処理学会第28回年次大会, 2022. + +chiTraを論文や書籍、サービスなどで引用される際には、以下のBibTexをご利用ください。 / When citing chiTra in papers, books, or services, please use the follow BibTex entries; +``` +@INPROCEEDINGS{katsuta2022chitra, + author = {勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸}, + title = {単語正規化による表記ゆれに頑健な BERT モデルの構築}, + booktitle = "言語処理学会第28回年次大会(NLP2022)", + year = "2022", + pages = "", + publisher = "言語処理学会", +} +``` + +Enjoy chiTra! + + +%package help +Summary: Development documents and examples for SudachiTra +Provides: python3-SudachiTra-doc +%description help +# Sudachi Transformers (chiTra) + +[](https://www.python.org/downloads/release/python-360/) +[](https://github.com/WorksApplications/SudachiTra/actions/workflows/test.yaml) +[](https://github.com/WorksApplications/SudachiTra/blob/main/LICENSE) + +chiTraは事前学習済みの大規模な言語モデルと [Transformers](https://github.com/huggingface/transformers) 向けの日本語形態素解析器を提供します。 / chiTra provides the pre-trained language models and a Japanese tokenizer for [Transformers](https://github.com/huggingface/transformers). + +chiTraはSuda**chi Tra**nsformersの略称です。 / chiTra stands for Suda**chi Tra**nsformers. + +## 事前学習済みモデル / Pretrained Model +公開データは [Open Data Sponsorship Program](https://registry.opendata.aws/sudachi/) を使用してAWSでホストされています。 / Datas are generously hosted by AWS with their [Open Data Sponsorship Program](https://registry.opendata.aws/sudachi/). + +| Version | Normalized | SudachiTra | Sudachi | SudachiDict | Text | Pretrained Model | +| ------- | ---------------------- | ---------- | ------- | ------------- | ------------ | ------------------------------------------------------------------------------------------- | +| v1.0 | normalized_and_surface | v0.1.7 | 0.6.2 | 20211220-core | NWJC (148GB) | 395 MB ([tar.gz](https://sudachi.s3.ap-northeast-1.amazonaws.com/chitra/chiTra-1.0.tar.gz)) | + +### 特長 / Features +- 大規模テキストによる学習 / Training on large texts + - 国語研日本語ウェブコーパス (NWJC) をつかってモデルを学習することで多様な表現とさまざまなドメインに対応しています / Models are trained on NINJAL Web Japanese Corpus (NWJC) to support a wide variety of expressions and domains. +- Sudachi の利用 / Using Sudachi + - 形態素解析器 Sudachi を利用することで表記ゆれによる弊害を抑えています / By using the morphological analyzer Sudachi, reduce the negative effects of various notations. + +# chiTraの使い方 / How to use chiTra + +## クイックツアー / Quick Tour +事前準備 / Requirements +```bash +$ pip install sudachitra +$ wget https://sudachi.s3.ap-northeast-1.amazonaws.com/chitra/chiTra-1.0.tar.gz +$ tar -zxvf chiTra-1.0.tar.gz +``` + +モデルの読み込み / Load the model +```python +>>> from sudachitra.tokenization_bert_sudachipy import BertSudachipyTokenizer +>>> from transformers import BertModel + +>>> tokenizer = BertSudachipyTokenizer.from_pretrained('chiTra-1.0') +>>> tokenizer.tokenize("選挙管理委員会とすだち") +['選挙', '##管理', '##委員会', 'と', '酢', '##橘'] + +>>> model = BertModel.from_pretrained('chiTra-1.0') +>>> model(**tokenizer("まさにオールマイティーな商品だ。", return_tensors="pt")).last_hidden_state +tensor([[[ 0.8583, -1.1752, -0.7987, ..., -1.1691, -0.8355, 3.4678], + [ 0.0220, 1.1702, -2.3334, ..., 0.6673, -2.0774, 2.7731], + [ 0.0894, -1.3009, 3.4650, ..., -0.1140, 0.1767, 1.9859], + ..., + [-0.4429, -1.6267, -2.1493, ..., -1.7801, -1.8009, 2.5343], + [ 1.7204, -1.0540, -0.4362, ..., -0.0228, 0.5622, 2.5800], + [ 1.1125, -0.3986, 1.8532, ..., -0.8021, -1.5888, 2.9520]]], + grad_fn=<NativeLayerNormBackward0>) +``` + +## インストール / Installation + +```shell script +$ pip install sudachitra +``` + +デフォルトの [Sudachi dictionary](https://github.com/WorksApplications/SudachiDict) は [SudachiDict-core](https://pypi.org/project/SudachiDict-core/) を使用します。 / The default [Sudachi dictionary](https://github.com/WorksApplications/SudachiDict) is [SudachiDict-core](https://pypi.org/project/SudachiDict-core/). + +[SudachiDict-small](https://pypi.org/project/SudachiDict-small/) や [SudachiDict-full](https://pypi.org/project/SudachiDict-full/) など他の辞書をインストールして使用することもできます。 / You can use other dictionaries, such as [SudachiDict-small](https://pypi.org/project/SudachiDict-small/) and [SudachiDict-full](https://pypi.org/project/SudachiDict-full/) .<br/> +その場合は以下のように使いたい辞書をインストールしてください。 / In such cases, you need to install the dictionaries.<br/> +事前学習済みモデルを使いたい場合はcore辞書を使用して学習されていることに注意してください。 / If you want to use a pre-trained model, note that it is trained with SudachiDict-core. + +```shell script +$ pip install sudachidict_small sudachidict_full +``` + +## 事前学習 / Pretraining + +事前学習方法の詳細は [pretraining/bert/README.md](https://github.com/WorksApplications/SudachiTra/tree/main/pretraining/bert) を参照ください。 / Please refer to [pretraining/bert/README.md](https://github.com/WorksApplications/SudachiTra/tree/main/pretraining/bert). + + +## 開発者向け / For Developers +TBD + +## ライセンス / Licence + +Copyright (c) 2022 National Institute for Japanese Language and Linguistics and Works Applications Co., Ltd. All rights reserved. + +"chiTra"は [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0) で [国立国語研究所](https://www.ninjal.ac.jp/) 及び [株式会社ワークスアプリケーションズ](https://www.worksap.co.jp/) によって提供されています。 / "chiTra" is distributed by [National Institute for Japanese Language and Linguistics](https://www.ninjal.ac.jp/) and [Works Applications Co.,Ltd.](https://www.worksap.co.jp/) under [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0). + + +## 連絡先 / Contact us +質問があれば、issueやslackをご利用ください。 / Open an issue, or come to our Slack workspace for questions and discussion. + +開発者やユーザーの方々が質問したり議論するためのSlackワークスペースを用意しています。 / We have a Slack workspace for developers and users to ask questions and discuss. +https://sudachi-dev.slack.com/ ( [こちら](https://join.slack.com/t/sudachi-dev/shared_invite/enQtMzg2NTI2NjYxNTUyLTMyYmNkZWQ0Y2E5NmQxMTI3ZGM3NDU0NzU4NGE1Y2UwYTVmNTViYjJmNDI0MWZiYTg4ODNmMzgxYTQ3ZmI2OWU) から招待を受けてください) / https://sudachi-dev.slack.com/ (Get invitation [here](https://join.slack.com/t/sudachi-dev/shared_invite/enQtMzg2NTI2NjYxNTUyLTMyYmNkZWQ0Y2E5NmQxMTI3ZGM3NDU0NzU4NGE1Y2UwYTVmNTViYjJmNDI0MWZiYTg4ODNmMzgxYTQ3ZmI2OWU) ) + + + +## chiTraの引用 / Citing chiTra +chiTraについての論文を発表しています。 / Citing chiTra +We have published a following paper about chiTra; +- 勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸, 単語正規化による表記ゆれに頑健な BERT モデルの構築. 言語処理学会第28回年次大会, 2022. + +chiTraを論文や書籍、サービスなどで引用される際には、以下のBibTexをご利用ください。 / When citing chiTra in papers, books, or services, please use the follow BibTex entries; +``` +@INPROCEEDINGS{katsuta2022chitra, + author = {勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸}, + title = {単語正規化による表記ゆれに頑健な BERT モデルの構築}, + booktitle = "言語処理学会第28回年次大会(NLP2022)", + year = "2022", + pages = "", + publisher = "言語処理学会", +} +``` + +Enjoy chiTra! + + +%prep +%autosetup -n SudachiTra-0.1.8 + +%build +%py3_build + +%install +%py3_install +install -d -m755 %{buildroot}/%{_pkgdocdir} +if [ -d doc ]; then cp -arf doc %{buildroot}/%{_pkgdocdir}; fi +if [ -d docs ]; then cp -arf docs %{buildroot}/%{_pkgdocdir}; fi +if [ -d example ]; then cp -arf example %{buildroot}/%{_pkgdocdir}; fi +if [ -d examples ]; then cp -arf examples %{buildroot}/%{_pkgdocdir}; fi +pushd %{buildroot} +if [ -d usr/lib ]; then + find usr/lib -type f -printf "/%h/%f\n" >> filelist.lst +fi +if [ -d usr/lib64 ]; then + find usr/lib64 -type f -printf "/%h/%f\n" >> filelist.lst +fi +if [ -d usr/bin ]; then + find usr/bin -type f -printf "/%h/%f\n" >> filelist.lst +fi +if [ -d usr/sbin ]; then + find usr/sbin -type f -printf "/%h/%f\n" >> filelist.lst +fi +touch doclist.lst +if [ -d usr/share/man ]; then + find usr/share/man -type f -printf "/%h/%f.gz\n" >> doclist.lst +fi +popd +mv %{buildroot}/filelist.lst . +mv %{buildroot}/doclist.lst . + +%files -n python3-SudachiTra -f filelist.lst +%dir %{python3_sitelib}/* + +%files help -f doclist.lst +%{_docdir}/* + +%changelog +* Wed May 31 2023 Python_Bot <Python_Bot@openeuler.org> - 0.1.8-1 +- Package Spec generated @@ -0,0 +1 @@ +44e20ed75b908f479db0b4e7aa96edc1 SudachiTra-0.1.8.tar.gz |