%global _empty_manifest_terminate_build 0 Name: python-hazm Version: 0.7.0 Release: 1 Summary: Python library for digesting Persian text. License: MIT License URL: http://www.sobhe.ir/hazm/ Source0: https://mirrors.nju.edu.cn/pypi/web/packages/70/3e/df5da64eabfcb25f3e58e45bdeca3b806c18d57800fb94d584c5608fca07/hazm-0.7.0.tar.gz BuildArch: noarch Requires: python3-nltk Requires: python3-libwapiti Requires: python3-libwapiti %description Python library for digesting Persian text. + Text cleaning + Sentence and word tokenizer + Word lemmatizer + POS tagger + Shallow parser + Dependency parser + Interfaces for Persian corpora + [NLTK](http://nltk.org/) compatible + Python 2.7, 3.4, 3.5 and 3.6 support + [![Build Status](https://travis-ci.org/sobhe/hazm.png)](https://travis-ci.org/sobhe/hazm) ## Usage ```python >>> from __future__ import unicode_literals >>> from hazm import * >>> normalizer = Normalizer() >>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند') 'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند' >>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟') ['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟'] >>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟') ['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟'] >>> stemmer = Stemmer() >>> stemmer.stem('کتاب‌ها') 'کتاب' >>> lemmatizer = Lemmatizer() >>> lemmatizer.lemmatize('می‌روم') 'رفت#رو' >>> tagger = POSTagger(model='resources/postagger.model') >>> tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم')) [('ما', 'PRO'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('می‌خوانیم', 'V')] >>> chunker = Chunker(model='resources/chunker.model') >>> tagged = tagger.tag(word_tokenize('کتاب خواندن را دوست داریم')) >>> tree2brackets(chunker.parse(tagged)) '[کتاب خواندن NP] [را POSTP] [دوست داریم VP]' >>> parser = DependencyParser(tagger=tagger, lemmatizer=lemmatizer) >>> parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟')) ``` ## Installation The latest stabe verson of Hazm can be installed through `pip`: pip install hazm But for testing or using Hazm with the latest updates you may use: pip install https://github.com/sobhe/hazm/archive/master.zip --upgrade We have also trained [tagger and parser models](https://github.com/sobhe/hazm/releases/download/v0.5/resources-0.5.zip). You may put these models in the `resources` folder of your project. ## Extensions Note: These are not official versions of hazm, not uptodate on functionality and are not supported by Sobhe. + [**JHazm**](https://github.com/mojtaba-khallash/JHazm): A Java port of Hazm + [**NHazm**](https://github.com/mojtaba-khallash/NHazm): A C# port of Hazm ## Thanks + to constributors: [Mojtaba Khallash](https://github.com/mojtaba-khallash) and [Mohsen Imany](https://github.com/imani). + to [Virastyar](http://virastyar.ir/) project for persian word list. %package -n python3-hazm Summary: Python library for digesting Persian text. Provides: python-hazm BuildRequires: python3-devel BuildRequires: python3-setuptools BuildRequires: python3-pip %description -n python3-hazm Python library for digesting Persian text. + Text cleaning + Sentence and word tokenizer + Word lemmatizer + POS tagger + Shallow parser + Dependency parser + Interfaces for Persian corpora + [NLTK](http://nltk.org/) compatible + Python 2.7, 3.4, 3.5 and 3.6 support + [![Build Status](https://travis-ci.org/sobhe/hazm.png)](https://travis-ci.org/sobhe/hazm) ## Usage ```python >>> from __future__ import unicode_literals >>> from hazm import * >>> normalizer = Normalizer() >>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند') 'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند' >>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟') ['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟'] >>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟') ['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟'] >>> stemmer = Stemmer() >>> stemmer.stem('کتاب‌ها') 'کتاب' >>> lemmatizer = Lemmatizer() >>> lemmatizer.lemmatize('می‌روم') 'رفت#رو' >>> tagger = POSTagger(model='resources/postagger.model') >>> tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم')) [('ما', 'PRO'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('می‌خوانیم', 'V')] >>> chunker = Chunker(model='resources/chunker.model') >>> tagged = tagger.tag(word_tokenize('کتاب خواندن را دوست داریم')) >>> tree2brackets(chunker.parse(tagged)) '[کتاب خواندن NP] [را POSTP] [دوست داریم VP]' >>> parser = DependencyParser(tagger=tagger, lemmatizer=lemmatizer) >>> parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟')) ``` ## Installation The latest stabe verson of Hazm can be installed through `pip`: pip install hazm But for testing or using Hazm with the latest updates you may use: pip install https://github.com/sobhe/hazm/archive/master.zip --upgrade We have also trained [tagger and parser models](https://github.com/sobhe/hazm/releases/download/v0.5/resources-0.5.zip). You may put these models in the `resources` folder of your project. ## Extensions Note: These are not official versions of hazm, not uptodate on functionality and are not supported by Sobhe. + [**JHazm**](https://github.com/mojtaba-khallash/JHazm): A Java port of Hazm + [**NHazm**](https://github.com/mojtaba-khallash/NHazm): A C# port of Hazm ## Thanks + to constributors: [Mojtaba Khallash](https://github.com/mojtaba-khallash) and [Mohsen Imany](https://github.com/imani). + to [Virastyar](http://virastyar.ir/) project for persian word list. %package help Summary: Development documents and examples for hazm Provides: python3-hazm-doc %description help Python library for digesting Persian text. + Text cleaning + Sentence and word tokenizer + Word lemmatizer + POS tagger + Shallow parser + Dependency parser + Interfaces for Persian corpora + [NLTK](http://nltk.org/) compatible + Python 2.7, 3.4, 3.5 and 3.6 support + [![Build Status](https://travis-ci.org/sobhe/hazm.png)](https://travis-ci.org/sobhe/hazm) ## Usage ```python >>> from __future__ import unicode_literals >>> from hazm import * >>> normalizer = Normalizer() >>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند') 'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند' >>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟') ['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟'] >>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟') ['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟'] >>> stemmer = Stemmer() >>> stemmer.stem('کتاب‌ها') 'کتاب' >>> lemmatizer = Lemmatizer() >>> lemmatizer.lemmatize('می‌روم') 'رفت#رو' >>> tagger = POSTagger(model='resources/postagger.model') >>> tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم')) [('ما', 'PRO'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('می‌خوانیم', 'V')] >>> chunker = Chunker(model='resources/chunker.model') >>> tagged = tagger.tag(word_tokenize('کتاب خواندن را دوست داریم')) >>> tree2brackets(chunker.parse(tagged)) '[کتاب خواندن NP] [را POSTP] [دوست داریم VP]' >>> parser = DependencyParser(tagger=tagger, lemmatizer=lemmatizer) >>> parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟')) ``` ## Installation The latest stabe verson of Hazm can be installed through `pip`: pip install hazm But for testing or using Hazm with the latest updates you may use: pip install https://github.com/sobhe/hazm/archive/master.zip --upgrade We have also trained [tagger and parser models](https://github.com/sobhe/hazm/releases/download/v0.5/resources-0.5.zip). You may put these models in the `resources` folder of your project. ## Extensions Note: These are not official versions of hazm, not uptodate on functionality and are not supported by Sobhe. + [**JHazm**](https://github.com/mojtaba-khallash/JHazm): A Java port of Hazm + [**NHazm**](https://github.com/mojtaba-khallash/NHazm): A C# port of Hazm ## Thanks + to constributors: [Mojtaba Khallash](https://github.com/mojtaba-khallash) and [Mohsen Imany](https://github.com/imani). + to [Virastyar](http://virastyar.ir/) project for persian word list. %prep %autosetup -n hazm-0.7.0 %build %py3_build %install %py3_install install -d -m755 %{buildroot}/%{_pkgdocdir} if [ -d doc ]; then cp -arf doc %{buildroot}/%{_pkgdocdir}; fi if [ -d docs ]; then cp -arf docs %{buildroot}/%{_pkgdocdir}; fi if [ -d example ]; then cp -arf example %{buildroot}/%{_pkgdocdir}; fi if [ -d examples ]; then cp -arf examples %{buildroot}/%{_pkgdocdir}; fi pushd %{buildroot} if [ -d usr/lib ]; then find usr/lib -type f -printf "/%h/%f\n" >> filelist.lst fi if [ -d usr/lib64 ]; then find usr/lib64 -type f -printf "/%h/%f\n" >> filelist.lst fi if [ -d usr/bin ]; then find usr/bin -type f -printf "/%h/%f\n" >> filelist.lst fi if [ -d usr/sbin ]; then find usr/sbin -type f -printf "/%h/%f\n" >> filelist.lst fi touch doclist.lst if [ -d usr/share/man ]; then find usr/share/man -type f -printf "/%h/%f.gz\n" >> doclist.lst fi popd mv %{buildroot}/filelist.lst . mv %{buildroot}/doclist.lst . %files -n python3-hazm -f filelist.lst %dir %{python3_sitelib}/* %files help -f doclist.lst %{_docdir}/* %changelog * Wed May 10 2023 Python_Bot - 0.7.0-1 - Package Spec generated