summaryrefslogtreecommitdiff
path: root/python-biu.spec
blob: cf96a691ad5518a505ba1b700ce56ec99e846856 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
%global _empty_manifest_terminate_build 0
Name:		python-Biu
Version:	0.2.5
Release:	1
Summary:	A tiny web crawler framework.
License:	MIT
URL:		https://github.com/Windfarer/biu
Source0:	https://mirrors.nju.edu.cn/pypi/web/packages/99/5a/f3304b843a6db3d7349ca900c2e6ba2ed5b34ca14dea994f4aa2051db1ce/Biu-0.2.5.tar.gz
BuildArch:	noarch

Requires:	python3-gevent
Requires:	python3-requests
Requires:	python3-parsel

%description

# Biu
A tiny web crawler framework

## Features
* 请使用 Python3.6 或更高版本
* 并发基于 Gevent,因此你必须在脚本一开始`import biu`,或者自行 monkey patch
* 请求基于 Requests,请求与请求结果的参数与 Requests 基本兼容
* 页面解析基于 Parsel, 因此使用方法与 Scrapy 一致
* 基本是一个缩水版的 Scrapy,用法与之非常类似
* 更多高级功能请面向源代码编程,自行发掘

## Installation
```
pip install biu
```

## Example
```python
import biu  ## Must be the first line, because of monkey-included.


class MySpider(biu.Project):
    def start_requests(self):
        for i in range(0, 301, 30):
            # return 或者 yield 一个 biu.Request 就会去访问一个页面,参数与 requests 的那个基本上是兼容的
            yield biu.Request(url="https://www.douban.com/group/explore/tech?start={}".format(i),
                              method="GET",
                              headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"},
                              callback=self.parse)

    def parse(self, resp):
        ## biu.Response 和 requests 的那个差不多,加了几个选择器上去
        for item in resp.xpath('//*[@id="content"]/div/div[1]/div[1]/div'):
            yield {
                "title": item.xpath("div[2]/h3/a/text()").extract_first(),
                "url": item.xpath("div[2]/h3/a/@href").extract_first(),
                "abstract": item.css("p::text").extract_first()
            }
            # return 或者 yield 一个 dict, 就会当作结果传到result_handler里进行处理


    def result_handler(self, rv):
        print("get result:", rv)
        # 在这把你的结果存了

biu.run(MySpider(concurrent=3, interval=0.2, max_retry=5))

```



%package -n python3-Biu
Summary:	A tiny web crawler framework.
Provides:	python-Biu
BuildRequires:	python3-devel
BuildRequires:	python3-setuptools
BuildRequires:	python3-pip
%description -n python3-Biu

# Biu
A tiny web crawler framework

## Features
* 请使用 Python3.6 或更高版本
* 并发基于 Gevent,因此你必须在脚本一开始`import biu`,或者自行 monkey patch
* 请求基于 Requests,请求与请求结果的参数与 Requests 基本兼容
* 页面解析基于 Parsel, 因此使用方法与 Scrapy 一致
* 基本是一个缩水版的 Scrapy,用法与之非常类似
* 更多高级功能请面向源代码编程,自行发掘

## Installation
```
pip install biu
```

## Example
```python
import biu  ## Must be the first line, because of monkey-included.


class MySpider(biu.Project):
    def start_requests(self):
        for i in range(0, 301, 30):
            # return 或者 yield 一个 biu.Request 就会去访问一个页面,参数与 requests 的那个基本上是兼容的
            yield biu.Request(url="https://www.douban.com/group/explore/tech?start={}".format(i),
                              method="GET",
                              headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"},
                              callback=self.parse)

    def parse(self, resp):
        ## biu.Response 和 requests 的那个差不多,加了几个选择器上去
        for item in resp.xpath('//*[@id="content"]/div/div[1]/div[1]/div'):
            yield {
                "title": item.xpath("div[2]/h3/a/text()").extract_first(),
                "url": item.xpath("div[2]/h3/a/@href").extract_first(),
                "abstract": item.css("p::text").extract_first()
            }
            # return 或者 yield 一个 dict, 就会当作结果传到result_handler里进行处理


    def result_handler(self, rv):
        print("get result:", rv)
        # 在这把你的结果存了

biu.run(MySpider(concurrent=3, interval=0.2, max_retry=5))

```



%package help
Summary:	Development documents and examples for Biu
Provides:	python3-Biu-doc
%description help

# Biu
A tiny web crawler framework

## Features
* 请使用 Python3.6 或更高版本
* 并发基于 Gevent,因此你必须在脚本一开始`import biu`,或者自行 monkey patch
* 请求基于 Requests,请求与请求结果的参数与 Requests 基本兼容
* 页面解析基于 Parsel, 因此使用方法与 Scrapy 一致
* 基本是一个缩水版的 Scrapy,用法与之非常类似
* 更多高级功能请面向源代码编程,自行发掘

## Installation
```
pip install biu
```

## Example
```python
import biu  ## Must be the first line, because of monkey-included.


class MySpider(biu.Project):
    def start_requests(self):
        for i in range(0, 301, 30):
            # return 或者 yield 一个 biu.Request 就会去访问一个页面,参数与 requests 的那个基本上是兼容的
            yield biu.Request(url="https://www.douban.com/group/explore/tech?start={}".format(i),
                              method="GET",
                              headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"},
                              callback=self.parse)

    def parse(self, resp):
        ## biu.Response 和 requests 的那个差不多,加了几个选择器上去
        for item in resp.xpath('//*[@id="content"]/div/div[1]/div[1]/div'):
            yield {
                "title": item.xpath("div[2]/h3/a/text()").extract_first(),
                "url": item.xpath("div[2]/h3/a/@href").extract_first(),
                "abstract": item.css("p::text").extract_first()
            }
            # return 或者 yield 一个 dict, 就会当作结果传到result_handler里进行处理


    def result_handler(self, rv):
        print("get result:", rv)
        # 在这把你的结果存了

biu.run(MySpider(concurrent=3, interval=0.2, max_retry=5))

```



%prep
%autosetup -n Biu-0.2.5

%build
%py3_build

%install
%py3_install
install -d -m755 %{buildroot}/%{_pkgdocdir}
if [ -d doc ]; then cp -arf doc %{buildroot}/%{_pkgdocdir}; fi
if [ -d docs ]; then cp -arf docs %{buildroot}/%{_pkgdocdir}; fi
if [ -d example ]; then cp -arf example %{buildroot}/%{_pkgdocdir}; fi
if [ -d examples ]; then cp -arf examples %{buildroot}/%{_pkgdocdir}; fi
pushd %{buildroot}
if [ -d usr/lib ]; then
	find usr/lib -type f -printf "/%h/%f\n" >> filelist.lst
fi
if [ -d usr/lib64 ]; then
	find usr/lib64 -type f -printf "/%h/%f\n" >> filelist.lst
fi
if [ -d usr/bin ]; then
	find usr/bin -type f -printf "/%h/%f\n" >> filelist.lst
fi
if [ -d usr/sbin ]; then
	find usr/sbin -type f -printf "/%h/%f\n" >> filelist.lst
fi
touch doclist.lst
if [ -d usr/share/man ]; then
	find usr/share/man -type f -printf "/%h/%f.gz\n" >> doclist.lst
fi
popd
mv %{buildroot}/filelist.lst .
mv %{buildroot}/doclist.lst .

%files -n python3-Biu -f filelist.lst
%dir %{python3_sitelib}/*

%files help -f doclist.lst
%{_docdir}/*

%changelog
* Mon May 29 2023 Python_Bot <Python_Bot@openeuler.org> - 0.2.5-1
- Package Spec generated