diff options
author | CoprDistGit <infra@openeuler.org> | 2023-05-31 05:20:52 +0000 |
---|---|---|
committer | CoprDistGit <infra@openeuler.org> | 2023-05-31 05:20:52 +0000 |
commit | 78dae364cff05a48032626f2b607fa3be5daa8a2 (patch) | |
tree | 6dc3ee6635ae301aa840a44461e3517c553df3a8 | |
parent | 0336df13f03fc46add1dbc431fe1cabee2997cb5 (diff) |
automatic import of python-listpage
-rw-r--r-- | .gitignore | 1 | ||||
-rw-r--r-- | python-listpage.spec | 1760 | ||||
-rw-r--r-- | sources | 1 |
3 files changed, 1762 insertions, 0 deletions
@@ -0,0 +1 @@ +/ListPage-1.0.4.tar.gz diff --git a/python-listpage.spec b/python-listpage.spec new file mode 100644 index 0000000..371afdd --- /dev/null +++ b/python-listpage.spec @@ -0,0 +1,1760 @@ +%global _empty_manifest_terminate_build 0 +Name: python-ListPage +Version: 1.0.4 +Release: 1 +Summary: Page classes dedicated to crawling or manipulating list web pages. +License: BSD +URL: https://gitee.com/g1879/ListPage +Source0: https://mirrors.nju.edu.cn/pypi/web/packages/1b/bf/b2e1c360e5601348555f4ae5d3923e499390648c2143d81122c1125c3abd/ListPage-1.0.4.tar.gz +BuildArch: noarch + +Requires: python3-DrissionPage +Requires: python3-DataRecorder + +%description +# 简介 + +*** + +优雅的列表爬虫。 + +本库是专门用于爬取或操作列表式网页的页面类,基于 DrissionPage。 +页面类抽象了列表式页面基本特征,封装了常用方法。 +只需少量设置即可进行爬取或页面操作,实现可复用、可扩展。 +广泛适用于各种网站的列表页面。 + +示例:https://gitee.com/g1879/DrissionPage-demos + +DrissionPage库:https://gitee.com/g1879/DrissionPage + +联系邮箱:g1879@qq.com + +# 背景及特性 + +**背景** + +大量的数据用列表页方式存放在网站中,这些列表页有相同的特征,用相同的方法爬取。 +爬取网站时经常重复编写相同的代码,做重复的劳动。 +因此本库把列表页共有的特征提取出来,封装成类,实现可复用。减轻开发的工作量。 + +**特性** + +- 配置简单,上手容易 +- 封装常用列表页属性及方法,实现可复用 +- 不同类型页面使用相同的操作方式,使用方便 +- 可根据特殊情况扩展,实用性强 +- 支持 requests 和 selenium 方式,并支持无缝切换 + +**原理** + +所有列表页都有共同的特征:**数据行**、**行中的数据列**。能通过 **翻页按钮** 或 **滚动页面** 方式翻页。 + +只要获取到这几个元素的定位方式,就能封装一个方法实现 **读取 -> 翻页(滚动) -> 读取** 的循环操作,直到没有下一页或到达指定页数。 + +本库支持 xpath 或 css selector 路径,针对不同页面把必要元素路径传递给页面对象,即可实现一行爬取全部页的功能。 + +# 简单演示 + +*** + +一段简单的代码,演示爬取码云推荐项目列表(全部页)。 + +```python +from ListPage import ListPage, Targets, Xpaths + +# 定义页面结构 +xpaths = Xpaths() +xpaths.pages_count = '//a[@class="icon item"]/preceding-sibling::a[1]' # 总页数 +xpaths.rows = '//div[@class="project-title"]' # 行 +xpaths.set_col('项目', './/h3/a') # 列1 +xpaths.set_col('星数', './/div[@class="stars-count"]') # 列2 + +# 定义目标 +targets = Targets(xpaths) +targets.add_target('项目') +targets.add_target('项目', 'href') +targets.add_target('星数') + +# 列表第一页 +url = 'https://gitee.com/explore/weixin-app?page=1' + +p = ListPage(xpaths, url) +p.num_param = 'page' # url中页面的参数 + +# 爬取全部页 +p.get_list(targets) +``` + +输出: + +``` +第1页 +https://gitee.com/explore/all +['guanguans/soar-php', 'https://gitee.com/guanguans/soar-php', '6'] +...第1页省略部分... +['drinkjava2/jBeanBox', 'https://gitee.com/drinkjava2/jBeanBox', '61'] + +第2页 +https://gitee.com/explore/all?page=2 +['pai01234/tokencore', 'https://gitee.com/pai01234/tokencore', '22'] +...第2页省略部分... +['docsifyjs/docsify', 'https://gitee.com/docsifyjs/docsify', '47'] + +...省略下面98页... +``` + +# 使用方法 + +*** + +## 安装及导入 + +**安装** + +``` +pip install ListPage +``` + +**导入** + +```python +# 翻页式列表页 +from ListPage import ListPage, Paths, Targets + +# 滚动式列表页 +from ListPage import ScrollingPage, Paths, Targets +``` + +## 初始化 + +如只使用 requests 方式爬取,或已在系统变量加入 chrome.exe 和 chromedriver.exe 的路径,可跳过本节。 + +ListPage 是基于 DrissionPage 实现的,初始化的方法与 DrissionPage 一致,请查看 [DrissionPage 初始化方法]()。 + +## 定位符 + +> 了解用法前先了解定位符概念,这个概念是进阶用法,如须快速上手可暂时跳过本节。 + +有些数据不是储存在元素的文本,而是在元素某个属性中,还可能不是整个字段,而是字段的一部分。因此本库设定了一个定位符格式,用于提取这样的数据。 + +定位符在定义页面总页数、设置目标时会用到。 + +示例 + +```html +<img alt="金刚川" class="board-img" src="https://p1.meituan.net/moviemachine/5cbf9a626b7ed27c96ca3c748655b3ec2550103.jpg@160w_220h_1e_1c"> +``` + +例如猫眼电影榜单中的图片,我们想下载这张图片,就要获取 src 属性,而且要去掉后面 @160w_220h_1e_1c 部分。这个数据的定位符可以这样写: + +```python +('封面', 'src', r'(.*)@') +``` + +定位符由3部分组成 + +1. 第一部分是元素定位语句,这里的 '封面' 是指在 paths 已定义的 '封面' 列 +2. 第二部分是元素的属性名,可省略,省略时默认为 text +3. 第三部分是从元素属性提取内容的正则表达式,可省略,省略时默匹配整个字段 + +注意,如有第三部分,则第二部分的 'text' 不可省略。 + +综上所述,定位符有以下形式: + +```python +'作者' # 单个字符串,即('作者', 'text', '(.*)') +('作者') # 和上一行相同,省略二三部分 +('链接', 'href') # 省略第三部分,即('链接', 'href', '(.*)') +('封面', 'src', r'(.*)@') # 三部分都写全 +``` + +## Paths 类 + +Paths 类用于管理关键元素的路径信息。ListPage 创建时须接收记录了页面元素路径的 Paths 对象或字典,用于解析页面。 + +路径用 xpath 和 css selector 都可以,但一个 Paths 对象保存的路径必须是同一种类的。 + +**创建 Paths 对象:** + +```python +paths = Paths('css') # 创建类型为css selector的Paths对象 +paths = Paths(paths_dict=paths_dict) # 通过字典创建,字典格式见下文 +``` + +**Paths 类属性:** + +```python +# 路径的类型,'css'或'xpath' +paths.type + +# 共有的关键元素 +paths.rows # 列表行元素的定位路径,必须 +paths.cols # 行元素中列元素的定位路径,字典格式,必须 +paths.next_btn # 下一页或加载更多按钮元素路径,按页面情况使用,非必须 + +# 翻页式列表页独有属性 +paths.pages_count # 定位符,总页数所在元素路径,非必须 + +# 滚动式列表页独有属性 +paths.container # 列表容器,必须 +``` + +**Paths 类方法:** + +```python +# 获取某列的路径 +paths.get_col(col_name) + +# 设置一列路径 +paths.set_col(col) + +# 设置多列路径 +paths.set_col({'col1': 'path1', 'col2': 'path2', ...}) # 用字典设置列 +paths.set_col(('col', 'path')) # 通过一维列表或元组设置列 +paths.set_col((('col1', 'path11'), ('col2', 'path2'), ...)) # 通过二维列表或元组设置列 + +# 从字典读取全部路径设置 +paths.from_dict(paths_dict) + +# 以字典形式输出保存的路径 +paths.as_dict() +``` + +**通过字典创建** + +```python +paths_dict = { + # 路径的类型,只能是'css'或'xpath',非必须 + 'type': 'css', + + # 行元素路径,必须 + 'rows': 'xpath 或 css selector', + + # 列元素相对于行元素的路径,必须 + 'cols': { + 'col1': 'xpath 或 css selector', + 'col2': 'xpath 或 css selector', + ... + } + + # 翻页式页面总页数获取定位符,格式见上一节,非必须 + 'pages_count': 定位符, + + # 下一页(翻页式)或加载更多(滚动式)按钮元素路径,非必须 + 'next_btn': 'xpath 或 css selector', + + # 行元素所在容器路径,滚动式页面专用,使用滚动式页面时必须 + 'container': 'xpath 或 css selector', +} + +paths = Paths(paths_dict=paths_dict) +``` + +**Tips:** + +- ListPage 不是必须接收 Paths 对象,接收格式正确的字典也是可以的。 +- 如果不指定 type,程序会尝试从字符串中判断类型 +- 滚动式页面的列路径是相对于 container 的路径的 + +### Xpaths 类和 CssPaths 类 + +Xpaths 类和 CssPaths 类是 Paths 类的子类,用法与 Paths 类一致,但其 type 属性是不能改变的。 + +## Targets 类 + +Targets 类用于定义爬取目标。 + +Targets 对象接收一个 Paths 对象或定义路径的字典,针对列来定义爬取目标。 +每个目标要有一个唯一的名字,内容由一个定位符表示:(列名, [属性名, 正则表达式]) 。定位符用法见上文。 + +示例: + +```python +targets.add_targets('项目名', '项目') # 前一个是目标名称,后一个是列名 +targets.add_targets('链接', '项目', 'href') # 在'项目'列获取href属性定义为链接目标 +targets.add_targets('序号', '序号', 'text', '(//d+)') # 在'序号'列获取数字定义为序号目标 +targets.start_stop_row = (1,) # 爬取第2行到最后一行,规则和切片一致 +``` + +**创建 Targets 对象:** + +```python +targets = Targets(paths) # 创建时要接收一个Paths对象或路径字典,创建这个值后不能修改 +targets = Targets(paths, targets_dict) # 创建时同时接收目标字典,直接创建目标 +``` + +**Targets 类属性:** + +```python +targets.paths # 页面路径管理 Paths 对象 +targets.start_stop_row # 设置爬取列表起止行号 +targets.targets # 返回所有目标组成的字典 +``` + +**Tips:** 有些列表表头表尾不容易通过定位语句和内容区分,因此可设置爬取范围,忽略表头表尾 + +**Targets 类方法:** + +```python +targets.set_targets(targets_dict) # 通过传入字典批量设置目标 +targets.add_target(name, col, attr, re_str) # 增加单个目标 +``` + +Targets 对象中的目标是针对其保存的 Paths 对象的列设置的。 + +**通过字典创建** + +```python +targets_dict = { + 'start_stop': (1, -1), # 爬取第2到倒数第2行,规则与切片的一样,非必须 + '目标1': '列1', + '目标2': ('列2', 'href'), + '目标3': ('列3', 'src', '(.*)@') + ... +} + +targets = Targets(targets_dict) +``` + +**start_stop规则** + +与切片规则一致,0 为第一个,-1 为最后一个,包含前面的数字,不包含后面的数字。第二个数字可省略,如省略,则爬到最后一行。 + +示例: + +```python +(0, 5) # 爬取第1行到第4行 +(2, -2) # 爬取第3行到倒数第3行 +(1,) # 爬取第2行到最后一行 +(1, None) # 爬取第2行到最后一行 +``` + +**Tips:** ListPage 不是必须接收 Targets 对象,接收格式正确的字典也是可以的。 + +## ListPage 类 + +ListPage 类是翻页式列表页基本类,继承自 DrissionPage 的 MixPage 类。 +专门用于处理翻页式列表页面。如商城产品页、文章列表页。 +它有两种模式,s 模式使用 requests 处理页面,d 模式使用 selenium。 +s 模式效率高,适用于非 js 加载页面数据爬取。 +d 模式可处理 js 加载的页面,可用于自动化操作。 +这两种模式可以互相切换,但要一般没有必要。 + +**创建 ListPage 对象:** + +```python +page = ListPage(paths, index_url, mode, timeout, drission) +'''参数说明 +paths: Paths对象或路径字典 +index_url: 列表第一页url +mode: 's'使用requests,'d'使用selenium +timeout: s模式时为连接等待时间,d模式时为查找元素等待时间 +drission: 驱动器对象,可忽略,详见DrissionPage库 +''' +``` + +**ListPage 属性:** + +```python +page.paths # 页面元素管理对象 +page.pages_count # 总页数 +page.current_page_num # 当前页码 +page.num_param # url中的页码参数 +page.step # 页码步长,配合num_param属性使用 +page.first_num # 第一个页码是0还是1,配合num_param属性使用 +``` + +**ListPage 方法:** + +```python +page.to_first_page() # 跳转到第一页 +page.to_next_page(wait) # 跳转到下一页,然后等待若干秒 +page.to_page(num, wait) # 跳转到任意页,然后等待若干秒 +page.get_current_rows() # 获取当前行元素 +page.get_current_list(targets) # 根据targets中定义的目标获取结果列表 +page.get_list(targets, begin, count, stop_when_empty, wait, show_msg, recorder, return_data) +'''参数说明 +targets: Targets对象或目标字典 +begin: 起始页码 +count: 爬取页数 +stop_when_empty: 遇到空页是否停止,一般应对无法获取总页数时使用 +wait: 翻页后等待秒数 +show_msg: 是否实时打印爬取到的信息 +recorder: 记录器对象,详见下文 +return_data: 是否返回结果,如设置了记录器,不返回结果可以节省内存 +''' +``` + +**Tips:** + +- get_list() 是爬取列表页的核心方法 +- 用 get_current_rows() 获取到行元素对象可用于自动化操作 + +**返回的格式** + +爬取结果以列表形式呈现,每行数据为一个字典。 + +```python +[ + {'目标1': '结果1', '目标2': '结果2', ...}, + {'目标1': '结果1', '目标2': '结果2', ...}, + ... +] +``` + +### 不同列表页的应对方法 + +总的来说,爬取列表页的思路是: +**获取总页数** > **爬取一页数据** > **点击下一页按钮或访问下一页链接** > **循环直到最后一页或指定页** + +但列表页有多种形态,不一定都提供需要的元素,本库提供灵活的配置,可适应绝大多数列表页的处理。 + +- **url 带页码信息的列表页** + +这种列表页 url 中带页码参数或把路径写在页码中,将其提取出来可大大提高定位页面的效率。 + +示例: + +``` +https://gitee.com/explore/all?page=1 +https://sz.lianjia.com/ershoufang/pg1/ +https://www.procell.com.cn/filters-type-3-p-1.html +https://maoyan.com/board/6?offset=10 +``` + +针对这种页面,可设置 ListPage对象的 num_param 属性。这种方法只适用于页码是有规律数字的情况。 +注意,使用 num_param 时,页面对象的 index_url 属性里也必须包含页码参数。 + +以上页面的 num_param 设置方法: + +```python +# https://gitee.com/explore/all?page=1 +page.num_param = 'page' + +# https://sz.lianjia.com/ershoufang/pg1/ +page.num_param = '/pg' + +# https://www.procell.com.cn/filters-type-3-p-1.html +page.num_param = '/filters-type-3-p-' + +# https://maoyan.com/board/6?offset=0 +page.num_param = 'offset' +page.step = 10 +page.first_num = 0 +``` + +可以看出,当页码为 url 后续参数时,直接设置参数名;当是路径一部分时,加上 '/',程序会匹配后续的数字。 + +注意以上最后一种情况,页码步长为 10,并且以 0 为第一页,因此需要设置 step 和 first_num 两个属性。 + +设置 num_param 属性后,无须定义下一页按钮的路径即可进行爬取、翻页等操作,程序会用替换数字的方式产生任意页的 url。 + +- **无法获取总页数的页面** + +针对这种页面可指定 pages_count 属性,或在爬取时设置爬取页数。 +如两者都不设置,在爬全部页时,程序直到空页或没有下一页按钮时就会停下。 + +```python +page.pages_count = 100 # 手动设置总页数 +page.get_list(targets, count=100) # 在爬取时指定爬取页数 +``` + +- **JS 加载的列表页** + +这种列表页使用 ajax 获取列表内容,url 不会变化,适合用 d 模式进行爬取。 +d 模式使用 selenium 模拟操作网页,反复点击下一页按钮即可实现翻页。 + +```python +page = ListPage(xpaths, index_url, 'd') # 用d模式创建列表页对象 +``` + +- **模式切换** + +ListPage 继承自 MixPage,因此也支持 s 模式和 d 模式之间的切换,以及 MixPage 一切功能。 + +```python +page.change_mod() # 切换模式 +``` + +MixPage 详情请查看 [DrissionPage 库](https://gitee.com/g1879/DrissionPage) + +## ScrollingPage 类 + +ScrollingPage 类是滚动加载式列表页基本类,继承自 DrissionPage 的 MixPage 类。 +专门用于处理滚动加载式列表页面。如新闻列表页。 +封装了对页面的基本读取和操作方法,只能在 MixPage 的 d 模式下工作。 + +**创建 ScrollingPage 类对象** + +```python +page = ScrollingPage(paths, index_url, timeout, drission) +``` + +参数含义与 ListPage 相同,不再赘述。 + +**ScrollingPage 属性** + +```python +page.paths # 页面元素管理对象 +``` + +**ScrollingPage 方法** + +```python +page.to_first_page() # 重新访问页面,回到首页 +page.get_current_rows() # 获取当前行对象 +page.get_current_list(targets, show_msg) # 根据Targets定义,获取当前页面数据 +page.to_next_page(wait) # 下拉,加载新内容 +page.get_new_rows() # 获取新加载的行对象 +page.get_new_list(targets, show_msg) # 根据Targets定义,获取新加载的数据 +page.click_more_btn(wait) # 点击加载更多按钮(如有定义) +page.get_list(targets, scroll_times, wait, show_msg, recorder, return_data) +'''参数说明 +targets: Targets对象或目标字典 +scroll_times: 滚动次数 +wait: 滚动后等待秒数 +show_msg: 是否实时打印爬取到的信息 +recorder: 记录器对象,详见下文 +return_data: 是否返回结果,如设置了记录器,不返回结果可以节省内存 +''' +``` + +因为无法得知滚动页面的长度,所以滚动页面爬取内容时必须指定滚动次数。 + +其余用法与 ListPage 类似。 + +## Recorder 模块 + +Recorder 对象用于暂缓写入数据,它可接收列表数据,达到一定数量时才一次进行写入,以降低文件读写次数,减少开销。可支持 .csv、.txt、.xlsx、.json 四种格式文件。 + +详细内容请见:[DataRecorder: 用于记录数据的模块。 (gitee.com)](https://gitee.com/g1879/DataRecorder) + +**创建 Recorder 对象** + +```python +recorder = Recorder(file_path, cache_size) +``` + +**Recorder 属性** + +```python +recorder.cache_size # 缓存大小 +recorder.file_path # 文件路径 +recorder.encoding # 编码格式 +``` + +**Recorder 方法** + +```python +recorder.add_data(data) # 添加一批数据,列表或元组格式 +recorder.record() # 将缓存记录到文件然后清空 +recorder.set_head(head) # 设置表头,csv和xlsx格式适用 +recorder.set_before(before_col) # 设置数据前的列,列表、元组或字典格式 +recorder.set_after(after_col) # 设置数据后的列,列表、元组或字典格式 +recorder.clear() # 清空缓存 +``` + +**Tips:** + +- set_before() 和 set_after() 用于添加不是在页面中获取到的数据,通常用于区分多批写入数据,如多次爬取的标识等。示例:爬二手房时各区数据都记录在一个表,就要在爬取到的数据前加一个区列。详见下文示例。 +- csv 和 xlsx 写入时会按照结果字典创建表头,如set_before() 和 set_after() 参数也是字典,也可自动写入表头,一般无须 set_head()。 +- 除了 xlsx 类型,其余3种类型在程序结束时可自动记录未保存数据,包括因异常结束时。xlsx 须结束前手动调用 record()。 + +# 实用案例 + +- [爬取政府采购网搜索结果](https://gitee.com/g1879/ListPage/blob/master/demos/%E6%94%BF%E5%BA%9C%E9%87%87%E8%B4%AD%E7%BD%91.py) +- [爬取爬东方财富网业绩报表](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%88%AC%E4%B8%9C%E6%96%B9%E8%B4%A2%E5%AF%8C%E7%BD%91%E4%B8%9A%E7%BB%A9%E6%8A%A5%E8%A1%A8.py) +- [爬取链家二手房信息](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%88%AC%E9%93%BE%E5%AE%B62.py) +- [爬取百度学术搜索结果](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%99%BE%E5%BA%A6%E5%AD%A6%E6%9C%AF%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C.py) +- [爬取码云推荐项目列表](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%A0%81%E4%BA%91%E9%A1%B9%E7%9B%AE%E5%88%97%E8%A1%A8.py) + +# APIs + +*** + +请在 wiki 中查看:[APIs](https://gitee.com/g1879/ListPage/wikis/ListPage?sort_id=3260220) + + + +%package -n python3-ListPage +Summary: Page classes dedicated to crawling or manipulating list web pages. +Provides: python-ListPage +BuildRequires: python3-devel +BuildRequires: python3-setuptools +BuildRequires: python3-pip +%description -n python3-ListPage +# 简介 + +*** + +优雅的列表爬虫。 + +本库是专门用于爬取或操作列表式网页的页面类,基于 DrissionPage。 +页面类抽象了列表式页面基本特征,封装了常用方法。 +只需少量设置即可进行爬取或页面操作,实现可复用、可扩展。 +广泛适用于各种网站的列表页面。 + +示例:https://gitee.com/g1879/DrissionPage-demos + +DrissionPage库:https://gitee.com/g1879/DrissionPage + +联系邮箱:g1879@qq.com + +# 背景及特性 + +**背景** + +大量的数据用列表页方式存放在网站中,这些列表页有相同的特征,用相同的方法爬取。 +爬取网站时经常重复编写相同的代码,做重复的劳动。 +因此本库把列表页共有的特征提取出来,封装成类,实现可复用。减轻开发的工作量。 + +**特性** + +- 配置简单,上手容易 +- 封装常用列表页属性及方法,实现可复用 +- 不同类型页面使用相同的操作方式,使用方便 +- 可根据特殊情况扩展,实用性强 +- 支持 requests 和 selenium 方式,并支持无缝切换 + +**原理** + +所有列表页都有共同的特征:**数据行**、**行中的数据列**。能通过 **翻页按钮** 或 **滚动页面** 方式翻页。 + +只要获取到这几个元素的定位方式,就能封装一个方法实现 **读取 -> 翻页(滚动) -> 读取** 的循环操作,直到没有下一页或到达指定页数。 + +本库支持 xpath 或 css selector 路径,针对不同页面把必要元素路径传递给页面对象,即可实现一行爬取全部页的功能。 + +# 简单演示 + +*** + +一段简单的代码,演示爬取码云推荐项目列表(全部页)。 + +```python +from ListPage import ListPage, Targets, Xpaths + +# 定义页面结构 +xpaths = Xpaths() +xpaths.pages_count = '//a[@class="icon item"]/preceding-sibling::a[1]' # 总页数 +xpaths.rows = '//div[@class="project-title"]' # 行 +xpaths.set_col('项目', './/h3/a') # 列1 +xpaths.set_col('星数', './/div[@class="stars-count"]') # 列2 + +# 定义目标 +targets = Targets(xpaths) +targets.add_target('项目') +targets.add_target('项目', 'href') +targets.add_target('星数') + +# 列表第一页 +url = 'https://gitee.com/explore/weixin-app?page=1' + +p = ListPage(xpaths, url) +p.num_param = 'page' # url中页面的参数 + +# 爬取全部页 +p.get_list(targets) +``` + +输出: + +``` +第1页 +https://gitee.com/explore/all +['guanguans/soar-php', 'https://gitee.com/guanguans/soar-php', '6'] +...第1页省略部分... +['drinkjava2/jBeanBox', 'https://gitee.com/drinkjava2/jBeanBox', '61'] + +第2页 +https://gitee.com/explore/all?page=2 +['pai01234/tokencore', 'https://gitee.com/pai01234/tokencore', '22'] +...第2页省略部分... +['docsifyjs/docsify', 'https://gitee.com/docsifyjs/docsify', '47'] + +...省略下面98页... +``` + +# 使用方法 + +*** + +## 安装及导入 + +**安装** + +``` +pip install ListPage +``` + +**导入** + +```python +# 翻页式列表页 +from ListPage import ListPage, Paths, Targets + +# 滚动式列表页 +from ListPage import ScrollingPage, Paths, Targets +``` + +## 初始化 + +如只使用 requests 方式爬取,或已在系统变量加入 chrome.exe 和 chromedriver.exe 的路径,可跳过本节。 + +ListPage 是基于 DrissionPage 实现的,初始化的方法与 DrissionPage 一致,请查看 [DrissionPage 初始化方法]()。 + +## 定位符 + +> 了解用法前先了解定位符概念,这个概念是进阶用法,如须快速上手可暂时跳过本节。 + +有些数据不是储存在元素的文本,而是在元素某个属性中,还可能不是整个字段,而是字段的一部分。因此本库设定了一个定位符格式,用于提取这样的数据。 + +定位符在定义页面总页数、设置目标时会用到。 + +示例 + +```html +<img alt="金刚川" class="board-img" src="https://p1.meituan.net/moviemachine/5cbf9a626b7ed27c96ca3c748655b3ec2550103.jpg@160w_220h_1e_1c"> +``` + +例如猫眼电影榜单中的图片,我们想下载这张图片,就要获取 src 属性,而且要去掉后面 @160w_220h_1e_1c 部分。这个数据的定位符可以这样写: + +```python +('封面', 'src', r'(.*)@') +``` + +定位符由3部分组成 + +1. 第一部分是元素定位语句,这里的 '封面' 是指在 paths 已定义的 '封面' 列 +2. 第二部分是元素的属性名,可省略,省略时默认为 text +3. 第三部分是从元素属性提取内容的正则表达式,可省略,省略时默匹配整个字段 + +注意,如有第三部分,则第二部分的 'text' 不可省略。 + +综上所述,定位符有以下形式: + +```python +'作者' # 单个字符串,即('作者', 'text', '(.*)') +('作者') # 和上一行相同,省略二三部分 +('链接', 'href') # 省略第三部分,即('链接', 'href', '(.*)') +('封面', 'src', r'(.*)@') # 三部分都写全 +``` + +## Paths 类 + +Paths 类用于管理关键元素的路径信息。ListPage 创建时须接收记录了页面元素路径的 Paths 对象或字典,用于解析页面。 + +路径用 xpath 和 css selector 都可以,但一个 Paths 对象保存的路径必须是同一种类的。 + +**创建 Paths 对象:** + +```python +paths = Paths('css') # 创建类型为css selector的Paths对象 +paths = Paths(paths_dict=paths_dict) # 通过字典创建,字典格式见下文 +``` + +**Paths 类属性:** + +```python +# 路径的类型,'css'或'xpath' +paths.type + +# 共有的关键元素 +paths.rows # 列表行元素的定位路径,必须 +paths.cols # 行元素中列元素的定位路径,字典格式,必须 +paths.next_btn # 下一页或加载更多按钮元素路径,按页面情况使用,非必须 + +# 翻页式列表页独有属性 +paths.pages_count # 定位符,总页数所在元素路径,非必须 + +# 滚动式列表页独有属性 +paths.container # 列表容器,必须 +``` + +**Paths 类方法:** + +```python +# 获取某列的路径 +paths.get_col(col_name) + +# 设置一列路径 +paths.set_col(col) + +# 设置多列路径 +paths.set_col({'col1': 'path1', 'col2': 'path2', ...}) # 用字典设置列 +paths.set_col(('col', 'path')) # 通过一维列表或元组设置列 +paths.set_col((('col1', 'path11'), ('col2', 'path2'), ...)) # 通过二维列表或元组设置列 + +# 从字典读取全部路径设置 +paths.from_dict(paths_dict) + +# 以字典形式输出保存的路径 +paths.as_dict() +``` + +**通过字典创建** + +```python +paths_dict = { + # 路径的类型,只能是'css'或'xpath',非必须 + 'type': 'css', + + # 行元素路径,必须 + 'rows': 'xpath 或 css selector', + + # 列元素相对于行元素的路径,必须 + 'cols': { + 'col1': 'xpath 或 css selector', + 'col2': 'xpath 或 css selector', + ... + } + + # 翻页式页面总页数获取定位符,格式见上一节,非必须 + 'pages_count': 定位符, + + # 下一页(翻页式)或加载更多(滚动式)按钮元素路径,非必须 + 'next_btn': 'xpath 或 css selector', + + # 行元素所在容器路径,滚动式页面专用,使用滚动式页面时必须 + 'container': 'xpath 或 css selector', +} + +paths = Paths(paths_dict=paths_dict) +``` + +**Tips:** + +- ListPage 不是必须接收 Paths 对象,接收格式正确的字典也是可以的。 +- 如果不指定 type,程序会尝试从字符串中判断类型 +- 滚动式页面的列路径是相对于 container 的路径的 + +### Xpaths 类和 CssPaths 类 + +Xpaths 类和 CssPaths 类是 Paths 类的子类,用法与 Paths 类一致,但其 type 属性是不能改变的。 + +## Targets 类 + +Targets 类用于定义爬取目标。 + +Targets 对象接收一个 Paths 对象或定义路径的字典,针对列来定义爬取目标。 +每个目标要有一个唯一的名字,内容由一个定位符表示:(列名, [属性名, 正则表达式]) 。定位符用法见上文。 + +示例: + +```python +targets.add_targets('项目名', '项目') # 前一个是目标名称,后一个是列名 +targets.add_targets('链接', '项目', 'href') # 在'项目'列获取href属性定义为链接目标 +targets.add_targets('序号', '序号', 'text', '(//d+)') # 在'序号'列获取数字定义为序号目标 +targets.start_stop_row = (1,) # 爬取第2行到最后一行,规则和切片一致 +``` + +**创建 Targets 对象:** + +```python +targets = Targets(paths) # 创建时要接收一个Paths对象或路径字典,创建这个值后不能修改 +targets = Targets(paths, targets_dict) # 创建时同时接收目标字典,直接创建目标 +``` + +**Targets 类属性:** + +```python +targets.paths # 页面路径管理 Paths 对象 +targets.start_stop_row # 设置爬取列表起止行号 +targets.targets # 返回所有目标组成的字典 +``` + +**Tips:** 有些列表表头表尾不容易通过定位语句和内容区分,因此可设置爬取范围,忽略表头表尾 + +**Targets 类方法:** + +```python +targets.set_targets(targets_dict) # 通过传入字典批量设置目标 +targets.add_target(name, col, attr, re_str) # 增加单个目标 +``` + +Targets 对象中的目标是针对其保存的 Paths 对象的列设置的。 + +**通过字典创建** + +```python +targets_dict = { + 'start_stop': (1, -1), # 爬取第2到倒数第2行,规则与切片的一样,非必须 + '目标1': '列1', + '目标2': ('列2', 'href'), + '目标3': ('列3', 'src', '(.*)@') + ... +} + +targets = Targets(targets_dict) +``` + +**start_stop规则** + +与切片规则一致,0 为第一个,-1 为最后一个,包含前面的数字,不包含后面的数字。第二个数字可省略,如省略,则爬到最后一行。 + +示例: + +```python +(0, 5) # 爬取第1行到第4行 +(2, -2) # 爬取第3行到倒数第3行 +(1,) # 爬取第2行到最后一行 +(1, None) # 爬取第2行到最后一行 +``` + +**Tips:** ListPage 不是必须接收 Targets 对象,接收格式正确的字典也是可以的。 + +## ListPage 类 + +ListPage 类是翻页式列表页基本类,继承自 DrissionPage 的 MixPage 类。 +专门用于处理翻页式列表页面。如商城产品页、文章列表页。 +它有两种模式,s 模式使用 requests 处理页面,d 模式使用 selenium。 +s 模式效率高,适用于非 js 加载页面数据爬取。 +d 模式可处理 js 加载的页面,可用于自动化操作。 +这两种模式可以互相切换,但要一般没有必要。 + +**创建 ListPage 对象:** + +```python +page = ListPage(paths, index_url, mode, timeout, drission) +'''参数说明 +paths: Paths对象或路径字典 +index_url: 列表第一页url +mode: 's'使用requests,'d'使用selenium +timeout: s模式时为连接等待时间,d模式时为查找元素等待时间 +drission: 驱动器对象,可忽略,详见DrissionPage库 +''' +``` + +**ListPage 属性:** + +```python +page.paths # 页面元素管理对象 +page.pages_count # 总页数 +page.current_page_num # 当前页码 +page.num_param # url中的页码参数 +page.step # 页码步长,配合num_param属性使用 +page.first_num # 第一个页码是0还是1,配合num_param属性使用 +``` + +**ListPage 方法:** + +```python +page.to_first_page() # 跳转到第一页 +page.to_next_page(wait) # 跳转到下一页,然后等待若干秒 +page.to_page(num, wait) # 跳转到任意页,然后等待若干秒 +page.get_current_rows() # 获取当前行元素 +page.get_current_list(targets) # 根据targets中定义的目标获取结果列表 +page.get_list(targets, begin, count, stop_when_empty, wait, show_msg, recorder, return_data) +'''参数说明 +targets: Targets对象或目标字典 +begin: 起始页码 +count: 爬取页数 +stop_when_empty: 遇到空页是否停止,一般应对无法获取总页数时使用 +wait: 翻页后等待秒数 +show_msg: 是否实时打印爬取到的信息 +recorder: 记录器对象,详见下文 +return_data: 是否返回结果,如设置了记录器,不返回结果可以节省内存 +''' +``` + +**Tips:** + +- get_list() 是爬取列表页的核心方法 +- 用 get_current_rows() 获取到行元素对象可用于自动化操作 + +**返回的格式** + +爬取结果以列表形式呈现,每行数据为一个字典。 + +```python +[ + {'目标1': '结果1', '目标2': '结果2', ...}, + {'目标1': '结果1', '目标2': '结果2', ...}, + ... +] +``` + +### 不同列表页的应对方法 + +总的来说,爬取列表页的思路是: +**获取总页数** > **爬取一页数据** > **点击下一页按钮或访问下一页链接** > **循环直到最后一页或指定页** + +但列表页有多种形态,不一定都提供需要的元素,本库提供灵活的配置,可适应绝大多数列表页的处理。 + +- **url 带页码信息的列表页** + +这种列表页 url 中带页码参数或把路径写在页码中,将其提取出来可大大提高定位页面的效率。 + +示例: + +``` +https://gitee.com/explore/all?page=1 +https://sz.lianjia.com/ershoufang/pg1/ +https://www.procell.com.cn/filters-type-3-p-1.html +https://maoyan.com/board/6?offset=10 +``` + +针对这种页面,可设置 ListPage对象的 num_param 属性。这种方法只适用于页码是有规律数字的情况。 +注意,使用 num_param 时,页面对象的 index_url 属性里也必须包含页码参数。 + +以上页面的 num_param 设置方法: + +```python +# https://gitee.com/explore/all?page=1 +page.num_param = 'page' + +# https://sz.lianjia.com/ershoufang/pg1/ +page.num_param = '/pg' + +# https://www.procell.com.cn/filters-type-3-p-1.html +page.num_param = '/filters-type-3-p-' + +# https://maoyan.com/board/6?offset=0 +page.num_param = 'offset' +page.step = 10 +page.first_num = 0 +``` + +可以看出,当页码为 url 后续参数时,直接设置参数名;当是路径一部分时,加上 '/',程序会匹配后续的数字。 + +注意以上最后一种情况,页码步长为 10,并且以 0 为第一页,因此需要设置 step 和 first_num 两个属性。 + +设置 num_param 属性后,无须定义下一页按钮的路径即可进行爬取、翻页等操作,程序会用替换数字的方式产生任意页的 url。 + +- **无法获取总页数的页面** + +针对这种页面可指定 pages_count 属性,或在爬取时设置爬取页数。 +如两者都不设置,在爬全部页时,程序直到空页或没有下一页按钮时就会停下。 + +```python +page.pages_count = 100 # 手动设置总页数 +page.get_list(targets, count=100) # 在爬取时指定爬取页数 +``` + +- **JS 加载的列表页** + +这种列表页使用 ajax 获取列表内容,url 不会变化,适合用 d 模式进行爬取。 +d 模式使用 selenium 模拟操作网页,反复点击下一页按钮即可实现翻页。 + +```python +page = ListPage(xpaths, index_url, 'd') # 用d模式创建列表页对象 +``` + +- **模式切换** + +ListPage 继承自 MixPage,因此也支持 s 模式和 d 模式之间的切换,以及 MixPage 一切功能。 + +```python +page.change_mod() # 切换模式 +``` + +MixPage 详情请查看 [DrissionPage 库](https://gitee.com/g1879/DrissionPage) + +## ScrollingPage 类 + +ScrollingPage 类是滚动加载式列表页基本类,继承自 DrissionPage 的 MixPage 类。 +专门用于处理滚动加载式列表页面。如新闻列表页。 +封装了对页面的基本读取和操作方法,只能在 MixPage 的 d 模式下工作。 + +**创建 ScrollingPage 类对象** + +```python +page = ScrollingPage(paths, index_url, timeout, drission) +``` + +参数含义与 ListPage 相同,不再赘述。 + +**ScrollingPage 属性** + +```python +page.paths # 页面元素管理对象 +``` + +**ScrollingPage 方法** + +```python +page.to_first_page() # 重新访问页面,回到首页 +page.get_current_rows() # 获取当前行对象 +page.get_current_list(targets, show_msg) # 根据Targets定义,获取当前页面数据 +page.to_next_page(wait) # 下拉,加载新内容 +page.get_new_rows() # 获取新加载的行对象 +page.get_new_list(targets, show_msg) # 根据Targets定义,获取新加载的数据 +page.click_more_btn(wait) # 点击加载更多按钮(如有定义) +page.get_list(targets, scroll_times, wait, show_msg, recorder, return_data) +'''参数说明 +targets: Targets对象或目标字典 +scroll_times: 滚动次数 +wait: 滚动后等待秒数 +show_msg: 是否实时打印爬取到的信息 +recorder: 记录器对象,详见下文 +return_data: 是否返回结果,如设置了记录器,不返回结果可以节省内存 +''' +``` + +因为无法得知滚动页面的长度,所以滚动页面爬取内容时必须指定滚动次数。 + +其余用法与 ListPage 类似。 + +## Recorder 模块 + +Recorder 对象用于暂缓写入数据,它可接收列表数据,达到一定数量时才一次进行写入,以降低文件读写次数,减少开销。可支持 .csv、.txt、.xlsx、.json 四种格式文件。 + +详细内容请见:[DataRecorder: 用于记录数据的模块。 (gitee.com)](https://gitee.com/g1879/DataRecorder) + +**创建 Recorder 对象** + +```python +recorder = Recorder(file_path, cache_size) +``` + +**Recorder 属性** + +```python +recorder.cache_size # 缓存大小 +recorder.file_path # 文件路径 +recorder.encoding # 编码格式 +``` + +**Recorder 方法** + +```python +recorder.add_data(data) # 添加一批数据,列表或元组格式 +recorder.record() # 将缓存记录到文件然后清空 +recorder.set_head(head) # 设置表头,csv和xlsx格式适用 +recorder.set_before(before_col) # 设置数据前的列,列表、元组或字典格式 +recorder.set_after(after_col) # 设置数据后的列,列表、元组或字典格式 +recorder.clear() # 清空缓存 +``` + +**Tips:** + +- set_before() 和 set_after() 用于添加不是在页面中获取到的数据,通常用于区分多批写入数据,如多次爬取的标识等。示例:爬二手房时各区数据都记录在一个表,就要在爬取到的数据前加一个区列。详见下文示例。 +- csv 和 xlsx 写入时会按照结果字典创建表头,如set_before() 和 set_after() 参数也是字典,也可自动写入表头,一般无须 set_head()。 +- 除了 xlsx 类型,其余3种类型在程序结束时可自动记录未保存数据,包括因异常结束时。xlsx 须结束前手动调用 record()。 + +# 实用案例 + +- [爬取政府采购网搜索结果](https://gitee.com/g1879/ListPage/blob/master/demos/%E6%94%BF%E5%BA%9C%E9%87%87%E8%B4%AD%E7%BD%91.py) +- [爬取爬东方财富网业绩报表](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%88%AC%E4%B8%9C%E6%96%B9%E8%B4%A2%E5%AF%8C%E7%BD%91%E4%B8%9A%E7%BB%A9%E6%8A%A5%E8%A1%A8.py) +- [爬取链家二手房信息](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%88%AC%E9%93%BE%E5%AE%B62.py) +- [爬取百度学术搜索结果](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%99%BE%E5%BA%A6%E5%AD%A6%E6%9C%AF%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C.py) +- [爬取码云推荐项目列表](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%A0%81%E4%BA%91%E9%A1%B9%E7%9B%AE%E5%88%97%E8%A1%A8.py) + +# APIs + +*** + +请在 wiki 中查看:[APIs](https://gitee.com/g1879/ListPage/wikis/ListPage?sort_id=3260220) + + + +%package help +Summary: Development documents and examples for ListPage +Provides: python3-ListPage-doc +%description help +# 简介 + +*** + +优雅的列表爬虫。 + +本库是专门用于爬取或操作列表式网页的页面类,基于 DrissionPage。 +页面类抽象了列表式页面基本特征,封装了常用方法。 +只需少量设置即可进行爬取或页面操作,实现可复用、可扩展。 +广泛适用于各种网站的列表页面。 + +示例:https://gitee.com/g1879/DrissionPage-demos + +DrissionPage库:https://gitee.com/g1879/DrissionPage + +联系邮箱:g1879@qq.com + +# 背景及特性 + +**背景** + +大量的数据用列表页方式存放在网站中,这些列表页有相同的特征,用相同的方法爬取。 +爬取网站时经常重复编写相同的代码,做重复的劳动。 +因此本库把列表页共有的特征提取出来,封装成类,实现可复用。减轻开发的工作量。 + +**特性** + +- 配置简单,上手容易 +- 封装常用列表页属性及方法,实现可复用 +- 不同类型页面使用相同的操作方式,使用方便 +- 可根据特殊情况扩展,实用性强 +- 支持 requests 和 selenium 方式,并支持无缝切换 + +**原理** + +所有列表页都有共同的特征:**数据行**、**行中的数据列**。能通过 **翻页按钮** 或 **滚动页面** 方式翻页。 + +只要获取到这几个元素的定位方式,就能封装一个方法实现 **读取 -> 翻页(滚动) -> 读取** 的循环操作,直到没有下一页或到达指定页数。 + +本库支持 xpath 或 css selector 路径,针对不同页面把必要元素路径传递给页面对象,即可实现一行爬取全部页的功能。 + +# 简单演示 + +*** + +一段简单的代码,演示爬取码云推荐项目列表(全部页)。 + +```python +from ListPage import ListPage, Targets, Xpaths + +# 定义页面结构 +xpaths = Xpaths() +xpaths.pages_count = '//a[@class="icon item"]/preceding-sibling::a[1]' # 总页数 +xpaths.rows = '//div[@class="project-title"]' # 行 +xpaths.set_col('项目', './/h3/a') # 列1 +xpaths.set_col('星数', './/div[@class="stars-count"]') # 列2 + +# 定义目标 +targets = Targets(xpaths) +targets.add_target('项目') +targets.add_target('项目', 'href') +targets.add_target('星数') + +# 列表第一页 +url = 'https://gitee.com/explore/weixin-app?page=1' + +p = ListPage(xpaths, url) +p.num_param = 'page' # url中页面的参数 + +# 爬取全部页 +p.get_list(targets) +``` + +输出: + +``` +第1页 +https://gitee.com/explore/all +['guanguans/soar-php', 'https://gitee.com/guanguans/soar-php', '6'] +...第1页省略部分... +['drinkjava2/jBeanBox', 'https://gitee.com/drinkjava2/jBeanBox', '61'] + +第2页 +https://gitee.com/explore/all?page=2 +['pai01234/tokencore', 'https://gitee.com/pai01234/tokencore', '22'] +...第2页省略部分... +['docsifyjs/docsify', 'https://gitee.com/docsifyjs/docsify', '47'] + +...省略下面98页... +``` + +# 使用方法 + +*** + +## 安装及导入 + +**安装** + +``` +pip install ListPage +``` + +**导入** + +```python +# 翻页式列表页 +from ListPage import ListPage, Paths, Targets + +# 滚动式列表页 +from ListPage import ScrollingPage, Paths, Targets +``` + +## 初始化 + +如只使用 requests 方式爬取,或已在系统变量加入 chrome.exe 和 chromedriver.exe 的路径,可跳过本节。 + +ListPage 是基于 DrissionPage 实现的,初始化的方法与 DrissionPage 一致,请查看 [DrissionPage 初始化方法]()。 + +## 定位符 + +> 了解用法前先了解定位符概念,这个概念是进阶用法,如须快速上手可暂时跳过本节。 + +有些数据不是储存在元素的文本,而是在元素某个属性中,还可能不是整个字段,而是字段的一部分。因此本库设定了一个定位符格式,用于提取这样的数据。 + +定位符在定义页面总页数、设置目标时会用到。 + +示例 + +```html +<img alt="金刚川" class="board-img" src="https://p1.meituan.net/moviemachine/5cbf9a626b7ed27c96ca3c748655b3ec2550103.jpg@160w_220h_1e_1c"> +``` + +例如猫眼电影榜单中的图片,我们想下载这张图片,就要获取 src 属性,而且要去掉后面 @160w_220h_1e_1c 部分。这个数据的定位符可以这样写: + +```python +('封面', 'src', r'(.*)@') +``` + +定位符由3部分组成 + +1. 第一部分是元素定位语句,这里的 '封面' 是指在 paths 已定义的 '封面' 列 +2. 第二部分是元素的属性名,可省略,省略时默认为 text +3. 第三部分是从元素属性提取内容的正则表达式,可省略,省略时默匹配整个字段 + +注意,如有第三部分,则第二部分的 'text' 不可省略。 + +综上所述,定位符有以下形式: + +```python +'作者' # 单个字符串,即('作者', 'text', '(.*)') +('作者') # 和上一行相同,省略二三部分 +('链接', 'href') # 省略第三部分,即('链接', 'href', '(.*)') +('封面', 'src', r'(.*)@') # 三部分都写全 +``` + +## Paths 类 + +Paths 类用于管理关键元素的路径信息。ListPage 创建时须接收记录了页面元素路径的 Paths 对象或字典,用于解析页面。 + +路径用 xpath 和 css selector 都可以,但一个 Paths 对象保存的路径必须是同一种类的。 + +**创建 Paths 对象:** + +```python +paths = Paths('css') # 创建类型为css selector的Paths对象 +paths = Paths(paths_dict=paths_dict) # 通过字典创建,字典格式见下文 +``` + +**Paths 类属性:** + +```python +# 路径的类型,'css'或'xpath' +paths.type + +# 共有的关键元素 +paths.rows # 列表行元素的定位路径,必须 +paths.cols # 行元素中列元素的定位路径,字典格式,必须 +paths.next_btn # 下一页或加载更多按钮元素路径,按页面情况使用,非必须 + +# 翻页式列表页独有属性 +paths.pages_count # 定位符,总页数所在元素路径,非必须 + +# 滚动式列表页独有属性 +paths.container # 列表容器,必须 +``` + +**Paths 类方法:** + +```python +# 获取某列的路径 +paths.get_col(col_name) + +# 设置一列路径 +paths.set_col(col) + +# 设置多列路径 +paths.set_col({'col1': 'path1', 'col2': 'path2', ...}) # 用字典设置列 +paths.set_col(('col', 'path')) # 通过一维列表或元组设置列 +paths.set_col((('col1', 'path11'), ('col2', 'path2'), ...)) # 通过二维列表或元组设置列 + +# 从字典读取全部路径设置 +paths.from_dict(paths_dict) + +# 以字典形式输出保存的路径 +paths.as_dict() +``` + +**通过字典创建** + +```python +paths_dict = { + # 路径的类型,只能是'css'或'xpath',非必须 + 'type': 'css', + + # 行元素路径,必须 + 'rows': 'xpath 或 css selector', + + # 列元素相对于行元素的路径,必须 + 'cols': { + 'col1': 'xpath 或 css selector', + 'col2': 'xpath 或 css selector', + ... + } + + # 翻页式页面总页数获取定位符,格式见上一节,非必须 + 'pages_count': 定位符, + + # 下一页(翻页式)或加载更多(滚动式)按钮元素路径,非必须 + 'next_btn': 'xpath 或 css selector', + + # 行元素所在容器路径,滚动式页面专用,使用滚动式页面时必须 + 'container': 'xpath 或 css selector', +} + +paths = Paths(paths_dict=paths_dict) +``` + +**Tips:** + +- ListPage 不是必须接收 Paths 对象,接收格式正确的字典也是可以的。 +- 如果不指定 type,程序会尝试从字符串中判断类型 +- 滚动式页面的列路径是相对于 container 的路径的 + +### Xpaths 类和 CssPaths 类 + +Xpaths 类和 CssPaths 类是 Paths 类的子类,用法与 Paths 类一致,但其 type 属性是不能改变的。 + +## Targets 类 + +Targets 类用于定义爬取目标。 + +Targets 对象接收一个 Paths 对象或定义路径的字典,针对列来定义爬取目标。 +每个目标要有一个唯一的名字,内容由一个定位符表示:(列名, [属性名, 正则表达式]) 。定位符用法见上文。 + +示例: + +```python +targets.add_targets('项目名', '项目') # 前一个是目标名称,后一个是列名 +targets.add_targets('链接', '项目', 'href') # 在'项目'列获取href属性定义为链接目标 +targets.add_targets('序号', '序号', 'text', '(//d+)') # 在'序号'列获取数字定义为序号目标 +targets.start_stop_row = (1,) # 爬取第2行到最后一行,规则和切片一致 +``` + +**创建 Targets 对象:** + +```python +targets = Targets(paths) # 创建时要接收一个Paths对象或路径字典,创建这个值后不能修改 +targets = Targets(paths, targets_dict) # 创建时同时接收目标字典,直接创建目标 +``` + +**Targets 类属性:** + +```python +targets.paths # 页面路径管理 Paths 对象 +targets.start_stop_row # 设置爬取列表起止行号 +targets.targets # 返回所有目标组成的字典 +``` + +**Tips:** 有些列表表头表尾不容易通过定位语句和内容区分,因此可设置爬取范围,忽略表头表尾 + +**Targets 类方法:** + +```python +targets.set_targets(targets_dict) # 通过传入字典批量设置目标 +targets.add_target(name, col, attr, re_str) # 增加单个目标 +``` + +Targets 对象中的目标是针对其保存的 Paths 对象的列设置的。 + +**通过字典创建** + +```python +targets_dict = { + 'start_stop': (1, -1), # 爬取第2到倒数第2行,规则与切片的一样,非必须 + '目标1': '列1', + '目标2': ('列2', 'href'), + '目标3': ('列3', 'src', '(.*)@') + ... +} + +targets = Targets(targets_dict) +``` + +**start_stop规则** + +与切片规则一致,0 为第一个,-1 为最后一个,包含前面的数字,不包含后面的数字。第二个数字可省略,如省略,则爬到最后一行。 + +示例: + +```python +(0, 5) # 爬取第1行到第4行 +(2, -2) # 爬取第3行到倒数第3行 +(1,) # 爬取第2行到最后一行 +(1, None) # 爬取第2行到最后一行 +``` + +**Tips:** ListPage 不是必须接收 Targets 对象,接收格式正确的字典也是可以的。 + +## ListPage 类 + +ListPage 类是翻页式列表页基本类,继承自 DrissionPage 的 MixPage 类。 +专门用于处理翻页式列表页面。如商城产品页、文章列表页。 +它有两种模式,s 模式使用 requests 处理页面,d 模式使用 selenium。 +s 模式效率高,适用于非 js 加载页面数据爬取。 +d 模式可处理 js 加载的页面,可用于自动化操作。 +这两种模式可以互相切换,但要一般没有必要。 + +**创建 ListPage 对象:** + +```python +page = ListPage(paths, index_url, mode, timeout, drission) +'''参数说明 +paths: Paths对象或路径字典 +index_url: 列表第一页url +mode: 's'使用requests,'d'使用selenium +timeout: s模式时为连接等待时间,d模式时为查找元素等待时间 +drission: 驱动器对象,可忽略,详见DrissionPage库 +''' +``` + +**ListPage 属性:** + +```python +page.paths # 页面元素管理对象 +page.pages_count # 总页数 +page.current_page_num # 当前页码 +page.num_param # url中的页码参数 +page.step # 页码步长,配合num_param属性使用 +page.first_num # 第一个页码是0还是1,配合num_param属性使用 +``` + +**ListPage 方法:** + +```python +page.to_first_page() # 跳转到第一页 +page.to_next_page(wait) # 跳转到下一页,然后等待若干秒 +page.to_page(num, wait) # 跳转到任意页,然后等待若干秒 +page.get_current_rows() # 获取当前行元素 +page.get_current_list(targets) # 根据targets中定义的目标获取结果列表 +page.get_list(targets, begin, count, stop_when_empty, wait, show_msg, recorder, return_data) +'''参数说明 +targets: Targets对象或目标字典 +begin: 起始页码 +count: 爬取页数 +stop_when_empty: 遇到空页是否停止,一般应对无法获取总页数时使用 +wait: 翻页后等待秒数 +show_msg: 是否实时打印爬取到的信息 +recorder: 记录器对象,详见下文 +return_data: 是否返回结果,如设置了记录器,不返回结果可以节省内存 +''' +``` + +**Tips:** + +- get_list() 是爬取列表页的核心方法 +- 用 get_current_rows() 获取到行元素对象可用于自动化操作 + +**返回的格式** + +爬取结果以列表形式呈现,每行数据为一个字典。 + +```python +[ + {'目标1': '结果1', '目标2': '结果2', ...}, + {'目标1': '结果1', '目标2': '结果2', ...}, + ... +] +``` + +### 不同列表页的应对方法 + +总的来说,爬取列表页的思路是: +**获取总页数** > **爬取一页数据** > **点击下一页按钮或访问下一页链接** > **循环直到最后一页或指定页** + +但列表页有多种形态,不一定都提供需要的元素,本库提供灵活的配置,可适应绝大多数列表页的处理。 + +- **url 带页码信息的列表页** + +这种列表页 url 中带页码参数或把路径写在页码中,将其提取出来可大大提高定位页面的效率。 + +示例: + +``` +https://gitee.com/explore/all?page=1 +https://sz.lianjia.com/ershoufang/pg1/ +https://www.procell.com.cn/filters-type-3-p-1.html +https://maoyan.com/board/6?offset=10 +``` + +针对这种页面,可设置 ListPage对象的 num_param 属性。这种方法只适用于页码是有规律数字的情况。 +注意,使用 num_param 时,页面对象的 index_url 属性里也必须包含页码参数。 + +以上页面的 num_param 设置方法: + +```python +# https://gitee.com/explore/all?page=1 +page.num_param = 'page' + +# https://sz.lianjia.com/ershoufang/pg1/ +page.num_param = '/pg' + +# https://www.procell.com.cn/filters-type-3-p-1.html +page.num_param = '/filters-type-3-p-' + +# https://maoyan.com/board/6?offset=0 +page.num_param = 'offset' +page.step = 10 +page.first_num = 0 +``` + +可以看出,当页码为 url 后续参数时,直接设置参数名;当是路径一部分时,加上 '/',程序会匹配后续的数字。 + +注意以上最后一种情况,页码步长为 10,并且以 0 为第一页,因此需要设置 step 和 first_num 两个属性。 + +设置 num_param 属性后,无须定义下一页按钮的路径即可进行爬取、翻页等操作,程序会用替换数字的方式产生任意页的 url。 + +- **无法获取总页数的页面** + +针对这种页面可指定 pages_count 属性,或在爬取时设置爬取页数。 +如两者都不设置,在爬全部页时,程序直到空页或没有下一页按钮时就会停下。 + +```python +page.pages_count = 100 # 手动设置总页数 +page.get_list(targets, count=100) # 在爬取时指定爬取页数 +``` + +- **JS 加载的列表页** + +这种列表页使用 ajax 获取列表内容,url 不会变化,适合用 d 模式进行爬取。 +d 模式使用 selenium 模拟操作网页,反复点击下一页按钮即可实现翻页。 + +```python +page = ListPage(xpaths, index_url, 'd') # 用d模式创建列表页对象 +``` + +- **模式切换** + +ListPage 继承自 MixPage,因此也支持 s 模式和 d 模式之间的切换,以及 MixPage 一切功能。 + +```python +page.change_mod() # 切换模式 +``` + +MixPage 详情请查看 [DrissionPage 库](https://gitee.com/g1879/DrissionPage) + +## ScrollingPage 类 + +ScrollingPage 类是滚动加载式列表页基本类,继承自 DrissionPage 的 MixPage 类。 +专门用于处理滚动加载式列表页面。如新闻列表页。 +封装了对页面的基本读取和操作方法,只能在 MixPage 的 d 模式下工作。 + +**创建 ScrollingPage 类对象** + +```python +page = ScrollingPage(paths, index_url, timeout, drission) +``` + +参数含义与 ListPage 相同,不再赘述。 + +**ScrollingPage 属性** + +```python +page.paths # 页面元素管理对象 +``` + +**ScrollingPage 方法** + +```python +page.to_first_page() # 重新访问页面,回到首页 +page.get_current_rows() # 获取当前行对象 +page.get_current_list(targets, show_msg) # 根据Targets定义,获取当前页面数据 +page.to_next_page(wait) # 下拉,加载新内容 +page.get_new_rows() # 获取新加载的行对象 +page.get_new_list(targets, show_msg) # 根据Targets定义,获取新加载的数据 +page.click_more_btn(wait) # 点击加载更多按钮(如有定义) +page.get_list(targets, scroll_times, wait, show_msg, recorder, return_data) +'''参数说明 +targets: Targets对象或目标字典 +scroll_times: 滚动次数 +wait: 滚动后等待秒数 +show_msg: 是否实时打印爬取到的信息 +recorder: 记录器对象,详见下文 +return_data: 是否返回结果,如设置了记录器,不返回结果可以节省内存 +''' +``` + +因为无法得知滚动页面的长度,所以滚动页面爬取内容时必须指定滚动次数。 + +其余用法与 ListPage 类似。 + +## Recorder 模块 + +Recorder 对象用于暂缓写入数据,它可接收列表数据,达到一定数量时才一次进行写入,以降低文件读写次数,减少开销。可支持 .csv、.txt、.xlsx、.json 四种格式文件。 + +详细内容请见:[DataRecorder: 用于记录数据的模块。 (gitee.com)](https://gitee.com/g1879/DataRecorder) + +**创建 Recorder 对象** + +```python +recorder = Recorder(file_path, cache_size) +``` + +**Recorder 属性** + +```python +recorder.cache_size # 缓存大小 +recorder.file_path # 文件路径 +recorder.encoding # 编码格式 +``` + +**Recorder 方法** + +```python +recorder.add_data(data) # 添加一批数据,列表或元组格式 +recorder.record() # 将缓存记录到文件然后清空 +recorder.set_head(head) # 设置表头,csv和xlsx格式适用 +recorder.set_before(before_col) # 设置数据前的列,列表、元组或字典格式 +recorder.set_after(after_col) # 设置数据后的列,列表、元组或字典格式 +recorder.clear() # 清空缓存 +``` + +**Tips:** + +- set_before() 和 set_after() 用于添加不是在页面中获取到的数据,通常用于区分多批写入数据,如多次爬取的标识等。示例:爬二手房时各区数据都记录在一个表,就要在爬取到的数据前加一个区列。详见下文示例。 +- csv 和 xlsx 写入时会按照结果字典创建表头,如set_before() 和 set_after() 参数也是字典,也可自动写入表头,一般无须 set_head()。 +- 除了 xlsx 类型,其余3种类型在程序结束时可自动记录未保存数据,包括因异常结束时。xlsx 须结束前手动调用 record()。 + +# 实用案例 + +- [爬取政府采购网搜索结果](https://gitee.com/g1879/ListPage/blob/master/demos/%E6%94%BF%E5%BA%9C%E9%87%87%E8%B4%AD%E7%BD%91.py) +- [爬取爬东方财富网业绩报表](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%88%AC%E4%B8%9C%E6%96%B9%E8%B4%A2%E5%AF%8C%E7%BD%91%E4%B8%9A%E7%BB%A9%E6%8A%A5%E8%A1%A8.py) +- [爬取链家二手房信息](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%88%AC%E9%93%BE%E5%AE%B62.py) +- [爬取百度学术搜索结果](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%99%BE%E5%BA%A6%E5%AD%A6%E6%9C%AF%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C.py) +- [爬取码云推荐项目列表](https://gitee.com/g1879/ListPage/blob/master/demos/%E7%A0%81%E4%BA%91%E9%A1%B9%E7%9B%AE%E5%88%97%E8%A1%A8.py) + +# APIs + +*** + +请在 wiki 中查看:[APIs](https://gitee.com/g1879/ListPage/wikis/ListPage?sort_id=3260220) + + + +%prep +%autosetup -n ListPage-1.0.4 + +%build +%py3_build + +%install +%py3_install +install -d -m755 %{buildroot}/%{_pkgdocdir} +if [ -d doc ]; then cp -arf doc %{buildroot}/%{_pkgdocdir}; fi +if [ -d docs ]; then cp -arf docs %{buildroot}/%{_pkgdocdir}; fi +if [ -d example ]; then cp -arf example %{buildroot}/%{_pkgdocdir}; fi +if [ -d examples ]; then cp -arf examples %{buildroot}/%{_pkgdocdir}; fi +pushd %{buildroot} +if [ -d usr/lib ]; then + find usr/lib -type f -printf "/%h/%f\n" >> filelist.lst +fi +if [ -d usr/lib64 ]; then + find usr/lib64 -type f -printf "/%h/%f\n" >> filelist.lst +fi +if [ -d usr/bin ]; then + find usr/bin -type f -printf "/%h/%f\n" >> filelist.lst +fi +if [ -d usr/sbin ]; then + find usr/sbin -type f -printf "/%h/%f\n" >> filelist.lst +fi +touch doclist.lst +if [ -d usr/share/man ]; then + find usr/share/man -type f -printf "/%h/%f.gz\n" >> doclist.lst +fi +popd +mv %{buildroot}/filelist.lst . +mv %{buildroot}/doclist.lst . + +%files -n python3-ListPage -f filelist.lst +%dir %{python3_sitelib}/* + +%files help -f doclist.lst +%{_docdir}/* + +%changelog +* Wed May 31 2023 Python_Bot <Python_Bot@openeuler.org> - 1.0.4-1 +- Package Spec generated @@ -0,0 +1 @@ +9b84376a5370dc963db265be7584ddd1 ListPage-1.0.4.tar.gz |