嘻皮客娱乐学习网

标题: DXC采集插件网址规则：1、从分页列表采集 [打印本页]

作者: xipick 时间: 2017-4-6 10:49
标题: DXC采集插件网址规则：1、从分页列表采集
所谓分页列表，就像新浪这个新闻地址。http://roll.mil.news.sina.com.cn/col/zgjq/index_2.shtml

首先我们先观察一下网址变化，
第三页：http://roll.mil.news.sina.com.cn/col/zgjq/index_3.shtml
第四页：http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
第五页：http://roll.mil.news.sina.com.cn/col/zgjq/index_5.shtml
……
想必不再举例了，大家都知道页码变化的地方就是数字3、4、5的地方。
比如要采集前50页的新闻。就在这里设置
(, 下载次数: 15)

如何获取每一页的新闻列表？

建议您先阅读DOM写法这章节的教程。

(, 下载次数: 16)

根据网页结构的分析，本例的规则是：

ul.linkNews li
a

放入规则，测试如图：
(, 下载次数: 12)

比如列表中，获取到http://mil.news.sina.com.cn/2014-08-14/1717795646.html这个地址，我想替换成http://mil.news.sina.com.cn/cc/1717795646.html，因为1717795646这个数字是变化着的，所以我们需要一个占位符，如图：
(, 下载次数: 11)

比如利用“网址不包含下列字符”来过滤掉网址，如过滤掉http://mil.news.sina.com.cn/2014-08-14/1717795646.html这个网址。如图：
(, 下载次数: 14)

欢迎光临嘻皮客娱乐学习网 (http://www.xipick.com/)