嘻皮客娱乐学习网

标题: DXC采集插件网址规则:1、从分页列表采集 [打印本页]

作者: xipick    时间: 2017-4-6 10:49
标题: DXC采集插件网址规则:1、从分页列表采集
所谓分页列表,就像新浪这个新闻地址。http://roll.mil.news.sina.com.cn/col/zgjq/index_2.shtml

一、设置网址范围

首先我们先观察一下网址变化,
第三页:http://roll.mil.news.sina.com.cn/col/zgjq/index_3.shtml
第四页:http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
第五页:http://roll.mil.news.sina.com.cn/col/zgjq/index_5.shtml
……
想必不再举例了,大家都知道页码变化的地方就是数字3、4、5的地方。
比如要采集前50页的新闻。就在这里设置
(, 下载次数: 15)

二、文章列表获取

如何获取每一页的新闻列表?
使用DOM方式获取列表:
建议您先阅读DOM写法这章节的教程。

(, 下载次数: 16)

根据网页结构的分析,本例的规则是:
ul.linkNews li
a
放入规则,测试如图:
(, 下载次数: 12)

三、网址的进一步过滤

1、替换
比如列表中,获取到http://mil.news.sina.com.cn/2014-08-14/1717795646.html这个地址,我想替换成http://mil.news.sina.com.cn/cc/1717795646.html,因为1717795646这个数字是变化着的,所以我们需要一个占位符,如图:
(, 下载次数: 11)
2、过滤
比如利用“网址不包含下列字符”来过滤掉网址,如过滤掉http://mil.news.sina.com.cn/2014-08-14/1717795646.html这个网址。如图:
(, 下载次数: 14)






欢迎光临 嘻皮客娱乐学习网 (http://www.xipick.com/) Powered by Discuz! X3.3