嘻皮客娱乐学习网
标题:
DXC采集插件网址规则:1、从分页列表采集
[打印本页]
作者:
xipick
时间:
2017-4-6 10:49
标题:
DXC采集插件网址规则:1、从分页列表采集
所谓分页列表,就像新浪这个新闻地址。
http://roll.mil.news.sina.com.cn/col/zgjq/index_2.shtml
一、设置网址范围
首先我们先观察一下网址变化,
第三页:
http://roll.mil.news.sina.com.cn/col/zgjq/index_3.shtml
第四页:
http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
第五页:
http://roll.mil.news.sina.com.cn/col/zgjq/index_5.shtml
……
想必不再举例了,大家都知道页码变化的地方就是数字3、4、5的地方。
比如要采集前50页的新闻。就在这里设置
(, 下载次数: 15)
上传
点击文件名下载附件
二、文章列表获取
如何获取每一页的新闻列表?
使用DOM方式获取列表:
建议您先阅读
DOM写法
这章节的教程。
(, 下载次数: 16)
上传
点击文件名下载附件
根据网页结构的分析,本例的规则是:
ul.linkNews li
a
放入规则,测试如图:
(, 下载次数: 12)
上传
点击文件名下载附件
三、网址的进一步过滤
1、替换
比如列表中,获取到
http://mil.news.sina.com.cn/2014-08-14/1717795646.html
这个地址,我想替换成
http://mil.news.sina.com.cn/cc/1717795646.html
,因为1717795646这个数字是变化着的,所以我们需要一个占位符,如图:
(, 下载次数: 11)
上传
点击文件名下载附件
2、过滤
比如利用“网址不包含下列字符”来过滤掉网址,如过滤掉
http://mil.news.sina.com.cn/2014-08-14/1717795646.html
这个网址。如图:
(, 下载次数: 14)
上传
点击文件名下载附件
欢迎光临 嘻皮客娱乐学习网 (http://www.xipick.com/)
Powered by Discuz! X3.3