设为首页收藏本站

嘻皮客娱乐学习网

 找回密码
 中文注册
搜索
打印 上一主题 下一主题
开启左侧

DXC采集插件网址规则:1、从分页列表采集

[复制链接]
跳转到指定楼层
楼主
发表于 2017-4-6 10:49:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
所谓分页列表,就像新浪这个新闻地址。http://roll.mil.news.sina.com.cn/col/zgjq/index_2.shtml

一、设置网址范围

首先我们先观察一下网址变化,
第三页:http://roll.mil.news.sina.com.cn/col/zgjq/index_3.shtml
第四页:http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
第五页:http://roll.mil.news.sina.com.cn/col/zgjq/index_5.shtml
……
想必不再举例了,大家都知道页码变化的地方就是数字3、4、5的地方。
比如要采集前50页的新闻。就在这里设置

二、文章列表获取

如何获取每一页的新闻列表?
使用DOM方式获取列表:
建议您先阅读DOM写法这章节的教程。



根据网页结构的分析,本例的规则是:
ul.linkNews li
a
放入规则,测试如图:

三、网址的进一步过滤

1、替换
比如列表中,获取到http://mil.news.sina.com.cn/2014-08-14/1717795646.html这个地址,我想替换成http://mil.news.sina.com.cn/cc/1717795646.html,因为1717795646这个数字是变化着的,所以我们需要一个占位符,如图:
2、过滤
比如利用“网址不包含下列字符”来过滤掉网址,如过滤掉http://mil.news.sina.com.cn/2014-08-14/1717795646.html这个网址。如图:

回复

使用道具 举报

小黑屋|手机版|嘻皮客网 ( 京ICP备10218169号|京公网安备11010802013797  

GMT+8, 2024-4-24 03:43 , Processed in 0.188646 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表