我们以新浪网的新闻为例子,网址http://roll.mil.news.sina.com.cn/col/zgjq/index_2.shtml
很简单,只要输入列表地址就可以采集了,真正做到无规则采集,即使脑残都会使用。如下图
20140814235824.jpg (74.36 KB, 下载次数: 9)
下载附件
2017-4-6 10:46 上传
执行之后,我们可以看到程序自动获取到了列表
20140815000016.jpg (181.55 KB, 下载次数: 13)
我们可以查看采集到的文章,如下图:
20140815001917.jpg (245.34 KB, 下载次数: 11)
即使不写规则,程序仍然能够准确的提取出文章的标题和内容。完全无任何杂质。
如果查看学习规则列表的话,可以看到,采集器在执行过程中自动学习到了一条规则:
20140815003918.jpg (52.83 KB, 下载次数: 7)
使用道具 举报
小黑屋|手机版|嘻皮客网 ( 京ICP备10218169号|京公网安备11010802013797 )
GMT+8, 2024-5-8 13:50 , Processed in 0.274356 second(s), 24 queries , Gzip On.
Powered by Discuz! X3.3
© 2001-2017 Comsenz Inc.