最大重定向深度:采集器能采集一些跳转的页面,比如这个地址:http://go.rss.sina.com.cn/redirect.php?url=http://tech.sina.com.cn/i/2012-11-29/21427843535.shtml 点击之后实际上跳转到了这个地址:http://tech.sina.com.cn/i/2012-11-29/21427843535.shtml 如果采集器没有重定向功能,这种地址是无法采集的。 最大重定向深度就是控制跳转的次数,推荐值:2。 特殊图片本地化设置:最典型的莫过于discuz的帖子中的图片展示,如这个帖子(地址:http://www.discuz.net/thread-1893356-1-1.html)的图片。查看源码就会发现,如下图:
如图可以看到,图片路径并不存在于src属性,而是存在于file属性。如果不做任何设置的话,我们采到的图片将是none.gif。类似这种形式的图片还有很多,那么如何设置采集此类图片呢? 如上面的例子就可以这样填:*none.gif@@file 。意思就是当图片标签img的src属性包含none.gif时,尝试从file属性获取图片路径。 当然,我们并不需要每个人都填进去才能采集到论坛的图片,因为采集器预置了如下参数: *none.gif@@file(discuz论坛)
*bbsLoading.jpg@@src2(太平洋网络)
*imgloadingerr.gif@@original(天涯论坛)
*txt.mop.com@@data-original(猫扑论坛)
*blog.sina.com.cn/s/@@real_src(新浪博客)
*sg_trans.gif@@real_src(新浪博客)
如有特殊需要可以自己按照以上格式补充(括号里面是注释)特殊图片本地化设置:如果要采集论坛或者贴吧之类内容,内容中往往混杂大量的表情图片,这些表情数量繁多,而且有些论坛表情图片自己的论坛也有,所以没必要下载到自己的网站来。这个配置项就是来设置哪些图片不下载到本地的。 参数说明:一行一个。图片路径包含字符就检查本地是否有相应的文件,否则转换成远程路径,但不本地化。比如discuz的默认表情static/image/smiley/ 如果检测到内容含有这段字符,会检查论坛是否有相应的文件,如果有,则不会保存到本地。如果没有,图片路径转换成远程路径(比如搜搜表情) 采集器预置了一些常用的参数: static/image/smiley/(discuz默认表情)
piccache3.soso.com/face(搜搜图片)
cache.soso.com/img/
emot/em
static/image/common
如有特殊需要可以自己按照以上格式补充(括号里面是注释)是否显示错误信息:开启php错误提示,正常情况下应该关闭。 是否开启云采集:智能获取网页内容时自动从服务器搜索匹配规则,并下载到本地。如果不开启,将不会从接服务器,如果您的网站访问服务器太慢,可以关掉云采集 |