设为首页收藏本站

嘻皮客娱乐学习网

 找回密码
 中文注册
搜索
打印 上一主题 下一主题
开启左侧

DXC采集插件全局参数设置

[复制链接]
跳转到指定楼层
楼主
发表于 2017-4-6 10:25:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

最大重定向深度:

采集器能采集一些跳转的页面,比如这个地址:http://go.rss.sina.com.cn/redirect.php?url=http://tech.sina.com.cn/i/2012-11-29/21427843535.shtml
点击之后实际上跳转到了这个地址:http://tech.sina.com.cn/i/2012-11-29/21427843535.shtml
如果采集器没有重定向功能,这种地址是无法采集的。
最大重定向深度就是控制跳转的次数,推荐值:2。

特殊图片本地化设置:

最典型的莫过于discuz的帖子中的图片展示,如这个帖子(地址:http://www.discuz.net/thread-1893356-1-1.html)的图片。查看源码就会发现,如下图:


如图可以看到,图片路径并不存在于src属性,而是存在于file属性。如果不做任何设置的话,我们采到的图片将是none.gif。类似这种形式的图片还有很多,那么如何设置采集此类图片呢?
如上面的例子就可以这样填:*none.gif@@file 。意思就是当图片标签img的src属性包含none.gif时,尝试从file属性获取图片路径。 当然,我们并不需要每个人都填进去才能采集到论坛的图片,因为采集器预置了如下参数:

*none.gif@@file(discuz论坛)
*bbsLoading.jpg@@src2(太平洋网络)
*imgloadingerr.gif@@original(天涯论坛)
*txt.mop.com@@data-original(猫扑论坛)
*blog.sina.com.cn/s/@@real_src(新浪博客)
*sg_trans.gif@@real_src(新浪博客)
如有特殊需要可以自己按照以上格式补充(括号里面是注释)

特殊图片本地化设置:

如果要采集论坛或者贴吧之类内容,内容中往往混杂大量的表情图片,这些表情数量繁多,而且有些论坛表情图片自己的论坛也有,所以没必要下载到自己的网站来。这个配置项就是来设置哪些图片不下载到本地的。
参数说明:一行一个。图片路径包含字符就检查本地是否有相应的文件,否则转换成远程路径,但不本地化。比如discuz的默认表情static/image/smiley/ 如果检测到内容含有这段字符,会检查论坛是否有相应的文件,如果有,则不会保存到本地。如果没有,图片路径转换成远程路径(比如搜搜表情) 
采集器预置了一些常用的参数:

static/image/smiley/(discuz默认表情)
piccache3.soso.com/face(搜搜图片)
cache.soso.com/img/
emot/em
static/image/common

如有特殊需要可以自己按照以上格式补充(括号里面是注释)

是否显示错误信息:

开启php错误提示,正常情况下应该关闭。

是否开启云采集:

智能获取网页内容时自动从服务器搜索匹配规则,并下载到本地。如果不开启,将不会从接服务器,如果您的网站访问服务器太慢,可以关掉云采集

回复

使用道具 举报

小黑屋|手机版|嘻皮客网 ( 京ICP备10218169号|京公网安备11010802013797  

GMT+8, 2024-5-20 03:47 , Processed in 0.172607 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表