{extend name="common:main" /} {block name="cssjs"} {/block} {block name="content"}
严格按照目标网站的robots.txt设置抓取数据,避免采集到隐私、侵权等具有争议性的内容 了解robots协议 选择“否”即您已悉知robots协议并对由此引发的后果负责
使用web服务器运行采集,会受web服务器运行超时影响导致采集中断,需修改web服务器的超时时间
使用php cli命令行模式运行采集,自动采集、后台采集可以稳定运行,需要web服务器拥有执行命令的权限 了解权限
PHP可执行文件在服务器中的绝对路径或者在系统中的环境变量名称
此设置为总控制开关,如设置“否”则任务中的自动采集设置不生效
将在PHP后台开启一个持续进程用来运行采集,会占用一些服务器资源
需在您的网站底部模板中加入一条html代码: <script src="{:url('admin/index/caiji',null,false,true)}" async></script> 添加后,用户访问页面时即可触发采集,该方法不会额外消耗服务器资源
将采集任务平均分配到多个进程中同时运行,默认0:所有任务都在一个进程中依次运行
每次采集的数据总量,留空或0表示采完为止
采集完毕隔多久再次运行,可轮询目标的数据更新且有效减轻服务器压力,强烈建议设置时间!留空或0表示不限制(采集量大会造成服务器过载)
无论是否采集完毕,到达设置的时间则立刻终止采集,可防止采集太久造成服务器卡顿,留空或0表示不限制
可防止页面抓取频率太快造成目标网站响应超时或宕机,留空或0表示不限制
抓取页面失败,等待一段时间再继续
页面抓取失败重试次数,留空或0表示不重试
默认所有任务采集同一条网址只能发布一次(某个任务中采集发布过,在其他任务中就会被过滤),选择“允许”则每个任务中都可再次采集
如启用了“任务»采集器设置»获取内容»标题排重”,默认所有任务采集同一标题网址只能发布一次,选择“允许”则每个任务中都可再次采集
采集一条发布一条数据,否则等采集完后再集中发布
网址解析时使用的IP类型,如果本地服务器启用了IPv6解析,但目标网站不支持IPv6会导致采集速度变慢,建议设置为IPv4,注意:如设为IPv6但目标网站不支持IPv6会导致无法采集
最多允许网址重定向多少次,留空或0表示不限制