将所有页面源码中的相对地址转换成绝对地址(包含超链接、图片、JS链接等)

默认将已采集网址排重过滤,选择“是”允许重复采集

以相反的顺序采集内容页网址

需先配置页面渲染,可自动加载ajax内容,注意:渲染后的html源码与未渲染时的不相同,html的变动可能会导致原来的规则失效!

通常情况下网址中有锚点(#)和无锚点解析出的内容是相同的,为避免采集到重复内容可去除网址锚点

使用正则规则时进行以上模式匹配,默认情况下仅忽略大小写

采集前置页、起始页、多级页、内容页和关联页时使用请求头信息

名称 删除

添加新的或者覆盖已有的请求头信息

下载图片时使用请求头

默认使用采集器设置»请求头信息»抓取页面中的配置(受全局开启状态影响)

名称 删除

添加新的或者覆盖已有的请求头信息

名称 内容标签 操作

起始页列表

添加起始网址作为抓取入口

{include file="cpattern:set_page" _page_type="source_url" /}
{if condition="!empty($collData['id'])"}
{/if}
添加默认
字段 数据来源 获取方式 操作
{include file="cpattern:set_pagination" _page_type="url" /} {if condition="!empty($collData['id'])"} {/if}
{include file="cpattern:set_tpl" /}