图片地址正则匹配:(必填)
简单举例:比如被采集的网站内容页的html代码如下
<tr><td><img src="图片URL"></td></tr><table>
那么右边输入
<tr><td><img src="{photourl=*}"></td></tr><table>
复杂些举例:比如有多余的代码
<tr><td><img src="图片URL"
alt="介绍" ></td></tr><table>
那么右边输入
<tr><td><img src="{photourl=*}"
alt="{*}"
></td></tr><table>
其中 {photourl=*}代表图片的地址,而{*}代表用不到的多余字符的通配符
|
|
剔除前面无关代码:(一般为空)
请对比多篇内容的源代码,找出其图片URL之前的一部分代码复制到此,则代表之前的内容过滤掉,为避免采集多余的内容,复制出来的代码要具有唯一性
|
|
剔除后面无关代码:(一般为空)
请对比多篇内容的源代码,找出其图片URL之后的一部分代码复制到此,则代表之后的内容过滤掉,为避免采集多余的内容,复制出来的代码要具有唯一性 |
|
图片URL地址必须包含有的字符(一般为空)
多个请换行 |
|
图片URL地址不能包含有的字符(一般为空)
多个请换行 |
|
要替换图片URL中的字符:
目的,替换不想要的字符,多组的话,请每组换一行
格式为旧字符|新字符 |
|
精准定位,自定义正则语法规则(即用通配符替换原文内容):
第一步,打开查看任意一篇要采集的详细内容页HTML网页源代码.
第二步,查看网页源代码,找到内容,删除他,用通配符{content=*}替换,然后再把他前面与后面的一小段代码也复制过来即可.
简单举例(常用):比如被采集的网站内容页的html代码如下
<tr><td>内容部分</td></tr><table>
那么右边输入
<tr><td>{content=*}</td></tr><table>
说明:通配符的前后有一小段HTML代码,是不可少的,目的是为了找规则,不需要太多,也不要太少,达到唯一性即可.
复杂举例(少用):比如内容的html代码如下
时间:2008-12-24 12:13abc不相关内容作者:张三abc不相关内容来源:齐博网abc不相关内容<tr><td
class="asc">内容部分</td></tr><table>
那么右边输入
时间:{posttime=*}abc{*}作者:{author=*}abc{*}来源:{copyfrom=*}abc{*}<tr><td
class="asc" >{content=*}</td></tr><table>
注意:除内容外,其它每个参数后面,一般都带有{*}非相关内容的通配符,通配符前面都有一个固定的字符,不能缺少固定的字符,如abc
必须要注意的是:
为何要取内容的html代码如下
<tr><td>内容部分</td></tr><table>
那么右边输入
<tr><td>{content=*}</td></tr><table>
而不是
<tr><td>内容部分</td></tr>
那么右边输入
<tr><td>{content=*}</td></tr>
这个呢?
为什么要多一段 <table> 呢?其实少这一段也是可以的,但就有可能采集到其他内容,即是精确度不高.代码多一点,精确度就高一点,但也不是越多越好.因为太多的话.有可能就采集不到了.
注意: 如果你采集的不仅仅是内容,还有其它作者、来源等参数,注意不能缺少{*},{*}代表非相关内容的通用代表符.
|
|
以下三项极少使用,如果你不懂PHP程序的话,请留空,不可乱写内容。否则会导致网页打不开的后果 |
开头PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|
结尾PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|
图片URL的PHP正则程序语法,用在结尾
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|