添加采集规则
规则说明
系统默认变量:<{articleid}> – 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>‘”以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!
基本设置
网站标识configs\article\collectsite.php中所添写的标识,可随便填写,一般为所采集站点的域名简写,以和其他规则区分。例:feiku
网站名称所采集站的名称。例:飞库
网站地址所采集站的地址。例:http://www.feiku.com
文章子序号运算方式不是必须添写的,我这里就留空了。
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)
章节子序号运算方式不是必须添写的,我这里就留空了。(谁知道他一个文件夹放多少书啊,他不按规则放,我不是采集不到 )
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)
代理服务器地址 不使用代理服务器请留空
代理服务器端口
现有章节无法对应时候是否全部清空重新采集 是 否 根据自己需要选择
是否默认把采集到的文章设置为全本 是 否 根据自己需要选择,如果选择”是”无论文章是连载还是完结,你站上都显示全本,建议选“否”
发送HTTP_REFERER标志,用于突破防采集设置 是 否 默认选“是”,不知道什么用,我选“是”先突破下再说
对方网页编码 (自动检测 GB2312 UTF8 BIG5)默认“自动检测” 编码与本站不同将自动尝试转换
文章信息页面采集规则
文章信息页面地址书籍信息页网址,书籍ID用<{articleid}>代替。例:
http://feiku.com/Book/<{articleid}>/Index.html
文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件,然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是
对方类型名称和本站类型序号的用“=>”分割,两个类型之间用“||”分割,类型名称“default”标识默认的类型对应关系
本站类型和序号对应关系如下:
玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||侦探推理=>5||网游动漫=>6||科幻小说=>7||恐怖灵异=>8||散文诗词=>9||其他类型=>10 关键字采集规则 找到关键字附近的代码主角检索关键字 —— 我的美女 李兴禹 美女 都市
这里的”我的美女 李兴禹 美女 都市”用****代替.结果规则是主角检索关键字 ——****
内容简介采集规则
拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活,放弃了家族的大公司,而是选择在一个小公司当一个普普通通的白领。
在餐厅的一次英雄救美使他结识了一位大美女,而这个美女竟然是刘星所在公司在上海总公司老板的女儿,换句话来说也就是他的大小姐。
但是表面上很美看似优雅的大小姐却有不为人知的一面,真是要人命呀!
给我当保姆?大小姐,你开什么玩笑,你什么都不会做,还给我当保姆?
老板有两个女儿?这么说自己白天刁难的那美女是二小姐?
恩?什么?你也决定住在这里?啊!别折腾我了~~!一个就够我受的了,又来一个。可真是‘大’‘小’姐呀!
‘大’小姐外表优雅温柔但却十分迷糊大条,大‘小’姐外表冰艳绝伦但却十分热辣泼妇,而且两姐妹从小到大水火不容,这回都住在我家,这家……可真是热闹了!
想泡美女的却被‘大’‘小’姐给‘泡’了!啊~~!还让不让人活了~~!
【点击阅读】
这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
【点击阅读】
本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用,可以应用在下面的“文章目录页面地址”里面 全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程”完接”)
写作进程用!!!!代替,所以结果规则是
本规则不是采集内容保存,而是匹配就认为是全本,不匹配则认为是连载
文章目录页面采集规则 文章目录页面地址就是目录页面的地址
http://feiku.com/html/book/168/144238/List.shtm
不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm 分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码
http://feiku.com/html/book/168/144238/3320510.shtm
里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替3320510章节序号用<{chapterid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/<{chapterid}>.shtm 章节内容采集规则章节内容附近代码,呵呵太大了啊,我就偷懒了.
上面的
http://www.feiku.com]
http://www.feiku.com
飞库网
http://www.cmfu.com
BookText”>
cmfu.com
可多个过滤规则,每个规则必须一行,可使用替换标签,如:
是否采集图片内容到本地 是 否 根据需要自己选择(下面都自己选择吧,累死了,闪了 )
采集到本地的图片处理,需要GD库支持
是否启用图片处理 是 否 启用图片处理对采集速度有一定影响
采集图片是否加上水印 是 否
加水印的设置在本模块的参数设置里面,于手工上传图片加水印方式相同。
采集图片背景颜色
这里留空则系统自动判断
按区域抹去原有图片水印
按照图片内的矩形坐标,抹去该区域内容。一个矩形用四个数值表示(用“,”分隔),分别是矩形左上角X,Y和左下角X,Y。当X,Y大于0时候表示从图片左上角开始加多少像素,当X,Y小于0时候表示从图片右下角开始减多少像素。多个区域用“|”分割。
例如:本项设置成“1,1,100,50|-100,-50,-1,-1”,分别表示左上角和右下角100*50的矩形区域。
按照颜色抹去原有图片水印
一般水印颜色与图片背景和内容颜色都不同,可以设置多个水印颜色全部抹去,用“|”分隔,如“#FAFAFA|#FF0000|#00FF00” ]]>
- 【上一篇】【搜狗拼音输入法 3.2 论坛版】
- 【下一篇】新年新气象!
杰奇采集规则编写教程:等您坐沙发呢!