实例解释比较详细的杰奇小说采集规则编写教程

 更新时间:2008年04月09日 11:51:56   作者:  
最近接触到杰奇小说系统,当然主要的用到它的采集,第一次用不太熟悉,搜索到一篇采集规则讲解的比较详细的,特给大家分享

添加采集规则
规则说明
系统默认变量:<{articleid}> - 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>'"以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!

基本设置

    网站标识configs\article\collectsite.php中所添写的标识,可随便填写,一般为所采集站点的域名简写,以和其他规则区分。例:feiku

    网站名称所采集站的名称。例:飞库

     网站地址所采集站的地址。例:http://www.feiku.com

    文章子序号运算方式不是必须添写的,我这里就留空了。
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)

    章节子序号运算方式不是必须添写的,我这里就留空了。(谁知道他一个文件夹放多少书啊,他不按规则放,我不是采集不到 )
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)

    代理服务器地址  不使用代理服务器请留空

    代理服务器端口  

    现有章节无法对应时候是否全部清空重新采集 是 否  根据自己需要选择

    是否默认把采集到的文章设置为全本 是 否  根据自己需要选择,如果选择"是"无论文章是连载还是完结,你站上都显示全本,建议选“否”

    发送HTTP_REFERER标志,用于突破防采集设置 是 否  默认选“是”,不知道什么用,我选“是”先突破下再说

    对方网页编码  (自动检测 GB2312 UTF8 BIG5)默认“自动检测” 编码与本站不同将自动尝试转换
文章信息页面采集规则

    文章信息页面地址书籍信息页网址,书籍ID用<{articleid}>代替。例:
http://feiku.com/Book/<{articleid}>/Index.html

    文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件,然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是<div id="CrBookTitle"><span class="booktitle">《我的美女大小姐》</span></div>把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好(习惯问题,这里当然只能采集到文章标题了,但是其他的一些采集的时候就有你不想要的东西).

    作者采集规则<li class="l6"><a href="/Author/WB/144238.html">李兴禹</a></li>这里的李兴禹是要采集的内容,用!!!!代替不过144238只对这个文章有用,其他文章有其他的数字,所以用任意数字串$代替.所以作者采集规则就是
<li class="l6"><a href="/Author/WB/$.html">!!!!</a></li>

    文章类型采集规则 <li class="l2"><a href="/Book/LN/133.html">都市</a></li>由上面两个采集规则的写法不难看出这里的规则是 <li class="l2"><a href="/Book/LN/$.html">!!!!</a></li>

    文章类型对应关系这个就自己写吧,呵呵,给出飞库的对应关系,大家参考下.玄幻=>1||奇幻=>1||武侠=>2||仙侠=>2||言情=>3||都市=>3||科幻=>7||灵异=>8||游戏=>6||竞技=>6||历史=>4||军事=>4||美文=>10||同人=>9||传记=>10||名著=>10||札记=>10||笑话=>10||外国=>10||古典=>10||少儿=>10||侦探=>5||经管=>10||时尚=>10||英语=>10||电脑=>10||学习=>10||法律=>10||其它=>10
对方类型名称和本站类型序号的用“=>”分割,两个类型之间用“||”分割,类型名称“default”标识默认的类型对应关系  
本站类型和序号对应关系如下:
玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||侦探推理=>5||网游动漫=>6||科幻小说=>7||恐怖灵异=>8||散文诗词=>9||其他类型=>10

    关键字采集规则 找到关键字附近的代码主角检索关键字 —— 我的美女   李兴禹   美女   都市 <br />这里的"我的美女   李兴禹   美女   都市"用****代替.结果规则是主角检索关键字 ——****<br />

   内容简介采集规则  <div id="CrbsSum">   ‘大‘小姐和大‘小‘姐,你们别折腾我了行不?我求你们了~~!<br>  拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活,放弃了家族的大公司,而是选择在一个小公司当一个普普通通的白领。<br>  在餐厅的一次英雄救美使他结识了一位大美女,而这个美女竟然是刘星所在公司在上海总公司老板的女儿,换句话来说也就是他的大小姐。<br>  但是表面上很美看似优雅的大小姐却有不为人知的一面,真是要人命呀!<br>  给我当保姆?大小姐,你开什么玩笑,你什么都不会做,还给我当保姆?<br>  老板有两个女儿?这么说自己白天刁难的那美女是二小姐?<br>  恩?什么?你也决定住在这里?啊!别折腾我了~~!一个就够我受的了,又来一个。可真是‘大'‘小'姐呀!<br>  ‘大'小姐外表优雅温柔但却十分迷糊大条,大‘小'姐外表冰艳绝伦但却十分热辣泼妇,而且两姐妹从小到大水火不容,这回都住在我家,这家……可真是热闹了!<br>  想泡美女的却被‘大'‘小'姐给‘泡'了!啊~~!还让不让人活了~~!<br /></div>
                  <div id="CrbsRole">根据上面说的,结果规则是
<div id="CrbsSum">****<br /></div>
                  <div id="CrbsRole">
注意:源文件里面有的代码换行什么的,你复制进去的时候除了用替换符替换要采集的内容外,不要改格式,别看他换行了,你给退几各和前面的连接到一起.

    封面图片采集规则 <div id="CrbtlBookImg"><img src="/UploadPhoto/Book/BookImg/144/144238.jpg" width="100" height="125" /></div>结果规则是<div id="CrbtlBookImg"><img src="!!!!" width="100" height="125" /></div>这里width="100" height="125"也可以弄成width="$" height="$"不过如果采集站封面图片都一样大小就不用理了.找封面图片在源文件里的位置的时候,可以到信息页面查看图片的属性,看图片什么名字,然后到源文件里搜索.

    过滤的封面图片找到个没有封面图片的文章,然后看下img src="和"里面是什么,给写上就可以了,这里是/img/noimg.gif  

    目录页面链接采集规则由于上面子序号我们都没有写,这里我们利用这个规则采集子序号就可以了.在文章信息页面的源文件里找到目录页面连接附近的代码(一般都在点击阅读附近,飞库里是【点击阅读】在源文件里附近的代码)
【<a href="/html/book/168/144238/List.shtm" ><font color="#CC0000">点击阅读</font></a>】
这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
【<a href="/html/book/$$$$/$/List.shtm" ><font color="#CC0000">点击阅读</font></a>】
本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用,可以应用在下面的“文章目录页面地址”里面  

    全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程"完接")
<li class="l3">写作进程</li>
                     <li class="l4">完结</li>
写作进程用!!!!代替,所以结果规则是
<li class="l3">!!!!</li>
                     <li class="l4">完结</li>
本规则不是采集内容保存,而是匹配就认为是全本,不匹配则认为是连载  
文章目录页面采集规则

    文章目录页面地址就是目录页面的地址
http://feiku.com/html/book/168/144238/List.shtm
不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm

    分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码<div id="NclassTitle">正文  里面的正文是我们要采集的东西,用!!!!代替,结果规则是<div id="NclassTitle">!!!!  

    章节名称采集规则找到章节名称附近代码 更新字数:3402">第一章 大象~~大象~~!</a></li>这里第一章 大象~~大象~~!是要采集的内容用!!!!或者****代替3402是任意数字用$代替,结果规则是更新字数">!!!!</a></li>

    章节序号采集规则找到章节序号附近代码
<li><a href="3320510.shtm" title="更新时间:
其中3320510是我们要采集的章节序号用$$$$代替,结果规则是
<li><a href="$$$$.shtm" title="更新时间
章节内容页面采集规则

    章节内容页面地址
http://feiku.com/html/book/168/144238/3320510.shtm
里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替3320510章节序号用<{chapterid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/<{chapterid}>.shtm

   章节内容采集规则章节内容附近代码,呵呵太大了啊,我就偷懒了.
</div>
          <div id="BookText">章节内容
</div>
上面的<div id="BookText">里面有的书籍章节内容代码里面不是BookText比如有的是<div id="ssmmkkg">但是
</div>
          <div id="
是都有的,所以就用他了,章节内容用****代替,结果规则如下,大家自己进修吧
</div>
          <div id="****</div>


    章节内容过滤规则上面两端代码里面所有你不想要的内容都可以写在这里.这里是我去掉的一些,大家可以根据需要自己弄
<a href="/User/Messages.aspx?to=badmin&title=
[飞库网 http://www.feiku.com]
http://www.feiku.com
飞库网
http://www.cmfu.com
BookText">
cmfu.com
可多个过滤规则,每个规则必须一行,可使用替换标签,如:<div>!</div>  
是否采集图片内容到本地 是 否  根据需要自己选择(下面都自己选择吧,累死了,闪了 )
采集到本地的图片处理,需要GD库支持
是否启用图片处理 是 否 启用图片处理对采集速度有一定影响
采集图片是否加上水印 是 否
加水印的设置在本模块的参数设置里面,于手工上传图片加水印方式相同。
采集图片背景颜色  
这里留空则系统自动判断
按区域抹去原有图片水印  
按照图片内的矩形坐标,抹去该区域内容。一个矩形用四个数值表示(用“,”分隔),分别是矩形左上角X,Y和左下角X,Y。当X,Y大于0时候表示从图片左上角开始加多少像素,当X,Y小于0时候表示从图片右下角开始减多少像素。多个区域用“|”分割。
例如:本项设置成“1,1,100,50|-100,-50,-1,-1”,分别表示左上角和右下角100*50的矩形区域。
按照颜色抹去原有图片水印  
一般水印颜色与图片背景和内容颜色都不同,可以设置多个水印颜色全部抹去,用“|”分隔,如“#FAFAFA|#FF0000|#00FF00”

相关文章

最新评论