henniu

采集器V1.3BETA版正式发布

本版主要变更:

  1. 修复之前版本连接目标站出错时程序假死bug。

  2. 增加空章节修复、封面等小说信息修复功能。

  3. 增加按照目标站小说号采集功能。

  4. 增加对多个列表页采集的支持。

  5. 修复其他bug。

  6. 为简化过滤, 本版采集器不支持规则大小写。


如果采集规则中出现大写字母除了正则本身大写的, 其他需要全部改为小写

正则本身需要大写的如\W \S等。


小说空章节、封面、作者、简介修复功能使用方法如下:

java -jar spider.jar -r

java -jar spider.jar -r1,2,3

-r后面的数字是目标站小说号

使用时需要注意, 修复的采集规则需要和采集的时候不同, 不然抓取到的内容和原来的一样, 是无法进行修复的。


按照目标站小说号采集在1.2的基础上增加了区间支持, 即支持采集目标站序号在1-100之间的小说

使用方法如下:

java -jar spider.jar -n1,2,3

java -jar spider.jar -n1#100


支持对多个列表页的采集, 如

  <NovelListUrl>
    <RegexName>NovelListUrl</RegexName>
    <Pattern>http://www.23us.com/top/allvisit_1.html
http://www.23us.com/top/allvisit_2.html
http://www.23us.com/top/allvisit_3.html
http://www.23us.com/top/allvisit_4.html
http://www.23us.com/top/allvisit_5.html</Pattern>
    <Method>Match</Method>
    <FilterPattern />
    <Options>None</Options>
  </NovelListUrl>

需要每行一个列表页


本次发布版本只有spider.jar有变动, 下载最新spider.jar直接覆盖1.2的spider.ja即可。


具体使用方法请参考http://www.51yd.org/thread-index-fid-1-tid-34.htm


如有使用意见或者建议请跟帖说明, 如使用中遇到紧急问题请直接在群里@浪迹天涯。


易读用户如果在使用中遇到索引重复问题,请执行以下两条SQL:

SELECT setval('t_article_articleno_seq', (select max(articleno) from t_article));
SELECT setval('t_chapter_chapterno_seq', (select max(chapterno) from t_chapter));



1.2下载地址: http://pan.baidu.com/s/18GXNC


1 个附件 售价 大小 下载 时间

spider.jar 0 金币 93.97K 42 次 2014-3-29

#1楼
发帖时间:2014-3-29   |   查看数:0   |   回复数:4
admin
顶顶
2014-3-29 #2楼
94058751
小说集 www.xiaoshuoji.net   支持易读小说
2014-9-1 #3楼
巴适小说
巴适小说网 www.8sxs.com   支持易读小说
2014-9-3 #4楼
黑名单

 5200文学网 特来支持易读! http://www.5200wxw.com

2014-9-9 #5楼
游客组