采集器V1.3BETA版正式发布采集器相关

采集器相关采集器V1.3BETA版正式发布

登录注册发新帖

henniu

采集器V1.3BETA版正式发布

本版主要变更:

修复之前版本连接目标站出错时程序假死bug。
增加空章节修复、封面等小说信息修复功能。
增加按照目标站小说号采集功能。
增加对多个列表页采集的支持。
修复其他bug。
为简化过滤，本版采集器不支持规则大小写。

如果采集规则中出现大写字母除了正则本身大写的，其他需要全部改为小写

正则本身需要大写的如\W \S等。

小说空章节、封面、作者、简介修复功能使用方法如下：

java -jar spider.jar -r

java -jar spider.jar -r1,2,3

-r后面的数字是目标站小说号

使用时需要注意，修复的采集规则需要和采集的时候不同，不然抓取到的内容和原来的一样，是无法进行修复的。

按照目标站小说号采集在1.2的基础上增加了区间支持，即支持采集目标站序号在1-100之间的小说

使用方法如下：

java -jar spider.jar -n1,2,3

java -jar spider.jar -n1#100

支持对多个列表页的采集，如

<NovelListUrl>
    <RegexName>NovelListUrl</RegexName>
    <Pattern>http://www.23us.com/top/allvisit_1.html
http://www.23us.com/top/allvisit_2.html
http://www.23us.com/top/allvisit_3.html
http://www.23us.com/top/allvisit_4.html
http://www.23us.com/top/allvisit_5.html</Pattern>
    <Method>Match</Method>
    <FilterPattern />
    <Options>None</Options>
</NovelListUrl>

需要每行一个列表页

本次发布版本只有spider.jar有变动，下载最新spider.jar直接覆盖1.2的spider.ja即可。

具体使用方法请参考http://www.51yd.org/thread-index-fid-1-tid-34.htm

如有使用意见或者建议请跟帖说明，如使用中遇到紧急问题请直接在群里@浪迹天涯。

易读用户如果在使用中遇到索引重复问题，请执行以下两条SQL:

SELECT setval('t_article_articleno_seq', (select max(articleno) from t_article));
SELECT setval('t_chapter_chapterno_seq', (select max(chapterno) from t_chapter));

1.2下载地址： http://pan.baidu.com/s/18GXNC

1 个附件	售价	大小	下载	时间

spider.jar	0 金币	93.97K	42 次	2014-3-29

#1楼

发帖时间：2014-3-29 | 查看数：0 | 回复数：4

admin

顶顶

2014-3-29 #2楼

94058751

小说集 www.xiaoshuoji.net 支持易读小说

2014-9-1 #3楼

巴适小说

巴适小说网 www.8sxs.com 支持易读小说

2014-9-3 #4楼

黑名单

5200文学网特来支持易读！ http://www.5200wxw.com

2014-9-9 #5楼

游客组

返回上一页返回【采集器相关】