henniu

易大师采集器2.1beta

2.1 修复了2.0之前的两个bug, 增加了两个新功能


  1. 修复2.0采集后统计字数错误bug

  2. 修复2.0配置user_agent 无效bug

  3. 增加通过本站小说反查目标站小说功能, 使用方法即在使用-c或-r参数的时候同时加上-reverse参数

  4. 增加正常关闭程序功能, 解决kill进程后采集到空章节bug, 增加此功能后如果再同一台机器上复制了多份采集器, 同时开启时需要修改collect.ini中stop_port端口, 此功能在windows下通过stop.bat调用, 在linux下通过stop.sh调用。



变更如下:

collect.ini文件中增加以下内容:

#程序默认监听端口, 正常结束程序时会通过此端口发送消息, 如果发生端口冲突, 请自行修改
stop_port=10987

#访问目标站方式user-agent
#模拟爬虫的值分别为:baidu 模拟百度爬虫 (默认方式)、google、 sogou、yahoo、msn、youdao、jike
#模拟人工:user_ie_x64, user_ie_x86
user_agent=user_ie_x64


site.ini文件中的user_agent配置项可以删掉。


使用2.1版中的spider.jar覆盖原有文件。

本次发布带起点规则(不完整, 只能做修复用), 使用起点配合-r、-ra及反查功能修复时user_agent必须使用user_ie_x64或 user_ie_x86, 使用模拟蜘蛛访问会被起点拒绝。


下载地址: http://pan.baidu.com/s/1dDAdf01

效果参看: 很牛小说网

#1楼
发帖时间:2014-10-19   |   查看数:0   |   回复数:5
qxwo
请问如何升级?只覆盖spider.jar这个文件吗?
2014-10-19 #2楼
thuong91
你可以教自己写rules.xml中http://truyenyy.com页面不
2014-10-26 #3楼
thuong91
2014-10-26 #4楼
永久禁区

java -jar spider.jar -c 1-10000 -reverse
2014-11-4 #5楼
thuong91
@henniu:Help me !!! Please build spider.jar (No LowerCase String)

LowerCase string :
AAAAAAAAAA -> aaaaaaaaaa
No LowerCasw String:
AAAAAAAAAA -> AAAAAAAAA


Thank you
2015-4-4 #6楼
游客组