henniu

易大师采集器2.0beta版发布


此版本有重大bug, 请直接下载2.0正式版。



20140910采集器2.0内测版下载地址http://pan.baidu.com/s/1hq68lvu


使用java -jar spider.jar -help可查看用法, 效果如下:


usage: yispider
 -c <arg>       采集指定目标站小说, 例如 -c 1,234,5678 或 -c 1-5
 -ca                采集所有目标站小说
 -help             获取帮助信息
 -m                同时采集指定多个配置文件进行采集
 -r <arg>      修复指定小说中目标站和本站均存在的小说,例如 -r 1,234,5678 或 -r 1-5
 -ra                修复所有目标站和本站均存在的小说
 -rp <arg>    指定小说需要修复的部分,指令包括:intro(简介)、degree(写作进度)、cover(封面图片)、top(小说
                     大类)、sub(小说细类), 必须和ra或r公用。 如 -ra -rp cover,top,sub,intro,degree
 -rule <file>   指定采集使用的规则文件
 -version         获取软件版本信息


使用步骤:

  1. 修改数据库链接, 对应配置文件jdbc.properties
    jdbc.url=jdbc:postgresql://127.0.0.1:5432/yidu
    jdbc.username=postgres
    jdbc.password=postgres

    将红色部分修改成自己的配置即可

  2. 修改采集配置, 对应配置文件collect.ini
    具体配置参考对应的中文说明, 一般情况下, 主要修改rule_name、add_new_book两项配置

  3. 配置网站信息, 对应配置文件site.ini
    主要修改txt_dir、cover_dir, 将这两个对应的值改为网站txt文件、封面图片对应的绝对路径

  4. 选择性配置
    小说分类设置category.ini
    日志设置logback.xml     日志级别修改52行<root level="INFO">, 调试时将level值设置为debug, 稳定运行时将level值设置为info或error



启动:  进入采集器目录, 使用java -jar spider.jar & 运行


#1楼
发帖时间:2014-9-10   |   查看数:0   |   回复数:4
henniu
解决启动采集器后日志滚屏,导致无法输入命令问题:打开logback.xml, 在53行附近找到<appender-ref ref="stdout" />, 将其删掉,或者修改为 <!--<appender-ref ref="stdout" />-->
2014-9-10 #2楼
巴适小说
演示    www.8sxs.com
2014-9-10 #3楼
巴适小说
示例  java -jar spider.jar -ra -rp intro,cover&
jara -jar spider.jar -r 1-60000 -rp intro,cover &
2014-10-8 #4楼
qxwo
需要用screen吗?运行完直接关掉shell就可以吗?
2014-10-18 #5楼
游客组