henniu

采集器使用方法

采集器下载到本地, 解压后可以看到以下目录:

    -conf

    -logs

    -rules

    -spider_lib

    -spider.jar

    -startSpider.sh

其中conf文件夹是配置文件目录, 进入后可以看到有5个文件, 其中config.ini 和 jdbc.properties是需要修改配置

在jdbc.properties中修改自己的数据库配置

在config.ini中修改采集配置, 主要修改项包括


ruleName  --采集规则文件名, 对应rules文件夹中的文件名

siteProgram    --目前只支持yidu

basePath    --网站根目录

newBook    --是否采集新书


其他配置参考文件中的注释。


关于startSpider.sh的说明, 请移步  启动脚本

#1楼
发帖时间:2014-3-10   |   查看数:0   |   回复数:1
ichester
为什么采集器没有面板啊。。
2015-1-24 #2楼
游客组