小明思考

Just a software engineer
posts - 124, comments - 36, trackbacks - 0, articles - 0
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

开源网络爬虫Snaker

Posted on 2012-01-13 15:45 小明 阅读(3207) 评论(1)  编辑  收藏 所属分类: 开源项目
最近开发的一个通用网络爬虫平台,主要是想满足自己想从特定网站抓取大量内容的需求,有如下特点:

1. 支持cookie/session,所以支持登录论坛和网站
2. 支持图像识别,可以由人工识别或者机器识别
3. 多线程下载,性能不错
4. 支持代理
5. 支持HTTPS和证书验证
6. 支持可插拔脚本,对特别网站使用特别的脚本(javascript编写)。
7. 有Web界面,操作方便

项目位置:http://code.google.com/p/ssnaker/
下载:http://ssnaker.googlecode.com/files/snaker_1.00_b7.zip

最新的版本也实现一个火车票刷票的功能(具体实现都放在engines/train.js)



评论

# re: 开源网络爬虫Snaker  回复  更多评论   

2012-12-25 11:18 by 杨先生
你好,我想和您商量关于爬虫信息问题,谢谢。19093188

只有注册用户登录后才能发表评论。


网站导航: