淡蓝色的轨迹……

天很高,云很淡 风很轻,海很蓝
                    牵着手
              在浪漫的沙滩上,留下两行清晰的脚印......
posts - 20,comments - 75,trackbacks - 0
    
           最近因为工作太忙的原因,一直没有时间来更新,现在放出2.1的版本(包含最新的源代码)。

        下载地址:
                         snoics-reptile2.1.part1.rar
                         snoics-reptile2.1.part2.rar
                         snoics-reptile2.1.part3.rar
                         snoics-reptile2.1.part4.rar

          (大家有什么意见可以在这里提出,只要有时间,我会尽量更新,有什么建议可以在blog里面提出,或者加我的MSN一起讨论。  ^_^ )

版本历史

2.1:

1、不用再配置snoics-configpath.xml中的路径。
2、定时自动保存Cache
3、修改了一些Bug
2.0:

核心代码全部重写,增加了扩展性,通过扩展之后,基本上能实现对整个网站完整的解析

1.0:

实现了整站抓取的基本的功能,不能解析特殊的URL,对javascript无法辨认
posted on 2006-10-27 21:05 snoics 阅读(1851) 评论(14)  编辑  收藏

FeedBack:
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2006-10-27 22:35 | weidagang2046
有没有文档之类的?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2006-10-31 15:59 | 捕风
只能抓起静态页面吗?
存不存在防火墙穿越不了的问题?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2006-12-14 13:47 | 叶建辉
snoics.jar 的原代码好象没有?yejianhui425@126.com

yejianhui423@hotmail.com 您的MSN是多少?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2007-04-21 18:56 | zx
好像缺少com.snoics.base和com.snoics.useclass的代码  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2007-05-09 14:45 | 游客
局域网内可以使用吗?
支持NTLM域认证吗?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2007-06-14 09:51 | 雨夜
不行哦,怎么还是报MAIN的意外错误,请麻烦给解释下,问题出在哪,RUN.BAT文件也没有JAR名字的错误哦,谢谢!  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2007-07-12 21:10 | 杨铸
最新版本怎么使用他啊,谢谢,
需要注意那些问题!  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2007-08-01 23:30 | ava
new  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2008-01-25 09:51 | xiao
还有没有最新版本.老大,能加msn吗.xrb2008@hotmail.com  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2008-03-26 15:27 |
能指导一下这东西怎么用嘛  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2008-07-07 13:27 | xmf
能不能出份教程啊。要不你的搞得这个也浪费了,好多人想用都不会用。  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录]
2008-07-27 12:44 | 菜鸟
还行,就是效率太低,可以考虑优化下算法。没看楼主的底层代码,不过通过抓到的结果可以看出,文件的抓取完全是靠链接来抓取的,个人认为可以通过文件夹抓取,也就是说进入一个链接时,获得顶层文件夹,通过递归把该链接各层文件夹的文件全部抓取出来,一个网站也就几分钟就搞定了,而我今天花了一上午都还在抓  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录]
2008-09-10 17:55 |
请问一下楼主的Spider中对js的处理中是哪些代码啊?
  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)
2008-11-12 11:09 | softwater
很感谢你的这套源码,在与之类似的一些二次开发中,我借鉴了很多有用的东西,楼主的MSN是多少?有机会我想请教一些问题,另外可否提供Snoics.jar的原代码?谢谢  回复  更多评论
  



标题  
姓名  
主页
验证码 *  
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2006-10-27 21:12 编辑过
 
 
相关链接:
网站导航: