随笔-26  评论-111  文章-19  trackbacks-0
    
           最近因为工作太忙的原因,一直没有时间来更新,现在放出2.1的版本(包含最新的源代码)。

        下载地址:
                         snoics-reptile2.1.part1.rar
                         snoics-reptile2.1.part2.rar
                         snoics-reptile2.1.part3.rar
                         snoics-reptile2.1.part4.rar

          (大家有什么意见可以在这里提出,只要有时间,我会尽量更新,有什么建议可以在blog里面提出,或者加我的MSN一起讨论。  ^_^ )

版本历史

2.1:

1、不用再配置snoics-configpath.xml中的路径。
2、定时自动保存Cache
3、修改了一些Bug
2.0:

核心代码全部重写,增加了扩展性,通过扩展之后,基本上能实现对整个网站完整的解析

1.0:

实现了整站抓取的基本的功能,不能解析特殊的URL,对javascript无法辨认
posted on 2006-10-27 21:05 snoics 阅读(4608) 评论(21)  编辑  收藏

评论:
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2006-10-27 22:35 | weidagang2046
有没有文档之类的?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2006-10-31 15:59 | 捕风
只能抓起静态页面吗?
存不存在防火墙穿越不了的问题?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2006-12-14 13:47 | 叶建辉
snoics.jar 的原代码好象没有?yejianhui425@126.com

yejianhui423@hotmail.com 您的MSN是多少?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-04-21 18:56 | zx
好像缺少com.snoics.base和com.snoics.useclass的代码  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-05-09 14:45 | 游客
局域网内可以使用吗?
支持NTLM域认证吗?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-06-14 09:51 | 雨夜
不行哦,怎么还是报MAIN的意外错误,请麻烦给解释下,问题出在哪,RUN.BAT文件也没有JAR名字的错误哦,谢谢!  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-07-12 21:10 | 杨铸
最新版本怎么使用他啊,谢谢,
需要注意那些问题!  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-08-01 23:30 | ava
new  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-01-25 09:51 | xiao
还有没有最新版本.老大,能加msn吗.xrb2008@hotmail.com  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-03-26 15:27 |
能指导一下这东西怎么用嘛  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-07-07 13:27 | xmf
能不能出份教程啊。要不你的搞得这个也浪费了,好多人想用都不会用。  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2008-07-27 12:44 | 菜鸟
还行,就是效率太低,可以考虑优化下算法。没看楼主的底层代码,不过通过抓到的结果可以看出,文件的抓取完全是靠链接来抓取的,个人认为可以通过文件夹抓取,也就是说进入一个链接时,获得顶层文件夹,通过递归把该链接各层文件夹的文件全部抓取出来,一个网站也就几分钟就搞定了,而我今天花了一上午都还在抓  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2008-09-10 17:55 |
请问一下楼主的Spider中对js的处理中是哪些代码啊?
  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-11-12 11:09 | softwater
很感谢你的这套源码,在与之类似的一些二次开发中,我借鉴了很多有用的东西,楼主的MSN是多少?有机会我想请教一些问题,另外可否提供Snoics.jar的原代码?谢谢  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2008-12-17 13:05 | Joe
试了一下,果然可以了,多谢分享  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2009-05-13 15:22 | dadbxh365
不会用  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2009-12-23 13:53 | xiaodao
请问如果要连续抓取多个站点的页面,怎么实现呢?  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-04-17 09:19 | Sun
我怎么运行不了?怎么配置呢,谢谢~~@Joe
  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-04-17 09:52 | Sun
麻烦可以帮我看一下这是什么问题吗?
Snoics Config Base Path :D:/Workspaces/MyEclipse 8.5/Sun/bin/
Snoics spaceChar :\+
Snoics Config Full Path :D:/Workspaces/MyEclipse 8.5/Sun/conf/
java.net.MalformedURLException: unknown protocol: d
at java.net.URL.<init>(URL.java:574)
at java.net.URL.<init>(URL.java:464)
at java.net.URL.<init>(URL.java:413)
at com.sun.org.apache.xerces.internal.impl.XMLEntityManager.setupCurrentEntity(XMLEntityManager.java:650)
at com.sun.org.apache.xerces.internal.impl.XMLVersionDetector.determineDocVersion(XMLVersionDetector.java:186)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:771)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:737)
at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(XMLParser.java:107)
at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:225)
at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:283)
at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:180)
at com.snoics.base.xml.XMLFactory.getDocument(Unknown Source)
at com.snoics.base.xml.XMLUtil.parseXMLFile(Unknown Source)
at com.snoics.base.xml.ReadXml.parseXMLFile(Unknown Source)
at com.snoics.system.conf.SystemConfig.setSystemConfigFile(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
at com.snoics.system.Init.init(Unknown Source)
at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
java.lang.NullPointerException
at com.snoics.base.xml.ReadXml.setCurrentNodeList(Unknown Source)
at com.snoics.system.conf.SystemConfig.getDatabaseInfo(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
at com.snoics.system.Init.init(Unknown Source)
at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
java.lang.NullPointerException
at com.snoics.base.xml.ReadXml.getCurrentNodeListLength(Unknown Source)
at com.snoics.system.conf.SystemConfig.getDatabaseInfo(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
at com.snoics.system.Init.init(Unknown Source)
at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
Exception in thread "main" java.lang.NullPointerException
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
@菜鸟
  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-11-20 14:14 | cherish
@叶建辉
发份snoics.jar的源码哥们,我知道你搞到手了,嘿嘿。。。  回复  更多评论
  
# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-11-20 14:16 | cherish
忘写邮箱了, 630562556@qq.com 谢谢哥们。   回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航: