snoics-reptile 网页爬虫2.1 (2006-10-27日更新) - 淡蓝色的轨迹…… - 语源科技BlogJava

随笔-26 评论-111 文章-19 trackbacks-0

snoics-reptile 网页爬虫2.1 (2006-10-27日更新)

           最近因为工作太忙的原因，一直没有时间来更新，现在放出2.1的版本（包含最新的源代码）。

        下载地址：
                         snoics-reptile2.1.part1.rar
                         snoics-reptile2.1.part2.rar
                         snoics-reptile2.1.part3.rar
                         snoics-reptile2.1.part4.rar

          （大家有什么意见可以在这里提出，只要有时间，我会尽量更新，有什么建议可以在blog里面提出，或者加我的MSN一起讨论。 ^_^ ）

版本历史
2.1：	1、不用再配置snoics-configpath.xml中的路径。 2、定时自动保存Cache 3、修改了一些Bug
2.0：	核心代码全部重写，增加了扩展性，通过扩展之后，基本上能实现对整个网站完整的解析
1.0：	实现了整站抓取的基本的功能，不能解析特殊的URL，对javascript无法辨认

posted on 2006-10-27 21:05 snoics 阅读(4886) 评论(21) 编辑收藏

评论:

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2006-10-27 22:35 | weidagang2046

有没有文档之类的？回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2006-10-31 15:59 | 捕风

只能抓起静态页面吗？
存不存在防火墙穿越不了的问题？回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2006-12-14 13:47 | 叶建辉

snoics.jar 的原代码好象没有？yejianhui425@126.com

yejianhui423@hotmail.com 您的MSN是多少？回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-04-21 18:56 | zx

好像缺少com.snoics.base和com.snoics.useclass的代码回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-05-09 14:45 | 游客

局域网内可以使用吗？
支持NTLM域认证吗？回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-06-14 09:51 | 雨夜

不行哦,怎么还是报MAIN的意外错误,请麻烦给解释下,问题出在哪,RUN.BAT文件也没有JAR名字的错误哦,谢谢! 回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-07-12 21:10 | 杨铸

最新版本怎么使用他啊，谢谢，
需要注意那些问题！回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2007-08-01 23:30 | ava

new 回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-01-25 09:51 | xiao

还有没有最新版本.老大,能加msn吗.xrb2008@hotmail.com 回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-03-26 15:27 | 动

能指导一下这东西怎么用嘛回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-07-07 13:27 | xmf

能不能出份教程啊。要不你的搞得这个也浪费了，好多人想用都不会用。回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2008-07-27 12:44 | 菜鸟

还行，就是效率太低，可以考虑优化下算法。没看楼主的底层代码，不过通过抓到的结果可以看出，文件的抓取完全是靠链接来抓取的，个人认为可以通过文件夹抓取，也就是说进入一个链接时，获得顶层文件夹，通过递归把该链接各层文件夹的文件全部抓取出来，一个网站也就几分钟就搞定了，而我今天花了一上午都还在抓回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2008-09-10 17:55 | 我

请问一下楼主的Spider中对js的处理中是哪些代码啊？
回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2008-11-12 11:09 | softwater

很感谢你的这套源码，在与之类似的一些二次开发中，我借鉴了很多有用的东西，楼主的MSN是多少？有机会我想请教一些问题，另外可否提供Snoics.jar的原代码？谢谢回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2008-12-17 13:05 | Joe

试了一下，果然可以了，多谢分享回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2009-05-13 15:22 | dadbxh365

不会用回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新) 2009-12-23 13:53 | xiaodao

请问如果要连续抓取多个站点的页面，怎么实现呢？回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-04-17 09:19 | Sun

我怎么运行不了？怎么配置呢，谢谢~~@Joe
回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-04-17 09:52 | Sun

麻烦可以帮我看一下这是什么问题吗？
Snoics Config Base Path :D:/Workspaces/MyEclipse 8.5/Sun/bin/
Snoics spaceChar :\+
Snoics Config Full Path :D:/Workspaces/MyEclipse 8.5/Sun/conf/
java.net.MalformedURLException: unknown protocol: d
at java.net.URL.<init>(URL.java:574)
at java.net.URL.<init>(URL.java:464)
at java.net.URL.<init>(URL.java:413)
at com.sun.org.apache.xerces.internal.impl.XMLEntityManager.setupCurrentEntity(XMLEntityManager.java:650)
at com.sun.org.apache.xerces.internal.impl.XMLVersionDetector.determineDocVersion(XMLVersionDetector.java:186)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:771)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:737)
at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(XMLParser.java:107)
at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:225)
at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:283)
at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:180)
at com.snoics.base.xml.XMLFactory.getDocument(Unknown Source)
at com.snoics.base.xml.XMLUtil.parseXMLFile(Unknown Source)
at com.snoics.base.xml.ReadXml.parseXMLFile(Unknown Source)
at com.snoics.system.conf.SystemConfig.setSystemConfigFile(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
at com.snoics.system.Init.init(Unknown Source)
at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
java.lang.NullPointerException
at com.snoics.base.xml.ReadXml.setCurrentNodeList(Unknown Source)
at com.snoics.system.conf.SystemConfig.getDatabaseInfo(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
at com.snoics.system.Init.init(Unknown Source)
at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
java.lang.NullPointerException
at com.snoics.base.xml.ReadXml.getCurrentNodeListLength(Unknown Source)
at com.snoics.system.conf.SystemConfig.getDatabaseInfo(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
at com.snoics.system.Init.init(Unknown Source)
at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
Exception in thread "main" java.lang.NullPointerException
at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
@菜鸟
回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-11-20 14:14 | cherish

@叶建辉
发份snoics.jar的源码哥们，我知道你搞到手了，嘿嘿。。。回复更多评论

# re: snoics-reptile 网页爬虫2.1 (2006-10-27日更新)[未登录] 2012-11-20 14:16 | cherish

忘写邮箱了， 630562556@qq.com 谢谢哥们。回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理