Senior

RESEARCH behind THINK beside CODE beyond

Krabber 0.0.0.2版本发布

Krabber是用于抽取网页中HTML信息的工具。最为重要的是,Krabber可以执行网页中的JavaScript,并网页在JavaScript执行后的,被修改的HTML返回回来,提供给Java程序调用,以便能够更好的支持Web 2.0环境下的网页信息抓取。

啊列啊列,经过了超长时间的挣扎,终于做好了第一个可以运行的版本。参与项目开发的同学从对C++与Java完全不了解到逐渐的熟悉并开始进步,实在是相当不容易啊,赞一个。我本科的时候要是有这个水平,没准现在就牛X了。

比较惭愧的是,由于涉足开源领域的经验不足,没有很好的整理文档以及代码。目前Krabber已经可以下载了,可以尝试着在Windows下用VS编译一下,看看能不能行。另外可以运行的EXE也应该会快回上传上来。

另外昨天开会的时候同学们表示,我们小组的博客好像不太容易看懂。这个没办法啦,没有时间做网站和找主机,只能用博客充当在线内容编辑器了。大家在看我们的博客的时候请把它当成网站来看,相关的链接都在博客正文中黄色的标题下面,至于博客正文周边的连接就无视好了……

Krabber在http://www.blogjava.net/senior/archive/2009/05/10/269916.html

(by : 鸡叔 : senior, sakaekutitubasa@gmail.com)

posted on 2009-05-11 08:14 Senior 阅读(1728) 评论(2)  编辑  收藏 所属分类: Misc

Feedback

# re: Krabber 0.0.0.2版本发布[未登录] 2009-05-12 20:58 刘明

以前公司让做过个类似的东西,弄了一星期放弃了...

你是用C++调用的IE吧?那还用Java干什么?只要能调用IE剩下的事情应该就比较好办,我就是对Window下的IE调用和C++不太熟,比较失败,哈哈...  回复  更多评论   

# re: Krabber 0.0.0.2版本发布 2009-05-13 05:33 Senior

@刘明

谢谢关心我们的项目。

Krabber只是整个kVitrail项目的网页抽取部分。由于kVitrail的其他部分是用Java做的,并且实验室几乎所有的其他项目都是用Java写的,因此为了保证这个部分能够为其他项目提供服务才做出这种奇怪的决定的。

主要的原因还是我们能力不足,其实Symphony既然可以把IE嵌入到应用中,那么直接通过Java调用IE应该也是可以的吧。只是目前我们还没有学习到那么深入的部分,因此暂时只能采用这种比较笨的方法了。

另外我只负责项目的管理,Krabber的具体的技术是pinlin同学负责研究和实现的。如果需要您可以和他联系。pinlin168@tom.com

(by: 鸡叔 : senior, sakaekutitubasa@gmail.com)
  回复  更多评论   


只有注册用户登录后才能发表评论。


网站导航: