Senior

RESEARCH behind THINK beside CODE beyond

支持AJAX的网页抓取工具的原型系统

之前发布的Krabber已经可以抓取执行了Javascript之后的网页。

比如新浪博客的评论,其内容是在网页加载后通过JavaScript显示出来的。这样普通的抓取工具加不能得到评论信息。Krabber 0.0.0.2已经可以做到抓取一定会执行的JavaScript网页,返回JavaScript执行之后的带有所需要信息的网页HTML。

现在的问题是,网页上很多内容是需要用户交互一下才能显示出结果的。比如基于JavaScript的评论结果翻页。直接使用Krabber 0.0.0.2只能得到第一页的结果。要想看到后面的评论,必须点击翻页,等待JavaScript执行之后才能看到结果。因此,这一版本的主要目标是实现一个可以模拟用户动作,触发一些网页上的事件,如点击下一页,之后抓取JavaScript的执行结果。

这一版本的Krabber 0.0.0.3 Preview已经实现了执行网页上的AJAX脚本。Krabber 0.0.0.3 Pre通过提供一个脚本执行机制,允许信息抽取工具提供需要执行的内容,并交由Krabber进行执行,然后由Krabber返回执行之后的结果。

当然目前的Preview还不能返回执行后的信息,但是已经能够展示执行AJAX的过程。大家感兴趣的话可以看一下这个原型系统。

请使用OSS下载点下载:http://gforge.oss.org.cn/frs/?group_id=199

Krabber 0.0.0.3 Preview由pinlin:senior编写,pinlin168@tom.com

posted on 2009-12-12 10:13 Senior 阅读(1829) 评论(0)  编辑  收藏 所属分类: Misc


只有注册用户登录后才能发表评论。


网站导航: