Java Blog for Alex Wan

Let life be beautiful like summer flowers and death like autumn leaves.

统计

留言簿(10)

BlogJava

Blogs

DIV+CSS

JQuery相关

友情链接

常去的地方

数据供应

阅读排行榜

评论排行榜

[爬虫]网页分析的影响因素之专业化程度

在爬虫领域的网页分析的过程中,爬虫程序的复杂度很大程度上受目标网站的专业化程度影响。

其影响主要表现在两方面:

(1)对流程确定过程的影响

在通过分析网站地图的方式去确定流程,对专业化程度不是那么高的网站而言,其网站分类、列表方式基本基本都采用链接的方式,这样在流程实现是很容易就可获取需要的链接;而对专业化程度较高的网站而言,在分类下往往通过搜索、javascript(包括AJAX)翻页的方式来陈列同类记录,这在流程实现的时候,就需要程序员去分析一些javascript函数所做的操作,去猜度相关列表方式的URL(如搜索的表单如何提交、翻页函数如何处理翻页等)。

(2)对获取详细信息过程的影响

在获取详细信息的时候,基本都是通过分心详细信息页面的结构出发的。

对专业化程度高的网站而言,详细信息页面的的制作也是投入了一些精力的,通常都规定和页面特定的位置显示特定的信息,这样就便于在分析过程中获取指定的数据。

而对专业化程度稍低的网站而言,详细页面的内容很多都是用HTML编辑器直接编辑出来的内容,在同一频道的不同分类的详细信息页面中存在着很大的差异,这使得获取详细信息部分的分析程序复杂度倍增。

 

个人的美好愿望:宁愿分析的是专业化程度高一点的站点,因为流程的确定及具体实现总是可以想到办法解决的;详细信息的分析存在太多页面结构的话,将在获取详细信息付出太大代价!



Let life be beautiful like summer flowers and death like autumn leaves.

posted on 2009-02-17 11:01 Alexwan 阅读(1718) 评论(0)  编辑  收藏 所属分类: J2EE


只有注册用户登录后才能发表评论。


网站导航: