Nutch爬虫的工作过程

再来1号问题：爬虫的工作过程

来个图：

动作分解：
<传言看源代码理解的更细致，不过偶没看，偶是根据文档和下午的操作总结的，错了请指正。>

1.创建空数据库Webdb：

2.向Webdb中注入入口攫取地址：

3.根据Webdb中数据生成fetchlist，并生成相应的segment。

4.根据fetchlist攫取内容（fetched content）。

5.根据获取内容更新Webdb

6.重复执行3-5.这个过程52se称为“产生/抓取/更新”循环。

7.完成上面的循环后，根据Webdb中信息，如网页评分和链接信息等，再次更新segment.

8.索引被攫取的页面，生成链接。

9.去除indexes中重复的内容和链接。

10.依靠indexes合成单一的index文件。大功告成。

上面这些步骤都可以对应到Nutch给我们提供的CrawlTool中的命令上。

爬虫忙完了，有了数据，我们就可以利用Nutch的search部分功能来查找内容了。

平凡而简单的人一个，无权无势也无牵无挂。一路厮杀，只进不退，死而后已，岂不爽哉！
收起对“车”日行千里的羡慕；收起对“马”左右逢缘的感叹；目标记在心里面，向前进。一次一步，一步一脚印，跬步千里。
这个角色很适合现在的我。

posted on 2008-04-02 20:53 过河卒阅读(576) 评论(0) 编辑收藏所属分类: Java/Java框架

随笔分类(110)


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Netbean导入源代码和Javadoc [转]提高Java水平的十大技术 Nutch爬虫的工作过程 Nutch的数据存储结构。 Nutch0.9基本配置 Nutch初接触 [ZT]Java版大腕对白排序：堆排序算法金蝶OperaMasks框架的宣传视频 AXIS1.4 DOC 阅读笔记