Nutch的数据存储结构。

昨天睡觉前，总结了感兴趣的3个问题，现在来回顾一下

1.爬虫工作的过程？

2.爬虫获取数据后，数据的存储结构？

3.数据如何索引成Lucene设定的索引格式？

上午干工作耽误了，下午得闲，看点资料。试简单总结一下上面几个问题的。

先回答2号问题，数据的存储结构好了。

Nutch把爬虫找回来的资料做成了放在一个文件夹里面，美其名曰Web database。其实里面分别就四个文件夹了事。依次道来：

crawldb：存放需要抓取的的超链接地址；
segments：存放依据crawldb中提供的地址抓取到的内容信息。segments中的每个子文件夹存储fetcher根据crawldb抓取一次所得的内容。这些抓取的内容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容；crawl_generate根据crawldb最初生成；crawl_fetch、content在抓取时生成；crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据，它们格式一样，不同的是抓取时间、状态、签名等有所变化。
Index和indexes：Index是最终我们所需要得到的东西，而Index就是通过indexes合并的到的。
Linkdb：linkdb中存放的是所有超链接及其每个链接的连入地址和锚文件。

好了这个存储结构的问题完成了。

抽空先写这么多，呆会有时间在继续。

平凡而简单的人一个，无权无势也无牵无挂。一路厮杀，只进不退，死而后已，岂不爽哉！
收起对“车”日行千里的羡慕；收起对“马”左右逢缘的感叹；目标记在心里面，向前进。一次一步，一步一脚印，跬步千里。
这个角色很适合现在的我。

posted on 2008-04-02 20:52 过河卒阅读(1021) 评论(0) 编辑收藏所属分类: Java/Java框架

随笔分类(110)


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Netbean导入源代码和Javadoc [转]提高Java水平的十大技术 Nutch爬虫的工作过程 Nutch的数据存储结构。 Nutch0.9基本配置 Nutch初接触 [ZT]Java版大腕对白排序：堆排序算法金蝶OperaMasks框架的宣传视频 AXIS1.4 DOC 阅读笔记