BlogJava-泰仔在线-随笔分类-云计算相关

BlogJava-泰仔在线-随笔分类-云计算相关http://www.blogjava.net/kxx129/category/44786.htmljava学习,心情日记,缤纷时刻zh-cnMon, 03 May 2010 04:41:08 GMTMon, 03 May 2010 04:41:08 GMT60Nutch URL过滤配置规则http://www.blogjava.net/kxx129/archive/2010/04/30/319756.html泰仔在线泰仔在线Fri, 30 Apr 2010 02:12:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/30/319756.htmlhttp://www.blogjava.net/kxx129/comments/319756.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/30/319756.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/319756.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/319756.html阅读全文

泰仔在线 2010-04-30 10:12 发表评论

]]>nutch抓取动态网页http://www.blogjava.net/kxx129/archive/2010/04/24/319280.html泰仔在线泰仔在线Sat, 24 Apr 2010 11:06:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/24/319280.htmlhttp://www.blogjava.net/kxx129/comments/319280.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/24/319280.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/319280.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/319280.html需要注意在conf下面的2个文件：regex-urlfilter.txt，crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] （-改+）
这段意思是跳过在连接中存在? * ! @ = 的页面，因为默认是跳过所以，在动态页中存在？一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成：
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允许的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
注意：两个文件都需要修改，因为NUTCH加载规则的顺序是cr 阅读全文

泰仔在线 2010-04-24 19:06 发表评论

]]>Nutch中的html页面的解析问题http://www.blogjava.net/kxx129/archive/2010/04/23/319209.html泰仔在线泰仔在线Fri, 23 Apr 2010 09:38:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/23/319209.htmlhttp://www.blogjava.net/kxx129/comments/319209.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/23/319209.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/319209.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/319209.html阅读全文

泰仔在线 2010-04-23 17:38 发表评论

]]>Nutch中的一些小的问题解决http://www.blogjava.net/kxx129/archive/2010/04/23/319208.html泰仔在线泰仔在线Fri, 23 Apr 2010 09:36:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/23/319208.htmlhttp://www.blogjava.net/kxx129/comments/319208.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/23/319208.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/319208.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/319208.html
1.网页快照乱码问题

Nutch的网页快照是乱码，解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件，修改其中的第63行。

原来的代码是：content = new String(bean.getContent(details);

修改后的代码是：content = new String(bean.getContent(details),"gb2312");
阅读全文

泰仔在线 2010-04-23 17:36 发表评论

]]>Nutch插件加载分析http://www.blogjava.net/kxx129/archive/2010/04/23/319187.html泰仔在线泰仔在线Fri, 23 Apr 2010 03:30:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/23/319187.htmlhttp://www.blogjava.net/kxx129/comments/319187.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/23/319187.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/319187.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/319187.html阅读全文

泰仔在线 2010-04-23 11:30 发表评论

]]>nutch源代码阅读心得http://www.blogjava.net/kxx129/archive/2010/04/23/319182.html泰仔在线泰仔在线Fri, 23 Apr 2010 03:05:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/23/319182.htmlhttp://www.blogjava.net/kxx129/comments/319182.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/23/319182.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/319182.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/319182.html一、 org.apache.nutch.crawl.Injector:
1，注入url.txt
2，url标准化
3，拦截url，进行正则校验（regex-urlfilter.txt）
4，对符URL标准的url进行map对构造，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！
5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_DB_UNFETCHED（状态意思为没有采集过））

二、org.apache.nutch.crawl.Generator: 阅读全文

泰仔在线 2010-04-23 11:05 发表评论

]]>MapReduce算法模式http://www.blogjava.net/kxx129/archive/2010/04/21/318952.html泰仔在线泰仔在线Wed, 21 Apr 2010 03:41:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/21/318952.htmlhttp://www.blogjava.net/kxx129/comments/318952.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/21/318952.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/318952.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/318952.html
当然，这么理想的目标现在还没有达到，但路已经明明白白的展现在面前了，至少我们已经走了接近一半了。阅读全文

泰仔在线 2010-04-21 11:41 发表评论

]]>MapReduce 简介http://www.blogjava.net/kxx129/archive/2010/04/21/318947.html泰仔在线泰仔在线Wed, 21 Apr 2010 03:29:00 GMThttp://www.blogjava.net/kxx129/archive/2010/04/21/318947.htmlhttp://www.blogjava.net/kxx129/comments/318947.htmlhttp://www.blogjava.net/kxx129/archive/2010/04/21/318947.html#Feedback0http://www.blogjava.net/kxx129/comments/commentRss/318947.htmlhttp://www.blogjava.net/kxx129/services/trackbacks/318947.html MapReduce是google发明的一种编程模型。在这种编程模型下，用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对（key/value pair）进行处理（处理时可能只有值这一项有用），生成一系列新的键/值对作为中间结果；系统（MapReduce的实现）对map函数生成的键/值对进行处理，将同属于一个键（key）的值（value）组合在一起，生成键/值列表（（key/list of values） pair）对；reduce函数将键/值列表对作为输入，对同属于一个键的值列表进行处理，生成最终处理结果输出。

如果一个问题可以通过MapReduce编程模型来表达和解决，就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验，只需要定义map和reduce函数。阅读全文

泰仔在线 2010-04-21 11:29 发表评论

]]>