泰仔在线

java学习,心情日记,缤纷时刻
posts - 100, comments - 34, trackbacks - 0, articles - 0

     摘要: 1. 介绍
MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。

如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。  阅读全文

posted @ 2010-04-21 11:29 泰仔在线 阅读(1563) | 评论 (0)编辑 收藏

     摘要: eclipse 起动后报JVM terminated. Exit code=127的解决办法  阅读全文

posted @ 2009-12-28 16:11 泰仔在线 阅读(1541) | 评论 (0)编辑 收藏

     摘要: jnlp是什么?是java提供的一种让你可以通过浏览器直接执行java应用程序的途径,它使你可以直接通过一个网页上的url连接打开一个java应 用程序.好处就不用说了,如果你的java应用程序以jnlp 的方式发布,如果版本升级后,不需要再向所有用户发布版本,只需要更新服务器的版本,这就相当于让java应用程序有了web应用的优点了  阅读全文

posted @ 2009-12-25 16:43 泰仔在线 阅读(251) | 评论 (0)编辑 收藏

     摘要: 1.创建工作簿 (WORKBOOK)
HSSFWorkbook wb = new HSSFWorkbook();
FileOutputStream fileOut = new FileOutputStream("workbook.xls");
wb.write(fileOut);
fileOut.close();
2.创建工作表(SHEET)
HSSFWorkbook wb = new HSSFWorkbook();
HSSFSheet sheet1 = wb.createSheet("new sheet");
HSSFSheet sheet2 = wb.createSheet("second sheet");
FileOutputStream fileOut = new FileOutputStream("workbook.xls");
wb.write(fileOut);
fileOut.close();  阅读全文

posted @ 2009-09-23 19:48 泰仔在线 阅读(342) | 评论 (0)编辑 收藏

     摘要: Nutch的内部网增量缩影是可以通过recrawl脚本(nutch的wiki上有发布)进行增量更新,但是对于对于全网爬取的URL如何做到增量更新,目前来说还没有相关的方法,尤其是对于上TB级别数据的索引更新和合并,直接把Nutch似乎还有相当多的问题需要解决(比如分布式大索引分割、合并等等,在Nutch的mailing list上大家讨论了非常多,但还是没有一个合理的解决方案),因此,作者期望通过解读源码的方式来对Nutch的索引构建机制和源码做一个较为初浅的解读,以期通过修改解决Nutch的索引面临的问题,期望能得到广大网友的意见。
考虑到笔者的需求是Nutch对于海量的数据的索引,因此基于集群的方式对Nutch的源码进行解读。
本文是针对Nutch1.0而写,Nutch1.0相比0.9更多的功能采用了Map/reduce算法结构,若不是先前对MapReduce有一番了解,看起来将是非常费解。
首先:补充一点最基础的知识,就是Nutch的文件目录所包含的内容:   阅读全文

posted @ 2009-09-05 17:00 泰仔在线 阅读(1515) | 评论 (1)编辑 收藏

     摘要: 关键字: nutch 命令
Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下:

1. Crawl
Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。
2. Readdb
Readdb命令是“org.apache.nutch.crawl.CrawlDbReader”的别称,返回或者导出Crawl数据库(crawldb)中的信息。
3. readlinkdb
它是"org.apache.nutch.crawl.LinkDbReader"的别称,导出链接库中信息或者返回其中一个URL信息。
4. inject
它是"org.apache.nutch.crawl.Injector"的别称,注入新URL到crawldb中。
5. generate
它是“org.apache.nutch.crawl.Generator”,从Cra  阅读全文

posted @ 2009-09-05 16:55 泰仔在线 阅读(8057) | 评论 (0)编辑 收藏

     摘要: 一、 基本书写规范  

1、所有的CSS的尽量采用外部调用
  
  
   书写时重定义的最先,伪类其次,自定义最后(其中a:link a:visited a:hover a:actived 要按照顺序写)便于自己和他人阅读。
  
  为了保证不同浏览器上字号保持一致,字号建议用点数pt和像素px来定义,pt一般使用中文宋体的9pt和11pt,px一般使用中文宋体12pt 和14.7px 这是经过优化的字号,黑体字或者宋体字加粗时,一般选用11pt和14.7px 的字号比较合适。
  阅读全文

posted @ 2009-08-28 15:14 泰仔在线 阅读(438) | 评论 (0)编辑 收藏

     摘要: 一篇介绍如何编写和维护你的CSS文件的文档,非常值得学习。


Being a CSS expert is more than just memorizing selectors. It’s also working to improve the maintainability and efficiency of your stylesheets, planning for the future and mastering your workflow. In this article Jina Bolton gives 10 CSS tips culled from surveys with 12 top designers.
  阅读全文

posted @ 2009-08-28 15:05 泰仔在线 阅读(252) | 评论 (0)编辑 收藏

     摘要: 序言
本文档规定了在项目实行过程中的CSS开发规范。全部开发人员在编写CSS代码时,应遵从该文档提出的规范,尽可能的提高可读性和可维护性。  阅读全文

posted @ 2009-08-28 14:58 泰仔在线 阅读(645) | 评论 (0)编辑 收藏

     摘要: 下载iText的亚洲语言包iTextAsian.jar,加入classpath中。同时也放入到ireport的lib目录里。
在ireport的Font选项中,PDF font name选择STSong-Light,PDF Encoding选择UniGB-UCS2-H。PDF Embedded选上。
这样出来的PDF就能显示中文。  阅读全文

posted @ 2009-08-25 15:00 泰仔在线 阅读(2449) | 评论 (0)编辑 收藏

列出全部内容
共9页: 上一页 1 2 3 4 5 6 7 8 9 下一页