paulwong

#

HADOOP 资源

四号程序员
http://www.coder4.com/archives/tag/hadoop

官方WIKI
http://wiki.apache.org/hadoop/

分布式环境搭建
http://hadoop.apache.org/docs/r1.0.3/single_node_setup.html

HADOOP的ECLIPSE插件
http://code.google.com/p/hadoop-eclipse-plugin/

这篇文章对Map/Reduce原理讲的很清楚。
http://www.chinacloud.cn/download/Tech/MapReduceOverview.pdf

这个是Apache关系Hadoop的文档,安装、开发示例都有。
http://hadoop.apache.org/common/docs/r0.19.2/cn/mapred_tutorial.html

HBase入门
http://my.oschina.net/coolbash/blog/79487

HADOOP实战谈文章
http://heipark.iteye.com/category/126118


Oozie简介(可以将几个HADOOP JOP连在一起执行)
http://www.infoq.com/cn/articles/introductionOozie

hadoop高级技术在搜索框中的应用:这块的有很多人都想了解,特别抽了个时间, 做了套视频教程:

第一部分:http://kuai.xunlei.com/d/wtViAgJ.JQDJoR9Rd09

第二部分:http://kuai.xunlei.com/d/wtViAgI0JgBJpB9R178

第三部分:http://kuai.xunlei.com/d/wtViAgJSJwDXpx9R30b


http://wiki.ubuntu.org.cn/%E5%88%A9%E7%94%A8Cloudera%E5%AE%9E%E7%8E%B0Hadoop


HADOOP监测工具
http://www.htools.co/
http://www.cnblogs.com/xguo/archive/2013/06/02/3113510.html

国内最全最详细的hadoop2.2.0集群的HA高可靠的最简单配置
http://my.oschina.net/superwu/blog/196066

posted @ 2012-09-08 15:57 paulwong 阅读(229) | 评论 (0)编辑 收藏

WordCount的一个变种版本…Hadoop

     摘要: 统计域名(实际是host)的计数器。输入:一个文件夹中有一堆的文本文件,内容是一行一个的url,可以想像为数据库中的一条记录流程:提取url的domain,对domain计数+1输出:域名,域名计数代码如下:MapperCode highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter...  阅读全文

posted @ 2012-09-08 15:30 paulwong 阅读(258) | 评论 (0)编辑 收藏

HBASE

http://www.searchtb.com/2011/01/understanding-hbase.html

http://hbase.info/2011/07/06/building-hadoop-and-hbase-for-hbase-maven-application-development

Build Your First Hadoop project with Maven
http://www.tikalk.com/java/build-your-first-hadoop-project-maven

Maven Archetypes Updated!
http://blog.mafr.de/2012/07/01/maven-archetypes-updated/

HBase based OLAP engine
http://code.google.com/p/olap4cloud/wiki/UserGuide

Hadoop快速部署工具 EasyHadoop
http://www.oschina.net/p/easyhadoop

HBase MapReduce实例分析
http://www.taobaotesting.com/blogs/qa?bid=13914

posted @ 2012-09-06 01:39 paulwong 阅读(157) | 评论 (0)编辑 收藏

云计算

http://my.oschina.net/leejun2005/blog/75941

posted @ 2012-09-02 16:48 paulwong 阅读(247) | 评论 (0)编辑 收藏

实用日文翻译网址

要把汉字翻成平假名的网址
http://www.jptranslate.com/cgi-bin/hiragana.cgi

平假名转换片假名
http://o-oo.net.cn/hiragana-katakana.asp

假名转换罗马字
http://www.romaji.org/

posted @ 2012-08-30 22:18 paulwong 阅读(175) | 评论 (0)编辑 收藏

架构的性能要求


、性能要求:
Ø 支持同时在线用户量(访问网站页面):10000人以上;
Ø 支持并发量:5000;
Ø 高峰负载时的平均响应时间(指每秒并发访问在4000以上):
u 页面访问时间(用户实测):1-5秒;
u 运行操作类响应时间(用户实测,50000个用户量):1秒-10秒。
Ø 日常运行时的平均响应时间:
u 页面访问时间(用户实测):1-3秒;
u 运行操作类响应时间(用户实测,100000个用户量):1秒-6秒。
Ø 有效运行时间:
u 7x24小时:99%;
u 每年因系统本身问题导致的宕机次数:≤4;
u 因系统本身问题出现故障时的恢复时间:≤24小时。

这种要求有人能做得到吗?

posted @ 2012-08-30 21:26 paulwong 阅读(260) | 评论 (0)编辑 收藏

期货知识文档

http://doc.mbalib.com/view/a837594d63cbd5141426d4143d4293eb.html

http://www.worldlinkfutures.com/stoplimitorder.htm

http://www.investopedia.com/terms/s/stop-limitorder.asp#axzz25JtVGDRO

http://wiki.mbalib.com/w/index.php?title=Category:%E6%9C%9F%E8%B4%A7%E6%9C%AF%E8%AF%AD&until=Y

A Complete Guide to the
Futures Markets: Fundamental Analysis, Technical Analysis, Trading, Spreads, and
Options

http://www.invest-store.com/cgi-bin/wlf-bin/moreinfo.cgi?division=books&page=toc&item=2626

Inside the Financial
Futures Markets 3rd Edition

http://www.invest-store.com/cgi-bin/wlf-bin/moreinfo.cgi?division=books&page=toc&item=2591

English --> http://www.cmegroup.com/education/files/ED-004_IntroToFuturesBrochure.pdf  

Chinese --> http://www.cmegroup.com/education/files/CME-ED-007_IntroToFuturesBrochure_Chinese_FINAL_SR.pdf



posted @ 2012-08-30 18:38 paulwong 阅读(250) | 评论 (0)编辑 收藏

搭讪

和老外聊天,会发现How do u do的搭讪out了。分享我常听到的: 借助情境What do u think of that book?/Looks like a great drink.What is it? 赞美I like ur posture.It makes u stand out nicely./Nice dress.Where did u get it? 天气It's so cold today./It's freezing!Do u know the temperature? (Pic)

posted @ 2012-08-26 01:27 paulwong 阅读(190) | 评论 (0)编辑 收藏

软件工程文档编写标准包括哪些内容

     摘要: 在项目开发过程中,应该按要求编写好十三种文档,文档编制要求具有针对性、精确性、清晰性、完整性、灵活性、可追溯性。
  阅读全文

posted @ 2012-08-22 21:27 paulwong 阅读(438) | 评论 (0)编辑 收藏

基于Java技术的大型网站架构方案(转)

1、Web层
主体架构可以基于 Struts 1.X/2.X,当然有很多更好的控制层框架供选择,以快速敏捷为准则吧。
抽象出核心库封装 控制器和中间层的操作。
在大规模集群环境下,session复制会引起严重的性能问题。考虑用 集群缓存 + cookie验证 代替session实现权限控制吧。

2、Cache层
配置 Memcache 组成集群缓存
对 Memcache 客户端进行封装
Memcached 节点组成池,调用示意:opList (BizName, 策略 ...)
 
3、中间层
“中间层”可以理解为基于应用和数据之间的层次。它被设计用来为Web应用提供:数据缓存 和 对应用透明的数据访问——即应用不需要考虑数据表拆分的问题。以服务的方式提供对存储层的高性能调用以及分布式计算。可供选择的框架:ICE 、Hadoop 直接基于Memcache开发(减少复杂度,推荐)

4、存储
推荐MySQL,理由:免费,经过实践检验,有大量成熟的案例、解决方案、技术支持。
小规模:一个 data table 维护存储服务器阵列,内容 -> mount ……
大规模:Master-Slave模式+MySQL Proxy,实现数据库读写分离。在中间层的包装下,可做如下扩展,以支持更大规模的数据存取:
数据库/表水平拆分,例 User -> User33% + User33% + User34%
数据库/表垂直拆分,例 User -> UserBaseInfo + UserAddrInfo
也可考虑使用 LongStore (龙存) 解决方案,由龙存管理存储阵列……
 
5、部署
划分子域名,每个子域名一个Web应用包,互不干扰
静态资源(css, js, image ...)使用专门的静态服务器

6、负载均衡
小规模:DNS轮询。
大规模:F5, 2*X 台F5服务器,F5是L4/L7层交换机,每台至少可处理200万连接(与服务器内存有关)。
Ngnix是L7层交换,LVS负载均衡也是一种方案
 
7、Web中间件选择
Tomcat - 最高400并发
Apache - 最高2000并发
Ngnix - 优于Apache
采用方案:Ngnix + Resin ,理由:
Resin提供更为快速的servlet引擎 - 选择Resin。
gzip问题 - Resin在单独处理gzip时存在内存溢出的隐患,因此要加一层 Ngnix。
Ngnix 能减少单独使用Resin时的内存占用 - Resin建立1000个连接使用1000个线程;加Ngnix后,透过其“异步连接”、“建立长连接”机制使Resin内存压力大大减小。
Ngnix 针对Linux系统有性能优化措施 - 0 Copy, send file ...
因此采用:1 Ngnix + 1 Resin,一对一。
静态服务器采用:Squid + Apache, why? because Squid has cache ability ...
新变化 - Nginx从0.7.48版本开始,支持了类似Squid的缓存功能。这个缓存是把URL及相关组合当作Key,用md5编码哈希后保存在硬盘上,所以它可以支持任意URL链接,同时也支持 404/301/302 这样的非200状态码。虽然目前官方的Nginx Web缓存服务只能为指定URL或状态码设置过期时间,不支持类似Squid的PURGE指令,手动清除指定缓存页面,但是,通过一个第三方的Nginx模块,可以清除指定URL的缓存。
Nginx的Web缓存服务主要由proxy_cache相关指令集和fastcgi_cache相关指令集构成,前者用于反向代理时,对后端内容源服务器进行缓存,后者主要用于对FastCGI的动态程序进行缓存。两者的功能基本上一样。
最新的Nginx 0.8.31版本,proxy_cache和fastcgi_cache已经比较完善,加上第三方的ngx_cache_purge模块(用于清除指定URL的缓存),已经可以完全取代Squid。有的网站已经在生产环境使用了 Nginx 的 proxy_cache 缓存功能超过两个月,十分稳定,速度不逊于 Squid。
在功能上,Nginx已经具备Squid所拥有的Web缓存加速功能、清除指定URL缓存的功能。而在性能上,Nginx对多核CPU的利用,胜过Squid不少。另外,在反向代理、负载均衡、健康检查、后端服务器故障转移、Rewrite重写、易用性上,Nginx也比Squid强大得多。这使得一台Nginx可以同时作为"负载均衡服务器"与"Web缓存服务器"来使用。以下是配置片段供参考:
view plaincopy to clipboardprint?
http   
{  
   ...  
   client_body_buffer_size  512k;  
   proxy_connect_timeout    5;  
   proxy_read_timeout       60;  
   proxy_send_timeout       5;  
   proxy_buffer_size        16k;  
   proxy_buffers            4 64k;  
   proxy_busy_buffers_size 128k;  
   proxy_temp_file_write_size 128k;  
   ... 
   #注:proxy_temp_path和proxy_cache_path指定的路径必须在同一分区  
   proxy_temp_path   /data0/proxy_temp_dir; 
   #设置Web缓存区名称为cache_one,内存缓存空间大小为200MB,1天清理一次缓存,硬盘缓存空间大小为30GB。  
   proxy_cache_path  /data0/proxy_cache_dir  levels=1:2   keys_zone=cache_one:200m inactive=1d max_size=30g;  
}  
server  
{  
   ...  
   location /  
   { 
     #如果后端的服务器返回502、504、执行超时等错误,自动将请求转发到upstream负载均衡池中的另一台服务器,实现故障转移。  
     proxy_next_upstream http_502 http_504 error timeout invalid_header;  
     proxy_cache cache_one; 
     #对不同的HTTP状态码设置不同的缓存时间  
     proxy_cache_valid  200 304 12h;  
     proxy_cache_valid  301 302 1h; 
     #以域名、URI、参数组合成Web缓存的Key值,Nginx根据Key值哈希,存储缓存内容到二级缓存目录内  
     proxy_cache_key $host$uri$is_args$args;  
     proxy_set_header Host  $host;  
     proxy_set_header X-Forwarded-For  $remote_addr;  
     proxy_pass http://backend_server;  
     expires      1d;  
   } 
   #用于清除缓存,假设一个URL为http://192.168.1.44/test.txt,通过访问http://192.168.4.44/purge/test.txt就可以清除该URL的缓存。  
   location ~ /purge(/.*)  
   { 
     #设置只允许指定的IP或IP段才可以清除URL缓存。  
     allow            127.0.0.1;  
     allow            192.168.0.0/16;  
     deny            all;  
     proxy_cache_purge    cache_one   $host$1$is_args$args;  
   }     
   #扩展名以.php、.jsp、.cgi结尾的动态应用程序不缓存。  
   location ~ .*\.(php|jsp|cgi)?$  
   {  
     proxy_set_header Host  $host;  
     proxy_set_header X-Forwarded-For  $remote_addr;  
     proxy_pass http://backend_server;  
   }  
}
同时,对于影响页面展现的静态资源,例如:css, js 等可以放在具有优质带宽的IDC(IDC=互联网数据中心,优质/高速的带宽也比较贵,正所谓一份价钱一分货);其他的静态资源,如图片等可以放在价格相对低廉的IDC中,以域名区分两种静态资源,节省每一分钱。
 
8、网络拓扑图
          / Ngnix - 1:1 - Resin
F5 --
          \ Squid - 1:n - Apache

9、监控统计平台
业务统计 - 用户访问统计
软件性能 - 应用系统监控,例如:请求响应时间……
硬件/网络性能 - Ganglia监控

10、其它要点
IE浏览器对同一域名(包括子域名)只能建立2个连接,连接多了只能排队……
双F5架构,两台职能划分不同,镜像,心跳接管……
Raid存储阵列……
Linux操作系统及其优化……

posted @ 2012-08-21 22:20 paulwong 阅读(493) | 评论 (0)编辑 收藏

仅列出标题
共110页: First 上一页 73 74 75 76 77 78 79 80 81 下一页 Last