成都心情

  BlogJava :: 首页 ::  :: 联系 :: 聚合  :: 管理 ::
  98 随笔 :: 2 文章 :: 501 评论 :: 1 Trackbacks

 


Hadoop周刊 169

 

 

启明星辰平台和大数据整体组编译

 

 

201658

 

本周内容短小精练。主题覆盖Apache BeamMapR季度业绩、最近的Kafka峰会,以及来自Cloudera新开源的分布式单元测试框架。

 

技术新闻

Elastic分析了宕机事件的根源。错误配置ZooKeeper内存设置会引起过度的GC,这将从根本上导致ZooKeeper集群丢失。文章介绍了一些缓解策略,用来防止未来类似问题的发生。

https://www.elastic.co/blog/elastic-cloud-outage-april-2016

 

Cask博客简明扼要的归纳了最近Big Data Applications Meetup的花絮。首先出场的是Pachyderm,它基于Docker容器提供数据Git”语义。第二个出场的是TubeMogul大数据平台,TubeMogul构建于HadoopHiveSparkPresto之上。

http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/

 

GoogledataArtisans同时撰文介绍了Apache Beam(前生是Google Dataflow SDK)。Google的文章解释了为何开源和开发Beam的动机,dataArtisans的文章介绍他们对Beam模型的支持以及怎样考虑FlinkBeam API之间的关系。

https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective

http://data-artisans.com/why-apache-beam/

 

IBM Hadoop dev博客有个关于安装PythonScala和为Jupyter notebook嵌入R内核的操作说明。同时,也说明了怎样连接Spark和通过SSL暴露notebook

https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/

 

本文介绍了Mongo Hadoop的连接函数是如何窜起SparkMongoDB的。

https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/

 

Qubole博客撰文比较了用于大数据分析的流行编程语言—PythonRScala

http://www.qubole.com/blog/big-data/programming-language/

 

其他新闻

MapR宣布本季度他们授权下单创纪录的增长了99%,以及146%的美元净增长率。

https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth

 

本文描述了最近Google Cloud DataflowApache SparkGoogle Compute Engine上的基准测试表现。Dataflow胜过Spark25.7倍(一直以来,最好是在自己的环境下评估工作负载,而不是一味的信任基准测试)。本文还解释了一种冷战,通过它使每个使用大数据工具的人获益。

http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/

 

Confluent博客回顾了最近召开的Kafka峰会,包括编程挑战预选赛,主题演讲,分组会议等等。

http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016

 

福布斯介绍了美国运通在过去5年间采用大数据技术的历程。本文中,美国运通分享了一些技巧和学到的经验教训,例如采用新技术的困难(得到组织高层的认同是多么的重要),以及雇佣和留住工程师的挑战等等。

http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/

 

产品发布

Cask发布了Cask Data Application Platform (CDAP)3.4版本。新版本增加了Cask Tracker,新的数据集成/审计/搜索系统,升级了Cask HydratorUI,增强了对Spark的支持等等。

http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/

 

Cloudera开源了“dist_tes”,并行执行单元测试的新工具。通过该工具,对HadoopKudu项目进行单元测试,可以在数分钟而不是数小时内完成。该工具绑定了C++Java,并在网站上演示了这些特性。

http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/

 

Google宣布Google BigQueryDrive可集成在一起,把输出保存到Google sheets

http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/

 

活动

中国

posted on 2016-05-15 20:30 Rosen 阅读(696) 评论(1)  编辑  收藏

评论

# re: Hadoop周刊—第 169 期 2016-06-05 20:42 救救刘书记
哟,又开始更新了  回复  更多评论
  


只有注册用户登录后才能发表评论。


网站导航: