Hadoop周刊

第 165 期 2016年4月10日

启明星辰——平台和大数据整体组编译

本周，包括LinkedIn 和Airbnb新开源项目在内的数个产品进行了重大版本发布。本期技术部分与流式处理有关——Spark、Flink、Kafka等等；新闻部分是关于Spark Summit 和HbaseCon的会议议程。

技术

Zalando发表了他们是如何选择Apache Flink作为流式处理框架的文章。该文章阐述了对评价标准进行验证后得出的结论，阐明了选择Apache Flink的主因—在高吞吐量的情况下依然能保持低延迟，真正的流式处理，开发人员支持。

https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/

Cloudera博客刊登了来自Wargaming.net的文章，通过本文可了解到他们如何通过Kafka、HBase、Drools、Spark构建实时处理基础设施的。另外，在数据流程方面，他们介绍了如何对HBase的检索和序列化、HBase和Spark之间的数据本地化以及Spark计算方面的优化措施。

http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/

InfoQ发布了大规模流式处理—SMACK（Spark、Mesos、Akka、Cassandra以及 Kafka）栈的介绍视频。讨论了为什么SMACK栈在处理同样问题的时候比Lambda架构更简单。

http://www.infoq.com/presentations/stream-analytics-scalability

Confluent“日志压缩”系列博文又有更新，介绍了Kafka项目三月份发生的事情。有不少令人关注的开发内容，包括机架感知、Kerberos支持、基于时间索引方面的进展。以及不少你（我也是）没有时间持续关注的最新研发成果。

http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016

Apache Flink 1.0引入了新的复杂事件处理（CEP）库。啰嗦几句，CEP提供了一种检测事件模式的方法。本文借助传感器从数据中心服务器上收集数据，运用一种可能的异常检测用例，诠释了Flink的CEP模式API 。

http://flink.apache.org/news/2016/04/06/cep-monitoring.html

Genome Analysis Toolkit （GATK）最近宣布，下一个版本（当前是alpha）将支持Apache Spark。本文简要介绍了工具箱并展示了怎样通过Spark来检测重复DNA片段的。

http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/

InfoWorld综述了Spark2.0关于结构化流式处理方面的计划。微批处理将依然延续，还有些新特性，例如无限数据帧（Infinite DataFrames）、一流的重复查询支持。

http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html

AWS大数据博客发布了一篇通过存储在AWS Key Management Service （KMS）中的加密密钥加载数据到S3和Redshift的文章。除了描述所需步骤，本文还介绍了如何在AWS S3中通过KMS密钥加密数据。

http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS

Confluent博客介绍了如何使用Kafka Connect 和 Kafka Streams 编写非凡的“hello world”程序。更确切地说，范例程序从IRC拉维基百科数据，并解析消息、进行多方面的统计计算。本文还用了若干程序展示了整个实现过程。

http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams

本文从Postgres 向 Cassandra转换简单的模式（schemas），并描述了主要的差异—复制、数据类型（Cassandra不支持JSON）、主键、最终以一致性。

http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/

新闻

ESG博客报导了最近Strata+Hadoop World大会的情况。并有些重点关注，例如Spark的良好势头、机器学习、云服务。

http://blog.esg-global.com/riding-high-at-stratahadoop-world

InformationWeek也报导了Strata大会，关注了MapR和Pivotal的关灯片、人工智能等。

http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?

Spark Summit 2016议程敲定，将于6月6-8日在旧金山举行。会议将有两天展开五个方向的讨论。

https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html

福布斯采访了Cloudera CEO Tom Reilly，他讨论了公司的机遇、竞争性市场、上市计划等。

http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/

Datanami撰文将正在崛起的Apache Kafka作为流式处理的支柱。文章还采访了Confluent联合创始人兼CTO Neha Narkhede，坊间她表示最近将推出Kafka Connect 和 Kafka Streams。

http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/

HBaseCon将于5月24日在旧金山召开，最近议程才正式宣布。在三个方向上，将有20个以上的议题要讨论。

http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/

发布

Apache HBase 0.98.18 和1.1.4最近都发布了。1.1.4上有包括九个或正确性在内的若干修复。HBase 0.98.18羞答答的仅解决了50个问题（bug、改善两个新特性）。

http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E

Apache Lens发布了2.5.0-beta，作为统一分析接口，它已经支持Hadoop生态系统的执行引擎数据存储了。本次发布解决了87票，主要是bug修复和实现新功能。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E

Airbnb 开源了 Caravel，数据探索系统（数据可视化平台）。Caravel支持多种在商业产品上才能看到的特性，能够连接到任意只要支持SQL方言的系统。尤其它支持面向Druid的实时分析。

https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5

MapR 宣布支持Apache Drill 1.6作为他们的分布式系统。比较有亮点的发布有MapR-DB新存储插件、新SQL窗口函数支持以及端对端安全。在网页介绍部分，有些使用MapR-DB API加载数据并通过Drill查询的例子。

https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data

Apache Flink发布了修复bug后的1.0.x。这次发布解决了23个问题，推荐所有1.0.0的用户升级。

http://flink.apache.org/news/2016/04/06/release-1.0.1.html

Cloudera Enterprise 5.7发布附带了Spark、HBase、Impala、Kafka等组件版本的升级。本次发布的亮点包括从Cloudera Labs 新鲜推荐的Hive-on-Spark、HBase-Spark、Impala性能重要提升，支持SSD 上HBase WAL。

http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/

Apache Tajo，构建在Hadoop上的数据仓库系统，发布了0.11.2版。新版本支持了Kerberos，修复了ORC表对Hive的支持等。

http://tajo.apache.org/releases/0.11.2/announcement.html

LinkedIn 开源了 Dr. Elephant，里面的工具能诊断Hadoop和Spark任务的性能问题。基于metrics从YARN资源管理器收集已完成任务数据，Dr. Elephant评估后生成诊断报表，内容包括数据错位、GC开销等。LinkedIn宣称借助它能解决80%的问题。

https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

活动

中国

无

posted on 2016-04-14 18:02 Rosen 阅读(765) 评论(0) 编辑收藏所属分类: 大数据

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Hadoop周刊—第 167 期 Hadoop周刊—第 166 期 Hadoop周刊—第 165 期

成都心情

公告

留言簿(15)

随笔分类(91)

随笔档案(99)

文章分类(2)

友情链接

积分与排名

最新评论

阅读排行榜

评论排行榜

技术

新闻

发布

活动