Hadoop周刊—第 174 期

Hadoop周刊第 174 期

启明星辰平台和大数据总体组编译

2016年6月12日

Spark峰会本周在旧金山召开，正如所料，本期周刊有大量关于Apache Spark的新闻、公告和版本发布。除Spark外，本期还有Kafka、Cask、Ambari方面的文章。在产品发布部分，有一年来Apache Pig首次版本更新，还一个为分布式系统设计的简洁新工具Runway，最后是新版Apache Kudu（孵化中）。

技术新闻

Debezium是一个相对较新的项目，用于数据库和Apache Kafka topic行级改变数据捕获。当面支持MySQL、Zookeeper、Kafka，这是一篇在Docker、Kubernetes容器上配置Zookeeper, Kafka, MySQL的教程。

http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/

有些人对Apache Kafka项目宣布采用另一种流式处理引擎感到惊讶，这就是Kafka Streams。Kafka Streams与其它系统存在显著的关键差异。本文很好的示范了这些不同点——abstraction、部署模型、支持基于状态的计算。

https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/

每个使用MapReduce、Spark或类似系统的人都会陷入难以调试、数据特征bug这些问题中。BigDebug是UCLA（加州大学洛杉矶分校）的研究项目/论文，旨在让开发人员通过工具发现单机问题：传入参数导致的崩溃，跟踪、断点、观察点、延迟报警等。该工具支持Apache Spark 1.2.1上。

https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/

Cask撰文介绍了在开源Cask Data Application Platform (CDAP)中运行Spark的文章。运行在CDAP的Spark程序通过访问Apache Tephra（孵化中）实现细粒度事务支持。这样，就能很容易利用快照隔离实现从一个表复制到另一个表的一致性。CDAP中的Spark也能访问Cask Tracker，Cask Tracker提供数据血缘信息（什么时候创建、使用等）。根据应用的不同，CDAP工具还能发挥更大价值。

http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/

IBM Hadoop Dev博客撰写了从cURL调用Ambari REST API的教程。还示范了在vanilla和启用了kerberos的集群上建立会话，并为接下来的请求复用会话。

https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/

Google云平台博客撰文介绍了如何调试运行在Google Dataflow上的Apache Beam（孵化中）任务。为了调试性能瓶颈，Dataflow有一些有用的统计数据和UI来帮助使用者深入每一个步骤。

https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines

其他新闻

Transaction Processing Performance Council(TPC)发布了TPCx-BB基准测试，该基准测试为大数据系统设计。除了衡量SQL外，还可以对机器学习集群和分类问题进行测试。

http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/

伦敦Strata + Hadoop世界大会两周前已召开。演讲者的专题报告和幻灯片已发布到会议网站上。

http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings

Splice Machine，Hadoop上的RDBMS构建者，宣布开源他们的软件。当前，他们正在寻找贡献者/导师/豪杰来提升开源后的效果。Splice Machine有不少有趣的特性，例如ACID事务，二级索引，引用完整性。

http://www.splicemachine.com/were_going_open_source/

Altiscale博客编辑了许多关于客户服务、情感分析、气候变化、智慧城市、bias等方面的大数据应用案例文章。还收集了一些大数据怀疑论者的文章。

https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/

Spark峰会本周在旧金山召开。会议组织者Databricks概述了两天内的热点内容，链接了许多的演讲和专题报告。

https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html

大数据即服务（BDaaS）公司Qubole，撰文介绍了他们的客户如何接受使用Spark。接受速度之快——一半多的客户现在开始用Spark。Qubole也支持Presto，他们也看到了类似的增长。

https://www.qubole.com/blog/big-data/spark-usage/

Twitter向Apache孵化器提交了他们的复制日志服务DistributedLog。

https://wiki.apache.org/incubator/DistributedLogProposal

Big Data Day LA于6月9日在西洛杉矶学院召开。这次活动是免费的（如果预先注册的话），演讲者来自于Confluent、Databricks、Yahoo、Netflix等。

http://www.bigdatadayla.com/

产品发布

Apache Spark发布了Spark 2.0预览版。发布声明中说道API和功能都尚未最终敲定。

https://spark.apache.org/news/spark-2.0.0-preview.html

JustOne构建并开源了Kafka-to-PostgreSQL连接器。本文介绍了该连接器的性能，详细描述了如何把消息转换为行，还描述了如何设定配置等。

http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database

Salesforce开源了Runway，这是一个建模、仿真以及可视化分布式系统。在runway.system上有一个在线演示环境，演示了“too many bananas”模型，电梯系统和Raft一致性系统。

https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248

Bloomberg最近开源了Presto Accumulo，面向Apache Accumulo的Presto连接器。在声明中，链接了11页的论文，比较了基于的Presto查询和基于Accumulo Java API查询的基准测试结果。

http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/

微软Azure发布了基于Apache Spark 1.6.1 稳定版的Azure HDInsight。本次发布支持了面向Spark的Project Livy REST任务服务支持，集成了Azure数据湖存储（基于角色的访问控制），集成了IntelliJ，支持了Jupyter笔记本等。

https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/

LinkedIn开源了Photon ML，他们的大规模回归分析库。Photon构建在Spark之上并在LinkedIn的YARN上运行（过去基于MapReduce，似乎因为要提升性能才迁移）。

https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml

Hortonworks发布了Spark-HBase连接器的技术预览版。预览版原生支持Avro，支持运行安全集群，原生支持Spark Datasource API，并优化了分区修剪，列修剪，谓词下推。

http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/

Databricks发布了Apache Spark平台的第一阶段安全特性。本阶段对集群ACL、SAML 2.0进行了支持，端对端的审计日志。

https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html

Apache ORC 1.1.0版发布了。本次发布完成了从基于Apache Hive的代码到基于Java的代码迁移，修正了C++时间戳处理程序，增加了Hadoop MapReduce连接器。

http://orc.apache.org/news/2016/06/10/ORC-1.1.0/

Apache Kudu发布了0.9.0版。增加了UPSERT命令，新的Spark数据源不会依赖MapReduce API，提升了Tablet Server写性能。

http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html

Google云服务平台团队发布了支持Spark 2.0预览版的Google Cloud Dataproc。

https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview

Dory（Bruce的继承者）Kafka producer的守护进程，现在支持从UNIX domain sockets或本地TCP接收数据了。

http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C1465683894.608424023@apps.rackspace.com%3E

Apache Pig 0.16.0版，一年来首次发布。坚定了对Tez的支持。

http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available

活动

中国

Spark Meetup (上海) – 周六, 6月18日

posted on 2016-06-28 17:39 Rosen 阅读(795) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

成都心情

公告

留言簿(15)

随笔分类(91)

随笔档案(99)

文章分类(2)

友情链接

积分与排名

最新评论

阅读排行榜

评论排行榜