成都心情

  BlogJava :: 首页 ::  :: 联系 :: 聚合  :: 管理 ::
  98 随笔 :: 2 文章 :: 501 评论 :: 1 Trackbacks

 

Hadoop周刊 174

 

 

启明星辰平台和大数据总体组编译

 

 

2016612

 

Spark峰会本周在旧金山召开,正如所料,本期周刊有大量关于Apache Spark的新闻、公告和版本发布。除Spark外,本期还有KafkaCaskAmbari方面的文章。在产品发布部分,有一年来Apache Pig首次版本更新,还一个为分布式系统设计的简洁新工具Runway,最后是新版Apache Kudu(孵化中)。

 

技术新闻

Debezium是一个相对较新的项目,用于数据库和Apache Kafka topic行级改变数据捕获。当面支持MySQLZookeeperKafka,这是一篇在DockerKubernetes容器上配置Zookeeper, Kafka, MySQL的教程。

http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/

 

有些人对Apache Kafka项目宣布采用另一种流式处理引擎感到惊讶,这就是Kafka StreamsKafka Streams与其它系统存在显著的关键差异。本文很好的示范了这些不同点——abstraction、部署模型、支持基于状态的计算。

https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/

 

每个使用MapReduceSpark或类似系统的人都会陷入难以调试、数据特征bug这些问题中。BigDebugUCLA(加州大学洛杉矶分校)的研究项目/论文,旨在让开发人员通过工具发现单机问题:传入参数导致的崩溃,跟踪、断点、观察点、延迟报警等。该工具支持Apache Spark 1.2.1上。

https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/

 

Cask撰文介绍了在开源Cask Data Application Platform (CDAP)中运行Spark的文章。运行在CDAPSpark程序通过访问Apache Tephra(孵化中)实现细粒度事务支持。这样,就能很容易利用快照隔离实现从一个表复制到另一个表的一致性。CDAP中的Spark也能访问Cask TrackerCask Tracker提供数据血缘信息(什么时候创建、使用等)。根据应用的不同,CDAP工具还能发挥更大价值。

http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/

 

IBM Hadoop Dev博客撰写了从cURL调用Ambari REST API的教程。还示范了在vanilla和启用了kerberos的集群上建立会话,并为接下来的请求复用会话。

https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/

 

Google云平台博客撰文介绍了如何调试运行在Google Dataflow上的Apache Beam(孵化中)任务。为了调试性能瓶颈,Dataflow有一些有用的统计数据和UI来帮助使用者深入每一个步骤。

https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines

 

其他新闻

Transaction Processing Performance Council(TPC)发布了TPCx-BB基准测试,该基准测试为大数据系统设计。除了衡量SQL外,还可以对机器学习集群和分类问题进行测试。

http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/

 

伦敦Strata + Hadoop世界大会两周前已召开。演讲者的专题报告和幻灯片已发布到会议网站上。

http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings

 

Splice MachineHadoop上的RDBMS构建者,宣布开源他们的软件。当前,他们正在寻找贡献者/导师/豪杰来提升开源后的效果。Splice Machine有不少有趣的特性,例如ACID事务,二级索引,引用完整性。

http://www.splicemachine.com/were_going_open_source/

 

Altiscale博客编辑了许多关于客户服务、情感分析、气候变化、智慧城市、bias等方面的大数据应用案例文章。还收集了一些大数据怀疑论者的文章。

https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/

 

Spark峰会本周在旧金山召开。会议组织者Databricks概述了两天内的热点内容,链接了许多的演讲和专题报告。

https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html

 

大数据即服(BDaaS)公司Qubole,撰文介绍了他们的客户如何接受使用Spark。接受速度之快——一半多的客户现在开始用SparkQubole也支持Presto,他们也看到了类似的增长。

https://www.qubole.com/blog/big-data/spark-usage/

 

TwitterApache孵化器提交了他们的复制日志服务DistributedLog

https://wiki.apache.org/incubator/DistributedLogProposal

 

Big Data Day LA69日在西洛杉矶学院召开。这次活动是免费的(如果预先注册的话),演讲者来自于ConfluentDatabricksYahooNetflix等。

http://www.bigdatadayla.com/

 

产品发布

Apache Spark发布了Spark 2.0预览版。发布声明中说道API和功能都尚未最终敲定。

https://spark.apache.org/news/spark-2.0.0-preview.html

 

JustOne构建并开源了Kafka-to-PostgreSQL连接器。本文介绍了该连接器的性能,详细描述了如何把消息转换为行,还描述了如何设定配置等。

http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database

 

Salesforce开源了Runway,这是一个建模、仿真以及可视化分布式系统。在runway.system上有一个在线演示环境,演示了“too many bananas”模型,电梯系统和Raft一致性系统。

https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248

 

Bloomberg最近开源了Presto Accumulo,面向Apache AccumuloPresto连接器。在声明中,链接了11页的论文,比较了基于的Presto查询和基于Accumulo Java API查询的基准测试结果。

http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/

 

Azure发布了基于Apache Spark 1.6.1 稳定版的Azure HDInsight。本次发布支持了面向SparkProject Livy REST任务服务支持,集成了Azure数据湖存储(基于角色的访问控制),集成了IntelliJ,支持了Jupyter笔记本等。

https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/

 

LinkedIn开源了Photon ML,他们的大规模回归分析库。Photon构建在Spark之上并在LinkedInYARN上运行(过去基于MapReduce,似乎因为要提升性能才迁移)。

https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml

 

Hortonworks发布了Spark-HBase连接器的技术预览版。预览版原生支持Avro,支持运行安全集群,原生支持Spark Datasource API,并优化了分区修剪,列修剪,谓词下推。

http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/

 

Databricks发布了Apache Spark平台的第一阶段安全特性。本阶段对集群ACLSAML 2.0进行了支持,端对端的审计日志。

https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html

 

Apache ORC 1.1.0版发布了。本次发布完成了从基于Apache Hive的代码到基于Java的代码迁移,修正了C++时间戳处理程序,增加了Hadoop MapReduce连接器。

http://orc.apache.org/news/2016/06/10/ORC-1.1.0/

 

Apache Kudu发布了0.9.0版。增加了UPSERT命令,新的Spark数据源不会依赖MapReduce API,提升了Tablet Server写性能。

http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html

 

Google云服务平台团队发布了支持Spark 2.0预览版的Google Cloud Dataproc

https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview

 

DoryBruce的继承者)Kafka producer的守护进程,现在支持从UNIX domain sockets或本地TCP接收数据了。

http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C1465683894.608424023@apps.rackspace.com%3E

 

Apache Pig 0.16.0版,一年来首次发布。坚定了对Tez的支持。

http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available

 

活动

中国

Spark Meetup (上海) – 周六, 618

posted on 2016-06-28 17:39 Rosen 阅读(650) 评论(0)  编辑  收藏

只有注册用户登录后才能发表评论。


网站导航: