成都心情

  BlogJava :: 首页 ::  :: 联系 :: 聚合  :: 管理 ::
  98 随笔 :: 2 文章 :: 501 评论 :: 1 Trackbacks

 

Hadoop周刊 175

 

 

启明星辰平台和大数据总体组编译

 

 

2016619

 

Hadoop峰会已过去一周了,我们已看到有多个产品(项目)敲定了发布时间。所以在技术新闻部分,有关于Hadoop Kerberos认证的内容另外还有Salsify应用Avro的文章。在产品发布部分,包括Yandex新近开源的列式数据库在内的多个项目均有新版本发布。

 

技术新闻

OpenCore博客撰文示范了多种Hadoop Kerberos认证协议调试工具。尤其示范了如何使用UserGropuInformation“main()”方法导出一些有用的调试信息。

http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/

 

YARN系列文章的第四部分,Cloduera博客介绍了如何配置公平调度队列。尤其对资源约束设置、队列安置策略和抢占进行了详解。

http://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/

 

Salsify基于Apache Kafka构建了一个异步微服务架构,并采用Apache Avro进行数据序列化。该应用使用Ruby开发,他们创建了多个新工具使得Avro能和Ruby语言很好的配合。本文介绍了这些工具和它们的价值:avro-builder用于定义记录、基于postgres的模式注册表,avromatic则从avro schema生成模型。

http://blog.salsify.com/engineering/adventures-in-avro

 

Apache Drill可以动态推断模式,还支持多模式(但相互兼容)数据。这种组合使得一些有趣的用例得以实现,例如跨多个不同模式的json文件查询。MapR博客探究了这些特性并进行了示范。

https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill

 

本教程展示了如何将DruidApache Kafka结合构建流式分析和可视化(借助PivotDruidweb UI)应用。

http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid

 

Apache Beam(孵化中)博客撰文介绍了他们在连接Apache Flink批处理集群方面的成果。Beam是一个开源SDK,最初来自于Google,用于暴露后端未知数据管道API

http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html

 

Cask Hydrator是一个通过UI界面采用拖拽方式构建数据管道的工具。本教程也演示了如何使用Hydrator把数据从MySQL导入到HDFS

http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/

 

Databricks撰文介绍了即将发布的Apache Spark 2.0中新的SQL子查询功能。有趣的是,本文以手册形式呈现,最直截了当的展现了代码和范例数据。

https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html

 

Apache Kudu(孵化中)博客撰写了在单集群节点使用Raft的文章,借此动态扩展到多主节点集群。

http://getkudu.io/2016/06/17/raft-consensus-single-node.html

 

其他新闻

本文指出Apache Spark社区如果不用心经营,可能会重走因碎片化导致Apache Hadoop生态系统混乱的老路。举例来说,最新版本的CDHHDP支持不同版本的Spark

https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/

 

New Stack撰写了一篇关于Concord的文章,Concord是一个构建在Apache Mesos上新的流式处理框架(公开测试状态)。Concord使用C++开发,支持动态拓扑(无需停机实现管道的增加和减少)。

http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/

 

随着Databricks社区版的正式发布,Databricks发布了使用Databricks编写Apache Spark应用程序系列教程的第一篇。

https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html

 

Hadoop圣何塞峰会于几周前召开,期间举行了题为大数据行业中的女性专场午宴。Hortonworks博客特意采访了午宴主持人Hortonworks CMOIngrid Burton

http://hortonworks.com/blog/summer-hortonworks-part-2-wibd-assertive-innovative-take-risks/

 

产品发布

Apache SystemML(孵化中)最近发布了0.10.0版。SystemML是一个机器学习框架,由多个项目在背后支撑,包括Apache SparkApache Hadoop。本次发布包括新的Spark Matrix Block类型、支持深度学习、性能上的提升、新的KNN算法等等。

http://systemml.apache.org/0.10.0-incubating/release_notes.html

 

Apache Mahout,另一个机器学习框架发布了0.12.2版。本次发布向着集成Apache Zeppelin可视化和支持notebook的目标迈进了一步。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAOtpBjgBAuQs5FiX5X_5A+Rd-A1fVz0R7SKttGe4cJuCLRiGww@mail.gmail.com%3E

 

Qubole宣布他们的HBase-as-a-Service已经在AWS上提供。它为长时运行集群提供了许多漂亮的特性。支持Hannibal和其它监控工具,集成了Apache Zeppelin,并能通过节点引导程序与OpenTSDBApache Phoenix配置。

https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/

 

Altiscale发布了Altiscale Insight Cloud实时版。本系统由Apache HBaseSpark Streaming支撑。

https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/

 

`hs2client`是一个为Apache HiveApache Impala(孵化中)提供的新C++库。除了支持C++,这个库还绑定了python,可以在pandas中把数据读到DataFrame

http://blog.cloudera.com/blog/2016/06/announcing-hs2client-a-fast-new-c-python-thrift-client-for-impala-and-hive/

 

MapR在其发行版中支持了Apache Spark 2.0开发者预览版。

https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform

 

Apache Beam发布了其0.1.0孵化版,是本项目加入Apache孵化器以来首次发布。

http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html

 

Yandex开源了ClickHouse,一个列式分析数据库。本系统为横向和纵向扩展而生。支持复杂数据类型(例如数组)和近似查询。该团队还发布了与其它数据库相比的基准测试结果。

https://clickhouse.yandex/

 

活动

中国

 

posted on 2016-07-01 15:44 Rosen 阅读(389) 评论(0)  编辑  收藏
<