Hadoop周刊—第 167 期

Hadoop周刊第 167 期

启明星辰平台和大数据整体组编译

2016年4月25日

欢迎来到Hadoop周刊周一特别版。本周有大量来自Spark、Kafka、Beam、Kudu的技术新闻。如果你正在寻找一些更前沿的技术，Apache Metron（孵化中）发布了它们第一个版本。Metron，是一个构建在Hadoop上正在不断发展的通用安全系统。

技术新闻

本文介绍了如何在AWS上构建流式处理系统。包括了诸如Amazon Kinesis 、AWS Lambda、Kineses S3 connector之类简单的搭配方案，也介绍了AWS实现实时分析场景这样相对复杂点的方案。

http://cdn.oreillystatic.com/en/assets/1/event/144/Building%20a%20scalable%20architecture%20for%20processing%20streaming%20data%20on%20AWS%20Presentation.pdf

本文介绍了怎样使用Spark Testing Base。Spark Testing Base是一个用Scala编写，通过Java调用的Spark测试框架。本文的样例代码展示了如何隔离测试逻辑重构Spark代码，同时还通过Java处理了一些臃肿的Scala API。

http://www.jesse-anderson.com/2016/04/unit-testing-spark-with-java/

Altiscale博客概述了在Spark环境下，构建thin和uber jar包的优劣。示范了在Maven和SBT分别构建两种包的情况。

https://www.altiscale.com/blog/spark-on-hadoop-thin-jars/

LinkedIn介绍了他们的Kafka生态系统，生态系统包含一个特殊的Kafka producer，一个为非Java客户端提供的REST API，一个avro模式注册表，以及Gobblin（装载数据到Hadoop的工具）等等。

https://engineering.linkedin.com/blog/2016/04/kafka-ecosystem-at-linkedin

该Spark Streaming教程介绍了怎样通过twitter4j API拉推文，基于标签过滤，对推文进行情感分析。

https://www.mapr.com/blog/spark-streaming-and-twitter-sentiment-analysis

Apache Kudu（孵化中）是Apache Impala（孵化中）的绝佳伴侣，因为它能高效地解决广泛的分析和有针对性的查询。本文描述了两者集成的技术细节，例如Kudu的设计如何保证高效地查询能力，如何通过Impala和Kudu执行写／更新／删除操作等等。

http://blog.cloudera.com/blog/2016/04/how-to-use-impala-and-kudu-together-for-analytic-workloads/

MapR撰文介绍了使用spark-sklearn扩展一个已存在的scikit-learn模型。文章介绍了如何透过Airbnb数据集内部建模，还介绍了如何傍着spark-sklearn进行交叉验证。

https://www.mapr.com/blog/predicting-airbnb-listing-prices-scikit-learn-and-apache-spark

AWS大数据博客写了个如何在Amazon EMR中使用HBase和Hive的教程。本教程介绍了HBase，描述了如何在S3中恢复HBase表，示范了Hive和HBase如何集成等等。

http://blogs.aws.amazon.com/bigdata/post/Tx3EGE8Z90LZ9WX/Combine-NoSQL-and-Massively-Parallel-Analytics-Using-Apache-HBase-and-Apache-Hiv

本文描述了为学生在大数据课程上提供实战经验的挑战。作者经历若干次的迭代和选择似乎有了一个好方案— Altiscale的Hadoop-as-a-Service。

https://www.altiscale.com/blog/hadoop-as-a-service-in-the-classroom/

Cloudera博客的一篇客做文章，作者比较了Parquet和Avro在跨两个数据集的不同处理方式（一个数据集窄(3列)、一个数据集宽(103列)）。在用Spark和Spark SQL测试查询／操作后，作者发现Parquet和Avro在查询序列化数据方面有时表现很类似，尽管在大多数情况下查询Parquet数据的时候更快点（序列化数据更小）。

http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/

本文介绍了如何在CDH这样的分布式环境中使用SparkR，尽管SparkR官方还没有支持这种方式。借助YARN在worker本地安装R语言包，job稍加改造就能执行了。

http://www.nodalpoint.com/sparkr-in-cloudera-hadoop/

很多开源框架都能执行MapReduce以及借助更高级的编程模型完成类似的工作。纵观过去，它们依赖独立运行的框架（例如MapReduce, Storm），但是最近的某些变化使得这一切充满了变数。Apache Beam（孵化中）更进一步地跨越了批处理、流式处理两种执行模式，内置更加复杂的计算模型。

http://www.datanami.com/2016/04/22/apache-beam-emerges-ambitious-goal-unify-big-data-development/

Apache博客发布了HBase在HDD、SSD以及RAMDISK上的写入性能测试比对的7篇系列文章。通过这一分析，作者发现并提议在HBase和HDFS上实现一些未覆盖的功能。

https://blogs.apache.org/hbase/entry/hdfs_hsm_and_hbase_part

其他新闻

Tom White，“Hadoop权威指南”的作者撰文介绍他是如何步入Apache Hadoop殿堂的。他的早期贡献是绕着Hadoop与Amazon Web Services集成展开，而今AWS已成为Hadoop项目成功的重要部分。

http://vision.cloudera.com/how-i-got-into-hadoop/

Fluo，为Apache Accumulo准备的分布式处理引擎，向Apache孵化器提交了孵化申请。

https://wiki.apache.org/incubator/FluoProposal

Apache Phoenix宣布将在HBaseCon后举行会议，Apache Phoenix是一个SQL-on-HBase系统。该会议只有半天，主题是介绍Phoenix内部情况和用例。

http://hortonworks.com/blog/announcing-first-annual-phoenixcon-apache-phoenix-user-conference/

产品发布

Apache Metron，构建于Hadoop上的安全框架，发布了0.1版。Hortonworks支撑其作为技术预览版，并撰写本文介绍了如何上手，如何贡献，如何使用Metron UI等等。

http://hortonworks.com/blog/apache-metron-tech-preview-1-come-get/

http://hortonworks.com/blog/apache-metron-use-case-finding-needle-haystack/

Apache NiFi本周发布了0.6.1版。这是修复了10多个bug后的修复版。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCALJK9a7yLnFeJ7Z=eU6mOB-DXvo8MHUr=_RshSjZcTbTcAHDZA@mail.gmail.com%3E

Apache Flink本周发布了1.0.2版。本次发布包括了bug修复，RocksDB环境下的性能提升以及一些文档方面的进步。

http://flink.apache.org/news/2016/04/22/release-1.0.2.html

Amazon发布了新版Amazon EMR，开始支持HBase 1.2。

https://aws.amazon.com/blogs/aws/amazon-emr-update-apache-hbase-1-2-is-now-available/

活动

中国

无

posted on 2016-05-03 10:08 Rosen 阅读(693) 评论(0) 编辑收藏所属分类: 大数据

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Hadoop周刊—第 167 期 Hadoop周刊—第 166 期 Hadoop周刊—第 165 期

成都心情

公告

留言簿(15)

随笔分类(91)

随笔档案(99)

文章分类(2)

友情链接

积分与排名

最新评论

阅读排行榜

评论排行榜