Hadoop系列技术相关资料推荐 - huangyuefeng/study GitHub Wiki

Hadoop系列技术相关资料推荐

src_url.

这里提到的Hadoop系列技术,主要指的是Flume,Kafka、Hive和HBase、HDFS和Yarn。 在笔者看来,Spark已经有一套相对独立的生态圈,并不在此列。

毫无疑问的,HDFS和Yarn是这个体系的核心引擎, 也许大部分的工作不需要修改核心,但是,大量的故障排查,需要查看相关日志。

这里推荐一篇好文章,《Hadoop日志》。

除此之外,对于Hadoop的技术生态,当然是越熟悉越好,这里推荐两本书。

一本是入门级的,《Hadoop实战》,应该是入门书籍里最好的, 唯一遗憾是成书于2011年,涉及到的Yarn的部分比较少。笔者一直在等该书出新的版本。 填补该空白的书,国内有董老师的《Hadoop技术内幕:深入解析YARN架构设计与实现原理》。

另一本是进阶的,《Hadoop权威指南》,该书第四版出版于2017年, 不仅填补了《Hadoop实战》一书的Yarn部分,而且,该书是Doug Cutting做序,Tom White主笔的, Cutting是Hadoop之父,White是Committer,这两位,一神一牛, 作品质量绝对好,不仅内容详实,而且全面覆盖Hadoop生态,对Flume、HBase和Hive独立成章, 一直是笔者不可或缺的工具书。

其实对于Hadoop体系内的各项技术,如果深入研究,还各有一系列的专著。 本次仅就综述型书籍,先推荐两本,供大家参考。

至于Hadoop原生的材料,其社区、源码和文档是最关键的第一手信息, 如http://hadoop.apache.org/docs/, 就是Hadoop的文档。

而其社区首页,http://hadoop.apache.org/,

里面也提及了,Hive和HBase等社区。 至于Kafka和Flume,都是Apache顶级项目,查看如下链接,

http://kafka.apache.org/和http://flume.apache.org/, 你会发现顶级项目的网址样式是一样的。 Enjoy it ~

系列文章第二篇,介绍下Hive的学习资料。

Hive学习资料