hadoop源码编译与阅读 - yingziaiai/SetupEnv GitHub Wiki

https://github.com/apache/hadoop/tree/release-2.5.2

http://blog.csdn.net/ssrc0604hx/article/details/41516985 Hadoop源代码分析(完整图文版) part 1

eclipse/intellij idea 远程调试hadoop 2.6.0

http://www.cnblogs.com/yjmyzz/p/how-to-remote-debug-hadoop-with-eclipse-and-intellij-idea.html

其实在mac上使用sqoop时由于涉及到压缩格式snappy,于是试图在mac系统上编译过，但都遇到了各种问题解决了一些但最终都还是没有通过编译，这次又在ubuntu平台上打算编译了：

http://rogerdudler.github.io/git-guide/index.zh.html

http://blog.csdn.net/zhang_red/article/details/25111809

原本参照这个并不成功： http://www.tuicool.com/articles/2MV7za

借代这个spark源码 http://www.bkjia.com/Linuxjc/960203.html

https://www.iteblog.com/archives/897

源码编译：下载hadoop源码；由于之前已经设置好JAVA_HOME, MAVEN_HOME, 然后安装protoc:(http://www.cnblogs.com/hzhida/archive/2012/08/06/2624998.html) ~/.bashrc:

不过安装过程中出现依赖错误： checking how to run the C++ preprocessor... /lib/cpp configure: error: C++ preprocessor "/lib/cpp" fails sanity check See `config.log' for more details.

#sudo apt-get install build-essential ./configure --prefix=/home/work /protobuf/

make && make install

编译成功后将export PATH= /home/work /protobuf/bin:$PATH加入到环境变量中

最后输入  protoc --version命令，如显示libprotoc 2.5.0则安装成功

http://www.tuicool.com/articles/jM7Nn2/

http://www.cnblogs.com/niocai/archive/2011/11/04/2236458.html

http://blog.csdn.net/u011007180/article/details/52589391

hadoop 源码编译导入eclipse http://lbxhappy.iteye.com/blog/1853729

http://www.tuicool.com/articles/eEFriq

mvn package -DskipTests -Pdist,native mvn eclipse:eclipse -DskipTests

接下来，开始源代码之旅： http://www.codesky.net/article/201208/171180.html

Intellij IDEA 调试Hadoop 源码 http://blog.csdn.net/besley/article/details/18358095

如何高效的阅读hadoop源代码？ http://dongxicheng.org/mapreduce-nextgen/how-to-read-hadoop-code-effectively/

http://f.dataguru.cn/thread-138535-1-1.html

hadoop源代码组织结构与阅读技巧

http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html

Hadoop阅读笔记（五）——重返Hadoop目录结构

http://www.cnblogs.com/bigdataZJ/p/hadoopreading5.html

http://book.51cto.com/art/201312/422113.htm

远程调试hadoop https://www.iteblog.com/archives/897

　tool：提供一些命令行工具，如DistCp，archive 　　mapreduce： Hadoop的Map/Reduce实现　　filecache：提供HDFS文件的本地缓存，用于加快Map/Reduce的数据访问速度　　fs：文件系统的抽象，可以理解为支持多种文件系统实现的统一文件访问接口　　hdfs： HDFS，Hadoop的分布式文件系统实现　　ipc：一个简单的IPC的实现，依赖于io提供的编解码功能　　io：表示层。将各种数据编码/解码，方便于在网络上传输　　net：封装部分网络功能，如DNS，socket 　　security：用户和用户组信息　　conf：系统的配置参数　　metrics：系统统计数据的收集，属于网管范畴　　util：工具类　　record：根据DDL（数据描述语言）自动生成他们的编解码函数，目前可以提供C++和Java 　　http：基于Jetty的HTTP Servlet，用户通过浏览器可以观察文件系统的一些状态信息和日志　　log：提供HTTP访问日志的HTTP Servlet