hadoop源码编译与阅读 - yingziaiai/SetupEnv GitHub Wiki

https://github.com/apache/hadoop/tree/release-2.5.2

http://blog.csdn.net/ssrc0604hx/article/details/41516985 Hadoop源代码分析(完整图文版) part 1

eclipse/intellij idea 远程调试hadoop 2.6.0

http://www.cnblogs.com/yjmyzz/p/how-to-remote-debug-hadoop-with-eclipse-and-intellij-idea.html

其实在mac上使用sqoop时由于涉及到压缩格式snappy,于是试图在mac系统上编译过,但都遇到了各种问题解决了一些但最终都还是没有通过编译,这次又在ubuntu平台上打算编译了:

http://rogerdudler.github.io/git-guide/index.zh.html

http://blog.csdn.net/zhang_red/article/details/25111809

原本参照这个并不成功: http://www.tuicool.com/articles/2MV7za

借代这个spark源码 http://www.bkjia.com/Linuxjc/960203.html

https://www.iteblog.com/archives/897

源码编译: 下载hadoop源码; 由于之前已经设置好JAVA_HOME, MAVEN_HOME, 然后安装protoc:(http://www.cnblogs.com/hzhida/archive/2012/08/06/2624998.html) ~/.bashrc:

不过安装过程中出现依赖错误: checking how to run the C++ preprocessor... /lib/cpp configure: error: C++ preprocessor "/lib/cpp" fails sanity check See `config.log' for more details.

#sudo apt-get install build-essential ./configure --prefix=/home/work /protobuf/

make && make install

编译成功后将export PATH= /home/work /protobuf/bin:$PATH加入到环境变量中

最后输入  protoc --version命令,如显示libprotoc 2.5.0则安装成功

http://www.tuicool.com/articles/jM7Nn2/

http://www.cnblogs.com/niocai/archive/2011/11/04/2236458.html

http://blog.csdn.net/u011007180/article/details/52589391

hadoop 源码编译 导入eclipse http://lbxhappy.iteye.com/blog/1853729

http://www.tuicool.com/articles/eEFriq

mvn package -DskipTests -Pdist,native mvn eclipse:eclipse -DskipTests

接下来,开始源代码之旅: http://www.codesky.net/article/201208/171180.html

Intellij IDEA 调试Hadoop 源码 http://blog.csdn.net/besley/article/details/18358095

如何高效的阅读hadoop源代码? http://dongxicheng.org/mapreduce-nextgen/how-to-read-hadoop-code-effectively/

http://f.dataguru.cn/thread-138535-1-1.html

hadoop源代码组织结构与阅读技巧

http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html

Hadoop阅读笔记(五)——重返Hadoop目录结构

http://www.cnblogs.com/bigdataZJ/p/hadoopreading5.html

http://book.51cto.com/art/201312/422113.htm

远程调试hadoop https://www.iteblog.com/archives/897

 tool:提供一些命令行工具,如DistCp,archive   mapreduce: Hadoop的Map/Reduce实现   filecache: 提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度   fs: 文件系统的抽象,可以理解为支持多种文件系统实现的统一文件访问接口   hdfs: HDFS,Hadoop的分布式文件系统实现   ipc: 一个简单的IPC的实现,依赖于io提供的编解码功能   io: 表示层。将各种数据编码/解码,方便于在网络上传输   net: 封装部分网络功能,如DNS,socket   security: 用户和用户组信息   conf: 系统的配置参数   metrics: 系统统计数据的收集,属于网管范畴   util: 工具类   record: 根据DDL(数据描述语言)自动生成他们的编解码函数,目前可以提供C++和Java   http: 基于Jetty的HTTP Servlet,用户通过浏览器可以观察文件系统的一些状态信息和日志   log: 提供HTTP访问日志的HTTP Servlet