hadoop源码编译与阅读 - yingziaiai/SetupEnv GitHub Wiki
https://github.com/apache/hadoop/tree/release-2.5.2
http://blog.csdn.net/ssrc0604hx/article/details/41516985 Hadoop源代码分析(完整图文版) part 1
eclipse/intellij idea 远程调试hadoop 2.6.0
http://www.cnblogs.com/yjmyzz/p/how-to-remote-debug-hadoop-with-eclipse-and-intellij-idea.html
其实在mac上使用sqoop时由于涉及到压缩格式snappy,于是试图在mac系统上编译过,但都遇到了各种问题解决了一些但最终都还是没有通过编译,这次又在ubuntu平台上打算编译了:
http://rogerdudler.github.io/git-guide/index.zh.html
http://blog.csdn.net/zhang_red/article/details/25111809
原本参照这个并不成功: http://www.tuicool.com/articles/2MV7za
借代这个spark源码 http://www.bkjia.com/Linuxjc/960203.html
https://www.iteblog.com/archives/897
源码编译: 下载hadoop源码; 由于之前已经设置好JAVA_HOME, MAVEN_HOME, 然后安装protoc:(http://www.cnblogs.com/hzhida/archive/2012/08/06/2624998.html) ~/.bashrc:
不过安装过程中出现依赖错误: checking how to run the C++ preprocessor... /lib/cpp configure: error: C++ preprocessor "/lib/cpp" fails sanity check See `config.log' for more details.
#sudo apt-get install build-essential ./configure --prefix=/home/work /protobuf/
make && make install
编译成功后将export PATH= /home/work /protobuf/bin:$PATH加入到环境变量中
最后输入 protoc --version命令,如显示libprotoc 2.5.0则安装成功
http://www.tuicool.com/articles/jM7Nn2/
http://www.cnblogs.com/niocai/archive/2011/11/04/2236458.html
http://blog.csdn.net/u011007180/article/details/52589391
hadoop 源码编译 导入eclipse http://lbxhappy.iteye.com/blog/1853729
http://www.tuicool.com/articles/eEFriq
mvn package -DskipTests -Pdist,native mvn eclipse:eclipse -DskipTests
接下来,开始源代码之旅: http://www.codesky.net/article/201208/171180.html
Intellij IDEA 调试Hadoop 源码 http://blog.csdn.net/besley/article/details/18358095
如何高效的阅读hadoop源代码? http://dongxicheng.org/mapreduce-nextgen/how-to-read-hadoop-code-effectively/
http://f.dataguru.cn/thread-138535-1-1.html
hadoop源代码组织结构与阅读技巧
http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html
Hadoop阅读笔记(五)——重返Hadoop目录结构
http://www.cnblogs.com/bigdataZJ/p/hadoopreading5.html
http://book.51cto.com/art/201312/422113.htm
远程调试hadoop https://www.iteblog.com/archives/897
tool:提供一些命令行工具,如DistCp,archive mapreduce: Hadoop的Map/Reduce实现 filecache: 提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度 fs: 文件系统的抽象,可以理解为支持多种文件系统实现的统一文件访问接口 hdfs: HDFS,Hadoop的分布式文件系统实现 ipc: 一个简单的IPC的实现,依赖于io提供的编解码功能 io: 表示层。将各种数据编码/解码,方便于在网络上传输 net: 封装部分网络功能,如DNS,socket security: 用户和用户组信息 conf: 系统的配置参数 metrics: 系统统计数据的收集,属于网管范畴 util: 工具类 record: 根据DDL(数据描述语言)自动生成他们的编解码函数,目前可以提供C++和Java http: 基于Jetty的HTTP Servlet,用户通过浏览器可以观察文件系统的一些状态信息和日志 log: 提供HTTP访问日志的HTTP Servlet