Home - noonecare/opensourcebigdatatools GitHub Wiki
本项目总结常见开源大数据工具的使用方法,并给出使用实例。
常见的开源大数据工具有 Hadoop, Hive, Hbase, Zookeeper 等。 这些工具功能强大,而且被广泛使用,但是有一定的学习门槛, 希望本项目的实例以及说明,可以帮助大家更快的理解这些工具完成了什么事儿, 以及如何使用这些工具。
Hadoop
- Map Reduce
数据仓库:
-
Hive
-
Pig
-
HBase
数据库
- MySql
No SQL 数据库
- redis, redis 中transaction 和 pipeline 的区别, 调用 redis 的 python 代码, redis 常常作为后台服务器的缓存,也常常用作消息队列
消息队列
-
Kafka
-
RabbitMQ
-
zookeeper(暂时不知道zookeeper 算哪块的, redis has the same functionality)
-
oozie(暂时不知道 oozie 算那块的)
存储格式
- Parquet
- RCFile
- SequenceFile
- Avro
- Protocol Buffer
- TextFile
传输数据
- scp
- distscp distcp hdfs://source_namenode_ip/source_file_path hdfs://destiny_namenode_ip/destiny_file_path