Home - noonecare/opensourcebigdatatools GitHub Wiki

本项目总结常见开源大数据工具的使用方法,并给出使用实例。

常见的开源大数据工具有 Hadoop, Hive, Hbase, Zookeeper 等。 这些工具功能强大,而且被广泛使用,但是有一定的学习门槛, 希望本项目的实例以及说明,可以帮助大家更快的理解这些工具完成了什么事儿, 以及如何使用这些工具。

Hadoop

  • Map Reduce

数据仓库:

  • Hive

  • Pig

  • HBase

数据库

  • MySql

No SQL 数据库

消息队列

  • Kafka

  • RabbitMQ

  • zookeeper(暂时不知道zookeeper 算哪块的, redis has the same functionality)

  • oozie(暂时不知道 oozie 算那块的)

存储格式

  • Parquet
  • RCFile
  • SequenceFile
  • Avro
  • Protocol Buffer
  • TextFile

传输数据

  • scp
  • distscp distcp hdfs://source_namenode_ip/source_file_path hdfs://destiny_namenode_ip/destiny_file_path