StormApplied读书笔记(一) - 18965050/storm-applied GitHub Wiki
- Big Data
- Storm
什么是大数据
大数据的四个特性:
- 容量(Volumn)
- 速度(Velocity)
- 变化(Variety)
- 真实(Veracity)
大数据分析工具:
- Data Process工具: Storm, Spark
- Data Transfer工具: Kafka, Flume等
- Data Storage工具: HDFS, NoSQL
其中, Data Process工具又分为:
- 批处理(Batch Processing): 采集数据分成批次进行处理, 存在时延. 其特点是处理向数据靠拢
- 流处理(Stream Processing): 采集时间实时处理. 其特点是数据向处理靠拢(这是由于要处理的数据是未知的)
- 小批次的流处理(Micro-Batch Stream Processing)
什么是Storm
Storm是一个分布式, 实时的流处理计算框架
storm于其他工具的比较:
- Hadoop: Hadoop MapReduce是一个批处理(Batch Processing)工具,用于处理存放在Hadoop HDFS上的数据
- Spark: Spark也是一个批处理工具, 这点类似Hadoop MapReduce, 但它可缓存中间结果用于迭代式的计算
- Spark Stream: Spark Stream是一个小批次流处理框架,类似于Storm Trident