StormApplied读书笔记(一) - 18965050/storm-applied GitHub Wiki


  • Big Data
  • Storm

什么是大数据

大数据的四个特性:

  • 容量(Volumn)
  • 速度(Velocity)
  • 变化(Variety)
  • 真实(Veracity)

大数据分析工具:

  • Data Process工具: Storm, Spark
  • Data Transfer工具: Kafka, Flume等
  • Data Storage工具: HDFS, NoSQL

其中, Data Process工具又分为:

  • 批处理(Batch Processing): 采集数据分成批次进行处理, 存在时延. 其特点是处理向数据靠拢
  • 流处理(Stream Processing): 采集时间实时处理. 其特点是数据向处理靠拢(这是由于要处理的数据是未知的)
  • 小批次的流处理(Micro-Batch Stream Processing)

什么是Storm

Storm是一个分布式, 实时的流处理计算框架

storm于其他工具的比较:

  • Hadoop: Hadoop MapReduce是一个批处理(Batch Processing)工具,用于处理存放在Hadoop HDFS上的数据
  • Spark: Spark也是一个批处理工具, 这点类似Hadoop MapReduce, 但它可缓存中间结果用于迭代式的计算
  • Spark Stream: Spark Stream是一个小批次流处理框架,类似于Storm Trident