大数据笔记

1. 大数据目前代名词spark，是一个快速的集群计算系统，它的功能之一是streaming，支持实时的数据流，把实时数据流按时间变为离散数据流 discretized stream，其中每一个离散集合RDD resilient distributed dataset

2. 计算函数包括：flatMap: 一对多，map: 一对一, reduceByKey: 根据key合并value

3. spark的程序中，先建立计算公式，但不会执行，只有spark streaming context start之后才开始执行

4. D的问题是，如何保证在底层结构化的数据流不被割裂，比如在每个RDD做transform的时候不会失败

5. 一个spark worker/executor 需要一个thread占用一个核，他们的总数不要超过核的数目

6. 每个Dstream对应一个Receiver，每个spark receiver也需要一个thread

7. 像kafka，可以细分多个topic，这样可以用多个Dstream去receive data stream，从而增加了并发度