大数据笔记

1. 大数据目前代名词spark,是一个快速的集群计算系统,它的功能之一是streaming,支持实时的数据流,把实时数据流按时间变为离散数据流 discretized stream,其中每一个离散集合RDD resilient distributed dataset

2. 计算函数包括:flatMap: 一对多,map: 一对一, reduceByKey: 根据key合并value

3. spark的程序中,先建立计算公式,但不会执行,只有spark streaming context start之后才开始执行

4. D的问题是,如何保证在底层结构化的数据流不被割裂,比如在每个RDD做transform的时候不会失败

5. 一个spark worker/executor 需要一个thread占用一个核,他们的总数不要超过核的数目

6. 每个Dstream对应一个Receiver,每个spark receiver也需要一个thread

7. 像kafka, 可以细分多个topic,这样可以用多个Dstream去receive data stream,从而增加了并发度

原文地址:https://www.cnblogs.com/qiangxia/p/4971032.html