大数据需求衍生出的各种框架

1.

早期的MR 资源分配计算后来yarn 引入作为资源分配

hive 将mr包装成sql 减少代码量

flume 端口日志 mysql 音频图片数据
来源-去向单独写一段代码有flume 一个配置文件

kafka
flume-kafka-spark(hdfs)
峰值150 spark 100
不稳定波峰波谷蓄水池消息队列（kafka）

zookeeper 为去中心的框架作为协调中心 kafka HA

HDFS 解决了存储的问题思路：分布式存储（一台计算机存不下，多台存）namenode 存储元数据 block映射文件的位置保存文件到块的映射 datanode 存储具体数据分布式存储到block中

分布式计算分布式计算框架（mapreduce spark）将一个计算任务拆分成多个计算任务分布式资源调度框架（yarn）

nodemanage负责管理每个节点的资源 resorucemanage 负责汇总每个节点的资源情况

hadoop 第三章 fileInputFormat切片机制
maptask 如何拆分任务
1GB 切片分成多个计算任务
reducetask如何拆分任务

分区