大数据需求衍生出的各种框架

大数据需求衍生出的各种框架

1.

早期的MR 资源分配 计算 后来yarn 引入 作为资源分配

hive 将mr包装成sql 减少代码量

flume 端口 日志 mysql 音频 图片 数据
来源-去向 单独写一段代码 有flume 一个配置文件

kafka
flume-kafka-spark(hdfs)
峰值150 spark 100
不稳定 波峰波谷 蓄水池 消息队列(kafka)

zookeeper 为去中心的框架 作为协调中心 kafka HA

HDFS 解决了存储的问题 思路:分布式存储(一台计算机存不下,多台存)namenode 存储元数据 block映射文件的位置 保存文件到块的映射 datanode 存储具体数据 分布式存储到block中

分布式计算 分布式计算框架(mapreduce spark) 将一个计算任务 拆分成多个计算任务 分布式资源调度框架(yarn)

nodemanage负责管理每个节点的资源 resorucemanage 负责汇总每个节点的资源情况

hadoop 第三章 fileInputFormat切片机制
maptask 如何拆分任务
1GB 切片 分成多个计算任务
reducetask如何拆分任务

分区

原文地址:https://www.cnblogs.com/xiao-bu/p/14414750.html