大数据知识

Hadoop:分布式计算平台


HDFS:分布式文件系统 一个hdfs集群包含一个节点,称为NameNode,管理文件系统名称空间,存储metadata(每一个文件包含多少个block,每个block在哪个主机?),规范客户端对文件访问。

DataNode,将数据以块(block)存储在文件中


mapreduce:分布式计算框架

先对数据做map()切分处理,再做shuffle过程,再reduce()聚合。

数据来源与输出均在HDFS上

hive:基于hadoop的一个数据仓库工具

可以将结构化的数据文件映射成一张数据库表,提供简单地类sql查询语言,将hql语句转换为MapReduce任务执行。

原文地址:https://www.cnblogs.com/liuguangshou123/p/13426405.html