Hadoop初步学习

我们老板理解的大数据是，从数据到知识的转化。大数据目前的应用如支付宝金融大数据、腾讯出行大数据等。

大数据的工作就是从海量数据源中筛选，梳理对自己有用的数据，整合成合适的数据结构，存储并进行可视化。

大数据目前的代表框架是Hadoop和spark

大数据涉及到的技包括数据分布式存储、数据分布式计算和数据可视化。

Hadoop包含两方面的知识：HDFS和MapReduce

一、HDFS是分布式文件存储系统，目的是将大文件分片存储，存储是大数据的基础。

　　HDFS存储系统的原理：HDFS会构建两个模块，nameNode和很多dataNode，模块之间的控制关系为主从模式，nameNode记录所有dataNode的元信息，负责存时指定读时查找相应的dataNode，dataNode专门负责存储数据，以64M为单位存储，备份3份，这样就实现了大文件的分布式存储，利用分布式解决一次性存储需要很大磁盘空间的问题。

　　HDFS如何使用：HDFS提供了一些接口，可以帮我们实现文件存取。

　　　　　　　　　　1.通过shell命令调用如mkdir copyFromLocal ；　

　　　　　　　　　　2.使用pathon读写，编写pathon代码，调用HDFS API实现读写。

二、MapReduce 是一个编程模型，是大数据应用的解决方案。

　　编程模型：将文件分片，对每个分片进行处理，将每个机器的处理结果进行汇总。

　　实现demo：读取某一个文件，将文件中的单词按照字符进行map输出，reduce方法进行字符出现次数的统计。

　　YARN概念：2.0之后的资源管理器，支持多种计算框架，模块包含ResourceManger、ApplicationMaster、NodeManger。

　　ResourceManger用于分配和调度资源，启动监控applicationMaster。

继续学习。。。。。。。。

--------学习交流提升-----------