hadoop_note1

==========hadoop 理论===============

1.hadoop包括以下几个方面：

mapreduce 代码

hdfs hadoop的文件系统，为分布式存储

pig 语言，插件

hbase

hive 关系型数据库的sql，也成为sql like

sqoop 插件，可以实现hadoop与关系型数据库之间的数据传输

2.google的核心算法，用于给每个网页价值评分，是google的“在垃圾中找黄金”；

　　每一行代表一个网页，1/3就是网页1分别对网页234有一个箭头；一列加起来总数是1；

3.google的核心技术：

　　GFS google file system；map-reduce 分布式计算；bigtable hbase

4.hadoop的起源lucene，nutch是一个微缩版；

5.namenode 名称节点是HDFS的守护进程，记录文件如何分割成数据块，数据块被存储到哪个节点，存在单点故障；

6.Secondary Namenode 辅助名称节点，作用是辅助后台程序，每个集群中有一个，定期保存HDFS元数据快照，不能自动切换；

7.DataNode 每个服务器运行一个，负责把HDFS读写到本地文件；

8.jobTracker 作业跟踪器，用于处理作业的后台程序，每个集群唯一，单点，master节点； tasktracker 每个节点只有一个，可以启动多个JVM（java虚拟机）与jobtracker交互；

==推荐书籍：==

　　实战Hadop：开启通向云计算的捷径(刘鹏)

　　注意：该书中有些实践的步骤有漏掉一些核心的，可能会导致安装失败