hadoop_note1

==========hadoop 理论===============
1.hadoop包括以下几个方面:
  mapreduce 代码
  hdfs hadoop的文件系统,为分布式存储
  pig  语言,插件
  hbase 
  hive 关系型数据库的sql,也成为sql like 
  sqoop  插件,可以实现hadoop与关系型数据库之间的数据传输
 
2.google的核心算法,用于给每个网页价值评分,是google的“在垃圾中找黄金”;

  每一行代表一个网页,1/3就是网页1分别对网页234有一个箭头;一列加起来总数是1;
 
3.google的核心技术:
  GFS  google file system;map-reduce 分布式计算;bigtable  hbase
 
4.hadoop的起源lucene,nutch是一个微缩版;
 
5.namenode 名称节点是HDFS的守护进程,记录文件如何分割成数据块,数据块被存储到哪个节点,存在单点故障;
 
6.Secondary Namenode 辅助名称节点,作用是辅助后台程序,每个集群中有一个,定期保存HDFS元数据快照,不能自动切换;
 
7.DataNode  每个服务器运行一个,负责把HDFS读写到本地文件;
 
8.jobTracker  作业跟踪器,用于处理作业的后台程序,每个集群唯一,单点,master节点;    tasktracker 每个节点只有一个,可以启动多个JVM(java虚拟机)与jobtracker交互;
 
 
==推荐书籍:==
  实战Hadop:开启通向云计算的捷径(刘鹏)
  注意:该书中有些实践的步骤有漏掉一些核心的,可能会导致安装失败
原文地址:https://www.cnblogs.com/Kid-Zhou/p/8521265.html