Hadoop01

Bigdata:

    结构化数据:有严格约束

    半结构化数据:

    非结构化数据:没有元数据

搜索引擎:搜索组件+索引组件(存放数据 由蜘蛛程序爬取而来)

2003年 Google发表第一篇论文 The Google File System 解决大量数据存储

GFS文件系统 系统阐述了采取商业计算机集群就是普通x86系类的服务器的主机集群来完成定型的或分布式的方式高效的存储海量数据 它的设计支持大规模数据密集型的分布程序运行 可以扩展到成千上万个节点 这个平台为流式数据的应用进行了优化因此特别适用存储之后读取数据并完成处理操作 不支持随机访问

2004年 Google发表了另一篇论文 MapReduce:Simplified Data Processing On Large Cluster 系统阐述了 MapReduce编程模型及其运行机制

MapReduce是一个能够将某个处理任务给分割成任务单元而后并行运行于集群中的各节点上,并且收集各节点的运行结果做二次处理 二次并行运行直至得到最终结果为止的一个TB 甚至PB集数据并行处理分析框架。程序=代码+数据

2006年:BigTable: A Distributed storage System for structure Data 用于存储结构化数据的分布式存储系统叫BigTable

Hadoop就是三个论文的山寨版,用Java语言开发

    The Google File System <==> HDFS

    MapReduce <==> MapReduce

    A Distributed storage System for structure Data <==> HBase

    Hadoop=HDFS+ MapReduce

    HBase

    Nutch 网络爬虫程序 开源搜索引擎的实现

Hadoop有一个缺陷 :MapReduce是批处理程序(主要受限于它的存储和工作机制,所以使得他的工作速度和处理性能非常差)

原文地址:https://www.cnblogs.com/azuressy/p/11369854.html