安装关系型数据库MySQL和大数据处理框架Hadoop

作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161

1.简述Hadoop平台的起源、发展历史与应用现状。

1、介绍：

Hadoop不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。
Hadoop1.x中包括两个核心组件：MapReduce和Hadoop Distributed File System(HDFS)
其中HDFS负责将海量数据进行分布式存储，而MapReduce负责提供对数据的计算结果的汇总。

（1）、主要版本：

0.x系列版本：hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本
1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等
2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性

（2）、主要厂商

Hadoop的发行版除了社区的Apache hadoop外，cloudera,IBM,ORACLE等都提供子自己的商业版本。

免费开源版本apache：

http://hadoop.apache.org/
优点：拥有全世界的开源贡献者，代码更新迭代版本比较快，
缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用
apache所有软件的下载地址（包括各种历史版本）：
http://archive.apache.org/dist/

免费开源版本hortonWorks：

https://hortonworks.com/
hortonworks主要是雅虎主导Hadoop开发的副总裁，带领二十几个核心成员成立Hortonworks，核心产品软件HDP（ambari），HDF免费开源，并且提供一整套的web管理界面，供我们可以通过web界面管理我们的集群状态，web管理界面软件HDF网址（http://ambari.apache.org/）

软件收费版本ClouderaManager:

https://www.cloudera.com/
cloudera主要是美国一家大数据公司在apache开源hadoop的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题，生产环境强烈推荐使用

2、起源：

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。
狭义上来说，hadoop就是单独指代hadoop这个软件，广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件。

3、发展：

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop [3] 最初只与网页索引有关，迅速发展成为分析大数据的领先平台。
目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司，该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司，在2012年，该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司，同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估的软件。

4、应用现状：

Hadoop目前已经取得了非常突出的成绩。国外如Yahoo、Facebook、Adobe、Ebay以及国内的阿里、腾讯、新浪、美团、百度等互联网公司均采用了hadoop云架构平台。随着互联网的发展，新的业务模式还将不断涌现，Hadoop的应用也会从互联网领域向电信、电子商务、银行、生物制药等领域拓展。