什么是hadoop，hadoop可以做什么

面试现在这家公司的时候，领导说有意让我接触大数据这块的项目，当时可把我高兴的。虽然来这快两年了也没接触大数据，词倒是听了几个。hadoop念着挺顺口，到底是个什么东西呢。搜索了一波，总结如下。

hadoop是什么？

Hadoop就是一个分布式计算的解决方案.

能看懂吗。看不懂的继续往下看看

hadoop能做什么？

如果是1G , 1T 甚至 1PB 的数据需要找出相同的关键词，通常的方式需要耗时几天，有了hadoop以后可以缩短为几个小时。原理看起来很简单，利用分布式计算。Hadoop 要做的事，首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。

这就是云计算。如果不懂还有更简单的例子

比如 1亿个 1 相加得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道，那么单台计算机处理的方式做一亿次的循环，每次结果+1。
那么分布式的处理方式则变成我用 1万台计算机,每个计算机只需要计算 1万个 1 相加，然后再有一台计算机把 1万台计算机得到的结果再相加
从而得到最后的结果.
理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算大抵也就是这么回事了.

hadoop擅长日志分析，facebook、淘宝搜索中的自定义筛选都使用的Hive。不仅如此，Twitter、Yahoo也是用到Pig技术。

PS:

Hive是Hadoop生态圈中及其重要的一个组件。Hadoop生态的数据是存储在HDFS中，而Hive能对其中的数据进行分析和管理。用户通过命令行或JDBC可使用Hive进行增删改查等数据库操作。

想更加了解hadoop的朋友可以多了解Hive、Pig、Hbase，这篇文章可以看下，相信会有很大帮助 Hadoop的Hive、Pig、Hbase

此文摘自：

通俗易懂的了解Hadoop