大数据hadoop之最简单理解

干什么？ Hadoop就是存储海量数据和分析海量数据的工具
是什么?Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce（更高性能用的spark,区别类似多进程和多线程）
用什么？重点就是分析海量数据这块，Hadoop-MapReduce 主力语言是 Java ，而 Spark 平等兼容 Java / Scala / Python，性能更高。
为什么？Spark不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark快。

怎么用？Spark 对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）。RDD 其实就是分布式的元素集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。

Hive是一种基于HDFS的数据仓库，它是运行在Hadoop上的SQL接口，降低了MapReduce框架的复杂性。可以初略理解Hive的查询引擎将sql转为MapReduce再去操作HDFS
SparkSQL是Spark的组件，它替代的是Hive的查询引擎（前面说过spark比MR快），不可能替代Hive作为数据仓库的这个功能。

总结需要学什么？SQL语句的使用，以及操作RDD的编程python-RDD（spark支持用Java / Scala / Python等，本人比较熟悉python）。

作者：陈耿聪 —— 夕狱

出处：https://www.cnblogs.com/CGCong/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。