大数据的起步：初学者

作为一个大数据的初学者，要知道学习一些什么，以及如何的去学习，我也是一个初学者，这是我了解到的学习路线，也是我要走的学习路线。

原文路线：http://dataunion.org/31604.html

1、初始Hadoop

学会搭建Hadoop，跑一跑mapreduce，理解一下原理

2、更高效的WordCount

2.1 SQL

2.2 SQL版的wordcount

2.3 Hive SQL ON HADOOP

2.4 安装配置hive

2.5 使用hive

2.6 hive是怎么工作的

2.7 学会hive的基本命令

具备如下知识点和技能

0和Hadoop2.0的区别；

MapReduce的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多的10个单词及次数）；

HDFS读写数据的流程；向HDFS中PUT数据；从HDFS中下载数据；

自己会写简单的MapReduce程序，运行出现问题，知道在哪里查看日志；

会写简单的SELECT、WHERE、GROUP BY等SQL语句；

Hive SQL转换成MapReduce的大致流程；

Hive中常见的语句：创建表、删除表、往表中加载数据、分区、将表中数据下载到本地；

从上面的学习，你已经了解到，HDFS是Hadoop提供的分布式存储框架，它可以用来存储海量数据，MapReduce是Hadoop提供的分布式计算框架，它可以用来统计和分析HDFS上的海量数据，而Hive则是SQL On Hadoop，Hive提供了SQL接口，开发人员只需要编写简单易上手的SQL语句，Hive负责把SQL翻译成MapReduce，提交运行。

此时，你的”大数据平台”是这样的：

大数据

那么问题来了，海量数据如何到HDFS上呢？

3、把别处的数据搞到Hadoop上

3.1 HDFS put命令

3.2 HDFS API

3.3 sqoop

3.4 Flume

你的”大数据平台”应该是这样的：

大数据

4、把hadoop上的数据搞到别处

4.1 HDFS GET命令

熟练掌握

4.2 HDSF API

4.3 sqoop

使用Sqoop完成将HDFS上的文件同步到MySQL；
使用Sqoop完成将Hive表中的数据同步到MySQL；

你的”大数据平台”应该是这样的：

大数据

5、SQL更快一点

5.1 关于Spark和SparkSQL

5.2 如何部署和运行SparkSQL

你的”大数据平台”应该是这样的：

大数据

6、一夫多妻制

6.1 关于Kafka

6.2 如何部署和使用Kafka

你的”大数据平台”应该是这样的：

大数据

7、越来越多的分析任务

7.1 Apache Oozie

7.2 其他开源的任务调度系统

你的”大数据平台”应该是这样的：

大数据

8、数据的实时性要求

8.1 Storm

8.2 Spark Streaming

你的”大数据平台”应该是这样的：

大数据

9、数据要对外

10、高大上的机器学习

在我们的业务中，遇到的能用机器学习解决的问题大概这么三类：

分类问题：包括二分类和多分类，二分类就是解决了预测的问题，就像预测一封邮件是否垃圾邮件；多分类解决的是文本的分类；

聚类问题：从用户搜索过的关键词，对用户进行大概的归类。

推荐问题：根据用户的历史浏览和点击行为进行相关推荐。

大多数行业，使用机器学习解决的，也就是这几类问题。

入门学习线路：

数学基础；

机器学习实战（Machine Learning in Action），懂Python最好；

SparkMlLib提供了一些封装好的算法，以及特征处理、特征选择的方法。

机器学习确实牛逼高大上，也是我学习的目标。

那么，可以把机器学习部分也加进你的“大数据平台”了。

大数据