大数据的起步:初学者

作为一个大数据的初学者,要知道学习一些什么,以及如何的去学习,我也是一个初学者,这是我了解到的学习路线,也是我要走的学习路线。

原文路线:http://dataunion.org/31604.html

1、初始Hadoop

学会搭建Hadoop,跑一跑mapreduce,理解一下原理

2、更高效的WordCount

2.1 SQL

2.2 SQL版的wordcount

2.3 Hive SQL ON HADOOP

2.4 安装配置hive

2.5 使用hive

2.6 hive是怎么工作的

2.7 学会hive的基本命令

具备如下知识点和技能

0和Hadoop2.0的区别;

MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);

HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;

自己会写简单的MapReduce程序,运行出现问题,知道在哪里查看日志;

会写简单的SELECT、WHERE、GROUP BY等SQL语句;

Hive SQL转换成MapReduce的大致流程;

Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;

从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。

此时,你的”大数据平台”是这样的:

大数据

那么问题来了,海量数据如何到HDFS上呢?

3、把别处的数据搞到Hadoop上

3.1 HDFS put命令

3.2 HDFS API

3.3 sqoop

3.4 Flume

你的”大数据平台”应该是这样的:

大数据

4、把hadoop上的数据搞到别处

4.1 HDFS GET命令

熟练掌握

4.2 HDSF API

4.3 sqoop

使用Sqoop完成将HDFS上的文件同步到MySQL;
使用Sqoop完成将Hive表中的数据同步到MySQL;

你的”大数据平台”应该是这样的:

大数据

5、SQL更快一点

5.1 关于Spark和SparkSQL

5.2 如何部署和运行SparkSQL

你的”大数据平台”应该是这样的:

大数据

6、一夫多妻制

6.1 关于Kafka

6.2 如何部署和使用Kafka

你的”大数据平台”应该是这样的:

大数据

7、越来越多的分析任务

7.1 Apache Oozie

7.2 其他开源的任务调度系统

你的”大数据平台”应该是这样的:

大数据

8、数据的实时性要求

8.1 Storm

8.2 Spark Streaming

你的”大数据平台”应该是这样的:

大数据

9、数据要对外

10、高大上的机器学习

在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:

分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;

聚类问题:从用户搜索过的关键词,对用户进行大概的归类。

推荐问题:根据用户的历史浏览和点击行为进行相关推荐。

大多数行业,使用机器学习解决的,也就是这几类问题。

入门学习线路:

数学基础;

机器学习实战(Machine Learning in Action),懂Python最好;

SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。

机器学习确实牛逼高大上,也是我学习的目标。

那么,可以把机器学习部分也加进你的“大数据平台”了。

大数据

原文地址:https://www.cnblogs.com/tolazychen/p/8336037.html