大数据开发参考资料

参考链接出处:https://www.cnblogs.com/Thomas-blog/p/9728179.html

相关PDF电子版:

链接:https://pan.baidu.com/s/1X_e4koNHs43tdUsF0Kd0Bg
提取码:7a3l
复制这段内容后打开百度网盘手机App,操作更方便哦

一、大数据开发工程师技能图

必须掌握的技能11条

  1. Java高级(虚拟机、并发)
  2. Linux 基本操作
  3. Hadoop(HDFS+MapReduce+Yarn )
  4. HBase(JavaAPI操作+Phoenix )
  5. Hive(Hql基本操作和原理理解)
  6. Kafka
  7. Storm/JStorm
  8. Scala
  9. Python
  10. Spark (Core+sparksql+Spark streaming )
  11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

  1. 机器学习算法以及mahout库加MLlib
  2. R语言
  3. Lambda 架构
  4. Kappa架构
  5. Kylin
  6. Alluxio

二、参考资料

1)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时

2)Zookeeper学习(可以参照这篇博客进行学习:http://www.cnblogs.com/wuxl360/p/5817471.html

  1. Zookeeper分布式协调服务介绍。
  2. Zookeeper集群的安装部署。
  3. Zookeeper数据结构、命令。
  4. Zookeeper的原理以及选举机制。

官网:http://zookeeper.apache.org/

第二阶段(攻坚阶段)

4)Hadoop (《Hadoop 权威指南》)—80小时

  1. HDFS

  • HDFS的概念和特性。
  • HDFS的shell操作。
  • HDFS的工作机制。
  • HDFS的Java应用开发。
  • MapReduce

  • 运行WordCount示例程序。
  • 了解MapReduce内部的运行机制。
    • MapReduce程序运行流程解析。
    • MapTask并发数的决定机制。
    • MapReduce中的combiner组件应用。
    • MapReduce中的序列化框架及应用。
    • MapReduce中的排序。
    • MapReduce中的自定义分区实现。
    • MapReduce的shuffle机制。
    • MapReduce利用数据压缩进行优化。
    • MapReduce程序与YARN之间的关系。
    • MapReduce参数优化。
  • MapReduce的Java应用开发

官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html

5)Hive(《Hive开发指南》)–20小时

  1. Hive 基本概念

  • Hive 应用场景。
  • Hive 与hadoop的关系。
  • Hive 与传统数据库对比。
  • Hive 的数据存储机制。
  • Hive 基本操作

  • Hive 中的DDL操作。
  • 在Hive 中如何实现高效的JOIN查询。
  • Hive 的内置函数应用。
  • Hive shell的高级使用方式。
  • Hive 常用参数配置。
  • Hive 自定义函数和Transform的使用技巧。
  • Hive UDF/UDAF开发实例。
  • Hive 执行过程分析及优化策略

官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html

6)HBase(《HBase权威指南》)—20小时

  1. hbase简介。
  2. habse安装。
  3. hbase数据模型。
  4. hbase命令。
  5. hbase开发。
  6. hbase原理。

官网:http://hbase.apache.org/
中文文档:http://abloz.com/hbase/book.html
中文社区:http://www.aboutyun.com/forum-142-1.html

7)Scala(《快学Scala》)–20小时

  1. Scala概述。
  2. Scala编译器安装。
  3. Scala基础。
  4. 数组、映射、元组、集合。
  5. 类、对象、继承、特质。
  6. 模式匹配和样例类。
  7. 了解Scala Actor并发编程。
  8. 理解Akka。
  9. 理解Scala高阶函数。
  10. 理解Scala隐式转换。

官网:http://www.scala-lang.org/
初级中文教程:http://www.runoob.com/scala/scala-tutorial.html

8)Spark (《Spark 权威指南》)—60小时

第三阶段(辅助工具工学习阶段)

Sqoop(CSDN,51CTO ,以及官网)—20小时

  1. 数据导出概念介绍
  2. Sqoop基础知识
  3. Sqoop原理及配置说明
  4. Sqoop数据导入实战
  5. Sqoop数据导出实战、
  6. Sqoop批量作业操作

推荐学习博客:http://student-lp.iteye.com/blog/2157983
官网:http://sqoop.apache.org/

2)Flume(CSDN,51CTO ,以及官网)—20小时

  1. FLUME日志采集框架介绍。
  2. FLUME工作机制。
  3. FLUME核心组件。
  4. FLUME参数配置说明。
  5. FLUME采集nginx日志案例(案例一定要实践一下)

推荐学习博客:http://www.aboutyun.com/thread-8917-1-1.html
官网:http://flume.apache.org

Oozie(CSDN,51CTO ,以及官网)–20小时

  1. 务调度系统概念介绍。
  2. 常用任务调度工具比较。
  3. Oozie介绍。
  4. Oozie核心概念。
  5. Oozie的配置说明。
  6. Oozie实现mapreduce/hive等任务调度实战案例。

推荐学习博客:http://www.infoq.com/cn/articles/introductionOozie
官网:http://oozie.apache.org/

14)Hue(CSDN,51CTO ,以及官网)–20小时

推荐学习博客:http://ju.outofmemory.cn/entry/105162
官网:http://gethue.com/

学习资源网站推荐

  1. Apache 官网(http://apache.org/
  2. Stackoverflow(https://stackoverflow.com/
  3. Github(https://github.com/)
  4. Cloudra官网(https://www.cloudera.com/)
  5. Databrick官网(https://databricks.com/)
  6. About 云 :http://www.aboutyun.com/
  7. CSDN,51CTO (http://www.csdn.net/http://www.51cto.com/
原文地址:https://www.cnblogs.com/jiejunwang/p/11895640.html