大数据开发需要掌握哪些技术?

是做什么的?

大数据的三大就业方向

大数据开发工程师:建立,测试和维护数据生态系统。
大数据分析工程师:根据过去和当前的数据创建临时和定期报告,从而找到解决业务问题的答案。
大数据科学家:分析数据,从而建立预测算法。

大数据开发的两大分类

第一类是编写一些Hadoop、Spark的应用程序;
第二类是开发大数据处理系统或对开源系统的二次开发(技术含量高,通常大公司才有)。

需要哪些技术?

阶段一

编程语言:JavaPython
操作系统:Linux
基础框架:Hadoop(核心设计:HDFS 和 MapReduce)
分布式数据库:Hbase(Hadoop databse,随机实时读写大数据,NoSQL)
数据仓库:Hive(离线读写大数据集,SQL)
日志管理服务:Flume(高效地收集、汇总、转移大量的日志数据)
分布式协调服务器:ZooKeeper(集中维护配置信息、提供分布式同步、提供组服务)
分布式事件流平台:Kafka(用于实现高性能数据管道、流分析、数据继承、关键任务应用程序)

阶段二

编程语言:Scala
統一分析引擎:Spark(处理大规模数据)
分布式处理引擎:Flink(有状态地计算有界、无界的数据流)
分布式实时计算系统:Storm(实时分析、线上机器学习,持续计算,分布式RPC、ETL)

原文地址:https://www.cnblogs.com/IamYoung/p/14605503.html