简介
ZooKeeper - 分布式协调服务,负责为其它平台提供高可用(HA)的管理服务
Hadoop - 大数据文件系统+并行计算,包含HDFS、Map-Reduce、Yarn
HBase - 基于Hadoop的列数据库
Flume - 消息队列,多数使用其作为接收端
Kafka - 消息队列,多数使用其作为消费端
Storm - 流式计算框架
Ambari - 管理大数据组件的Web平台
Solr - 基于Lucene的分布式搜索引擎系统,常用作HBase的二级索引。
运行环境前置准备
https://www.cnblogs.com/live41/p/15525826.html
1.ZooKeeper
安装/部署/搭建:
https://www.cnblogs.com/live41/p/15522363.html
工作原理/机制:
https://www.cnblogs.com/raphael5200/p/5285583.html
http://www.360doc.com/content/20/0212/21/68247788_891577418.shtml
2.Hadoop
安装/部署/搭建:
https://www.cnblogs.com/live41/p/15483192.html
工作原理/机制:
https://blog.csdn.net/qq_16681169/article/details/86669454
https://www.cnblogs.com/luengmingbiao/p/11235327.html
3.HBase
安装/部署/搭建:
https://www.cnblogs.com/live41/p/15494279.html
工作原理/机制:
https://blog.51cto.com/u_14048416/2343242
https://zhuanlan.zhihu.com/p/107770811
4.Flume
安装/部署/搭建:
https://www.cnblogs.com/live41/p/15554223.html
工作原理/机制:
https://blog.csdn.net/qq_38265137/article/details/80565079
https://blog.csdn.net/huahuaxiaoshao/article/details/90260150
5.Kafka
安装/部署/搭建:
https://www.cnblogs.com/live41/p/15522443.html
工作原理/机制:
https://blog.csdn.net/yuanlong122716/article/details/104825604
https://www.cnblogs.com/sujing/p/10960832.html
6.Flume+Kafka整合使用
https://www.cnblogs.com/live41/p/15554269.html
7.Storm
安装/部署/搭建:
https://www.cnblogs.com/live41/p/15555719.html
工作原理/机制:
https://blog.csdn.net/u011082453/article/details/82417259
https://www.cnblogs.com/mrchige/p/5907863.html
8.Flume+Kafka+Storm+HBase整合使用
https://www.cnblogs.com/live41/p/15590935.html
9.Ambari
https://www.cnblogs.com/live41/p/14236950.html
10.Solr
(1) 单机版
https://www.cnblogs.com/live41/p/15608048.html
(2) 集群版(使用内置Jetty)
https://www.cnblogs.com/live41/p/15604710.html
(3) 集群版(使用Tomcat)
https://www.cnblogs.com/live41/p/15619863.html
附1:
1.如果只有1台服务器(或台式机)
有2个选择(仅用于学习)
(1) 安装HDP sandbox
https://www.cloudera.com/downloads/hortonworks-sandbox.html
(2) 用Docker安装
https://shortcut.com/developer-how-to/how-to-set-up-a-hadoop-cluster-in-docker
https://blog.csdn.net/qq_28652401/article/details/116327287
https://www.cnblogs.com/xiao987334176/p/13208915.html
https://blog.csdn.net/tian1345/article/details/109511799
附2:
打印日志的时区问题
https://www.cnblogs.com/live41/p/15645298.html
附3:
1.大部分组件的学习路径
下载运行包 -> 上传服务器 -> 解压 -> 配置 -> 运行 -> 编写API代码 -> 测试 -> 调整参数 <-> 学习原理
* 也就是说,先安装/部署跑通组件,然后边学习原理边调整参数观察效果,用理论和实践相互印证
2.进阶使用
在实际预发布环境进行压测和稳定性测试,边测边调整配置参数和代码中的参数。