大数据组件的安装/部署/搭建及学习路径

简介

ZooKeeper - 分布式协调服务,负责为其它平台提供高可用(HA)的管理服务

Hadoop - 大数据文件系统+并行计算,包含HDFS、Map-Reduce、Yarn

HBase - 基于Hadoop的列数据库

Flume - 消息队列,多数使用其作为接收端

Kafka - 消息队列,多数使用其作为消费端

Storm - 流式计算框架

Ambari - 管理大数据组件的Web平台

Solr - 基于Lucene的分布式搜索引擎系统,常用作HBase的二级索引。

运行环境前置准备

https://www.cnblogs.com/live41/p/15525826.html

1.ZooKeeper

安装/部署/搭建:

https://www.cnblogs.com/live41/p/15522363.html

工作原理/机制:

https://www.cnblogs.com/raphael5200/p/5285583.html

http://www.360doc.com/content/20/0212/21/68247788_891577418.shtml

2.Hadoop

安装/部署/搭建:

https://www.cnblogs.com/live41/p/15483192.html

工作原理/机制:

https://blog.csdn.net/qq_16681169/article/details/86669454

https://www.cnblogs.com/luengmingbiao/p/11235327.html

3.HBase

安装/部署/搭建:

https://www.cnblogs.com/live41/p/15494279.html

工作原理/机制:

https://blog.51cto.com/u_14048416/2343242

https://zhuanlan.zhihu.com/p/107770811

4.Flume

安装/部署/搭建:

https://www.cnblogs.com/live41/p/15554223.html

工作原理/机制:

https://blog.csdn.net/qq_38265137/article/details/80565079

https://blog.csdn.net/huahuaxiaoshao/article/details/90260150

5.Kafka

安装/部署/搭建:

https://www.cnblogs.com/live41/p/15522443.html

工作原理/机制:

https://blog.csdn.net/yuanlong122716/article/details/104825604

https://www.cnblogs.com/sujing/p/10960832.html

6.Flume+Kafka整合使用

https://www.cnblogs.com/live41/p/15554269.html

7.Storm

安装/部署/搭建:

https://www.cnblogs.com/live41/p/15555719.html

工作原理/机制:

https://blog.csdn.net/u011082453/article/details/82417259

https://www.cnblogs.com/mrchige/p/5907863.html

8.Flume+Kafka+Storm+HBase整合使用

https://www.cnblogs.com/live41/p/15590935.html

9.Ambari

https://www.cnblogs.com/live41/p/14236950.html

10.Solr

(1) 单机版

https://www.cnblogs.com/live41/p/15608048.html

(2) 集群版(使用内置Jetty)

https://www.cnblogs.com/live41/p/15604710.html

(3) 集群版(使用Tomcat)

https://www.cnblogs.com/live41/p/15619863.html

附1:

1.如果只有1台服务器(或台式机)

有2个选择(仅用于学习)

(1) 安装HDP sandbox

https://www.cloudera.com/downloads/hortonworks-sandbox.html

(2) 用Docker安装

https://shortcut.com/developer-how-to/how-to-set-up-a-hadoop-cluster-in-docker

https://blog.csdn.net/qq_28652401/article/details/116327287

https://www.cnblogs.com/xiao987334176/p/13208915.html

https://blog.csdn.net/tian1345/article/details/109511799

附2:

打印日志的时区问题

https://www.cnblogs.com/live41/p/15645298.html

附3:

1.大部分组件的学习路径

下载运行包 -> 上传服务器 -> 解压 -> 配置 -> 运行 -> 编写API代码 -> 测试 -> 调整参数 <-> 学习原理

* 也就是说,先安装/部署跑通组件,然后边学习原理边调整参数观察效果,用理论和实践相互印证

2.进阶使用

在实际预发布环境进行压测和稳定性测试,边测边调整配置参数和代码中的参数。

原文地址:https://www.cnblogs.com/live41/p/15591449.html