Apache Kafka简介与安装(二)

Kafka在Windows环境上安装与运行

简介

Apache kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统,作为hadoop生态系统的一部分,被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎。

特性

高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒
可扩展性:kafka集群支持热扩展
持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)
高并发:支持数千个客户端同时读写

应用场景

1.日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、Hbase、Solr等。
2.消息系统:解耦和生产者和消费者、缓存消息等。
3.用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过

4.订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。
5.运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。
6.流式处理:比如spark streaming和storm
7.事件源

安装
1.安装JDK

关于JDK的安装及环境变量配置,这里就不赘述了。不清楚的可以查看JDK安装与环境变量配置。(建议下载Oracle官方发布的Java,下载地址是:http://www.java.com/download/)。

2.安装Zookeeper

先从Zookeeper官网下载Zookeeper安装包。

下载完成之后, 在D盘新建一个bigData目录(D:igData),用于作为安装zookeeper和kafka的目录,直接解压zookeeper安装包。注意:路径中最好不要出现空格,比如D:Program Files,尽量别用,运行脚本时会有问题。

3.配置Zookeeper

a. 进入zookeeper的相关设置所在的文件目录,例如本文的:D:igDatazookeeper-3.4.10conf,将zoo_sample.cfg重命名为zoo.cfg。打开zoo.cfg,修改配置如下:

注:此处只是修改dataDir=/tmp/zookeeper的配置。

b. 配置zookeeper环境变量:

     ZOOKEEPER_HOME=D:igDatazookeeper-3.4.10

    编辑系统变量中的path变量,增加%ZOOKEEPER_HOME%in

此时zookeeper已经配置完成,打开cmd,输入zkserver,运行zookeeper,运行结果如下:

4.安装Kafka

 首先从Kafka官网http://kafka.apache.org/downloads下载Kafka安装包。(要下载Binary downloads这个类型,不要下载源文件,方便使用)

 修改Kafka配置文件:

   a. 修改config目录下的server.properties文件,修改log.dirs=D:/bigData/kafka_2.11-1.1.0/kafka-logs 。

       注:在server.properties文件中,zookeeper.connect=localhost:2181代表kafka所连接的zookeeper所在的服务器IP以及端口,可根据需要更改。本文在同一台机器上使用,故不

      用修改。

   b.修改config目录下的log4j.properties文件,修改log4j.appender.kafkaAppender.File=D:/bigData/kafka_2.11-1.1.0/logs/server.log

       

        

      其他地方暂时先不用修改,kafka会按照默认配置,在9092端口上运行,并连接zookeeper的默认端口2181。

运行Kafka

 :在启动kafka服务器前,必须确保Zookeeper实例已经在运行,因为kafka的运行是需要zookeeper这种分布式应用程序协调服务。

进入kafka安装目录D:igDatakafka_2.11-1.1.0,按下shift+鼠标右键,选择"在此处打开命令窗口",打开命令行,在命令行中输入:.inwindowskafka-server-start.bat .configserver.properties回车。正常启动界面如图:

注意:windows下kafka启动报错,找不到或无法加载主类 FilesJavajdk1.8.0_121libdt.jar;C:Program的问题。

解决方法:

 打开路径D:igDatakafka_2.11-1.1.0inwindows 下的文件kafka-run-class.bat,搜索-cp %CLASSPATH%,修改成-cp "%CLASSPATH%" 

验证kafka

创建主题(Topic)

  1. 创建主题,命名为"test2018",replicationfactor=1(因为只有一个kafka服务器在运行)。可根据集群中kafka服务器个数来修改replicationfactor的数量,以便提高系统容错性等。
  2. 在D:igDatakafka_2.11-1.1.0inwindows目录下打开新的命令行,输入命令:kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test2018回车。

         

此时Topic创建完成,可以在kafka安装目录查看到该topic对应的目录。

       

创建生产者(producer)

  1. 在D:igDatakafka_2.11-1.1.0inwindows目录下打开新的命令行,输入命令:kafka-console-producer.bat --broker-list localhost:9092 --topic test2018 回车。(该窗口不要关闭)

         

创建消费者(consumer)

  1. 在D:igDatakafka_2.11-1.1.0inwindows目录下打开新的命令行,输入命令:kafka-console-consumer.bat --zookeeper localhost:2181 --topic test2018回车。

         

 现在生产者、消费者均已创建完成。在生产者命令行窗口输入信息,观察消费者命令行窗口。

以上为kafka在windows下的安装和基本的使用。

其实新版本的Kafka已经自带zookeeper。Kafka使用zookeeper作为其分布式协调框架,很好的将消息生产、消息存储、消息消费的过程结合在一起。同时借助zookeeper,kafka能够生产者、消费者和broker在内的所以组件在无状态的情况下,建立起生产者和消费者的订阅关系,并实现生产者与消费者的负载均衡。

因此,在上边步骤中,我们可以不安装zookeeper,直接修改Kafka的config目录中(D:igDatakafka_2.11-1.1.0config)的zookeeper.properties文件

#dataDir=/tmp/zookeeper
dataDir=D:/bigData/kafka_2.11-1.1.0/data/zookeeper

在D:igDatakafka_2.11-1.1.0inwindows目录下打开新的命令行,输入命令:zookeeper-server-start.bat ../../config/zookeeper.properties回车。同样可以启动zookeeper。

    

原文地址:https://www.cnblogs.com/guanzhyan/p/8920915.html