Spark新闻项目介绍及Linux集群准备

  从今天开始博主后面的已连续博客都是关于一个新闻项目的博客:卡弗卡大数据用户行为(日志)分析项目,从该项目可以学习整个Spark集群的环境配置以及大数据分析技术,完成实时数据分析。


 

 

(一)项目介绍

本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。 不管是零基础的大数据技术爱好者,还是有基础的IT小白,都可以通过此课程快速的上升到一个新的高度。

1.适用人群

有hadoop理论基础的大学生,职场小白,大白

2.涉及技术

Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts

3.项目目标

1)能够独立完成大数据项目的架构设计,安装部署,架构继承与开发、用户可视化交互设计

2)能够独立完成实时在线数据分析

3)能独立完成离线数据分析

 

(二)需求分析与设计

1.案例需求分析

 业务需求:

  1)捕获用户浏览日志信息

  2)实时分析前20名流量最高的新闻话题

  3)实时统计当前线上已曝光的新闻话题

  4)统计哪个时段用户浏览量最高

  5)报表

2.系统架构图设计

 

3.系统数据流程设计

 

4.集群资源规划设计

 

(三)Linux环境准备 

  新建虚拟机的操作这里就不再介绍了,不懂的可以参考博主以前的博文,下面直接进入Linux基本环境配置。

1.通信配置

 

DEFROUTE=yes

PEERDNS=yes          

PEERROUTES=yes    

IPV4_FAILURE_FATAL=yes        

IPV6INIT=no

NAME="System eth0"               

IPADDR=192.168.86.131

BCAST=192.168.86.255 

GATEWAY=192.168.86.2       

NETMASK=255.255.255.0      

DNS1=192.168.86.2

DNS2=8.8.8.8 

  配置完后reboot重启

 

  如上图表示通信配置成功。

2.配置网络映射

  首先配置Linux环境下的网络配置

[root@bigdata-pro01 Desktop]# vim /etc/hosts

 

  然后配置Windows下的网络映射(博文结束后记得补全三个节点的配置)

 

  保存后我们就可以在Windows上通过XShell根据连接到虚拟机,然后进行操作了。

  启动Xshell。新建一个连接如下:

 

  然后我们就能连接上了。

 

3.关闭防火墙

[kfk@bigdata-pro01 ~]$ sudo servivce iptables status

 

We trust you have received the usual lecture from the local System

Administrator. It usually boils down to these three things:

 

    #1) Respect the privacy of others.

    #2) Think before you type.

    #3) With great power comes great responsibility.

 

[sudo] password for kfk:

kfk is not in the sudoers file.  This incident will be reported.

[kfk@bigdata-pro01 ~]$ su

Password:

[root@bigdata-pro01 kfk]# visudo      //配置kfk用户sudo权限及免密码登陆

  然后添加以下内容:

 

  关闭防火墙:

[root@bigdata-pro01 kfk]# su kfk

[kfk@bigdata-pro01 ~]$ sudo service iptables status                     //查看防火墙状态

Table: filter

Chain INPUT (policy ACCEPT)

num  target     prot opt source               destination        

1    ACCEPT     all  --  0.0.0.0/0            0.0.0.0/0           state RELATED,ESTABLISHED

2    ACCEPT     icmp --  0.0.0.0/0            0.0.0.0/0          

3    ACCEPT     all  --  0.0.0.0/0            0.0.0.0/0          

4    ACCEPT     tcp  --  0.0.0.0/0            0.0.0.0/0           state NEW tcp dpt:22

5    REJECT     all  --  0.0.0.0/0            0.0.0.0/0           reject-with icmp-host-prohibited

 

Chain FORWARD (policy ACCEPT)

num  target     prot opt source               destination        

1    REJECT     all  --  0.0.0.0/0            0.0.0.0/0           reject-with icmp-host-prohibited

 

Chain OUTPUT (policy ACCEPT)

num  target     prot opt source               destination        

[kfk@bigdata-pro01 ~]$ sudo service iptables stop                       //关闭防火墙

iptables: Setting chains to policy ACCEPT: filter          [  OK  ]

iptables: Flushing firewall rules:                         [  OK  ]

iptables: Unloading modules:                               [  OK  ]

[kfk@bigdata-pro01 ~]$ sudo service iptables status

iptables: Firewall is not running.

[kfk@bigdata-pro01 ~]$ sudo chkconfig iptables off                     //永久禁用

[kfk@bigdata-pro01 ~]$ sudo vim /etc/sysc

sysconfig/   sysctl.conf 

[kfk@bigdata-pro01 ~]$ sudo vim /etc/sysconfig/selinux                 //配置每次自启动后防火墙都为关闭状态

 

4.卸载自带的JDK

[kfk@bigdata-pro01 ~]$ sudo rpm -qa|grep java

java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64

java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64

tzdata-java-2013g-1.el6.noarch

[kfk@bigdata-pro01 ~]$ sudo rpm -e --nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64 java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64 tzdata-java-2013g-1.el6.noarch

[kfk@bigdata-pro01 ~]$ sudo rpm -qa|grep java

[kfk@bigdata-pro01 ~]$

5.克隆虚拟机并进行相关的配置

  前面我们已经做好了Linux的系统常规设置,接下来需要克隆虚拟机并进行相关的配置。

1)kfk用户下创建我们将要使用的各个目录

  #软件目录

  mkdir /opt/softwares

  #模块目录

  mkdir /opt/modules

  #工具目录

  mkdir /opt/tools

  #数据目录

  mkdir /opt/datas

[kfk@bigdata-pro01 ~]$ cd /

[kfk@bigdata-pro01 /]$ ls

bin  boot  dev  etc  home  lib  lib64  lost+found  media  misc  mnt  net  opt  proc  root  sbin  selinux  srv  sys  tmp  usr  var

[kfk@bigdata-pro01 /]$ sudo mkdir /opt/softwares

[kfk@bigdata-pro01 /]$ cd /opt/

[kfk@bigdata-pro01 opt]$ ls

rh  softwares

[kfk@bigdata-pro01 opt]$ sudo rm -rf ./rh

[kfk@bigdata-pro01 opt]$ ls

softwares

[kfk@bigdata-pro01 opt]$ sudo mkdir momdules

[kfk@bigdata-pro01 opt]$ ls

momdules  softwares

[kfk@bigdata-pro01 opt]$ ll

total 8

drwxr-xr-x 2 root root 4096 Oct 15 14:24 momdules

drwxr-xr-x 2 root root 4096 Oct 15 14:21 softwares

[kfk@bigdata-pro01 opt]$ sudo mkdir tools

[kfk@bigdata-pro01 opt]$ sudo mkdir datas

[kfk@bigdata-pro01 opt]$ ll

total 16

drwxr-xr-x 2 root root 4096 Oct 15 14:25 datas

drwxr-xr-x 2 root root 4096 Oct 15 14:24 momdules

drwxr-xr-x 2 root root 4096 Oct 15 14:21 softwares

drwxr-xr-x 2 root root 4096 Oct 15 14:25 tools

[kfk@bigdata-pro01 opt]$ sudo chown -R kfk:kfk /opt/*              //修改目录用户组为kfk

[kfk@bigdata-pro01 opt]$ ll

total 16

drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:25 datas

drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:24 momdules

drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:21 softwares

drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:25 tools

2)jdk安装

大数据平台运行环境依赖JVM,所以我们需要提前安装和配置好jdk。 前面我们已经安装了64位的centos系统,所以我们的jdk也需要安装64位的,与之相匹配

  a)将jdk安装包通过工具上传到/opt/softwares目录下

  b)解压jdk安装包

    #解压命令

    tar -zxf jdk-7u67-linux-x64.tar.gz /opt/modules/

    #查看解压结果

    ls

[kfk@bigdata-pro01 opt]$ cd softwares/

[kfk@bigdata-pro01 softwares]$ rz

-bash: rz: command not found

[kfk@bigdata-pro01 softwares]$ sudo yum -y install lrzsz

  安装完成后用sudo rz命令上传JDK

 

  解压安装:

[kfk@bigdata-pro01 softwares]$ ls

jdk-8u60-linux-x64.tar.gz

 [kfk@bigdata-pro01 softwares]$ tar -zxvf jdk-8u60-linux-x64.tar.gz -C/opt/momdules/

c)配置Java 环境变量

[kfk@bigdata-pro01 momdules]$ vi /etc/profile(在末尾添加以下内容)

export JAVA_HOME=/opt/modules/jdk1.8.0_60

export PATH=$PATH:$JAVA_HOME/bin 

d)查看Java是否安装成功

[kfk@bigdata-pro01 momdules]$ source /etc/profile   //使配置文件生效

[kfk@bigdata-pro01 momdules]$ java -version

java version "1.8.0_60"

Java(TM) SE Runtime Environment (build 1.8.0_60-b27)

Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)

3)克隆虚拟机

[kfk@bigdata-pro01 momdules]$ sudo halt   //关掉服务器

  在克隆虚拟机之前,需要关闭虚拟机,然后右键选中虚拟机——》选择管理——》选择克隆——》选择下一步——》选择下一步——》选择创建完整克隆,下一步——》选择克隆虚拟机位置(提前创建好),修改虚拟机名称为Hadoop-Linux-pro-2,然后选择完成即可。

具体过程可参加博文:虚拟机克隆及网络配置

  然后使用同样的方式创建第三个虚拟机Hadoop-Linux-pro-3。

4)修改克隆虚拟机配置

  克隆完虚拟机Hadoop-Linux-pro-2和Hadoop-Linux-pro-3之后,可以按照Hadoop-Linux-pro-1的方式配置好ip地址、hostname,以及ip地址与hostname之间的关系。

  第二台机子IP修改为192.168.86.152,第三台机子IP修改为192.168.86.153(具体网络配置参考博文虚拟机克隆及网络配置

 更改主机名

 

  Reboot重启之后发现hostname已经更改了。

 在三台机器都加上域名映射

 

   至此,该项目所需要三节点集群基础环境就全部搭建完了,下一次将介绍如何在此环境上布置Hadoop2.x分布式集群。


以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!同时也欢迎转载,但必须在博文明显位置标注原文地址,解释权归博主所有!

原文地址:https://www.cnblogs.com/zimo-jing/p/9792287.html