集群搭建问题

Hadoop 2.6 CDH5.7.0

下载地址：http://archive.cloudera.com/cdh5/cdh/5

提供的镜像文件也遇到和我自己配置一样的问题

17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException

JDK：

其实只需要配置JAVA_HOME

下载的是Java7的51版本

linux系统本机配置：

ip映射关系

ssh免密登陆

Hadoop参数配置：

etc/hadoop目录下：

hadoop-env.sh core-site.xml hdfs-site.xml看官方文档修改

Hadoop-env.sh配置JAVA_HOME

core-site.xml

配置hadoop端口号。2.0版本为8020

改tmp保存的位置，不能让其重启后自动删除

hdfs-site.xml

配置副本系数

配置tmp路径

格式化HDFS

只在第一次执行，因为每次执行会清空HDFS的数据

bin/hdfs namenode -format

启动HDFS

sbin/start-dfs.sh

Hadoop目录的相关：

bin目录是客户端相关的脚本

etc是配置相关

sbin是服务器相关

验证是否启动成功：

jps：

NN、DN、SNN（Second NameNode）

浏览器：

50070端口访问

YARN配置：

配置yarn-site.xml和mapred-site.xml

验证是否启动：

jps：

RM、NM

浏览器：

8088端口

启停：

sbin/start-yarn.sh stop-yarn.sh

Hive配置：

1.2.1版本

hive-env.sh 配置HADOOP_HOME路径

hive-site.xml 配置：

四个参数：my sql URL（存放元数据的数据库）、jdbc connecter、用户名、密码

拷贝jdbc driver到lib

启动：

bin/hive

编译Spark

scala版本2.11.8

用Maven编译的前置要求：

需要的Maven版本（Spark官网上看）
改Maven的使用内存

Maven编译Spark的命令（官网都有）

对pom.xml要有一定的了解里面的hadoop、yarn、Hive、Thrift server所对应的参数（注意：yarn若和HDFS不同版本，要在配置时加上yarn的版本）

直接用Spark源码中的dev目录下的make-distribution.sh 底层也是通过Maven语句实现（推荐使用）

编译不成功的原因有很多....

部署Spark

启动Spark 在Spark官网的Programing Guide有介绍：

local模式：

spark-shell —master local[n] n为工作线程数

standalone模式：

Spark-env.sh 配置SPARK_MASTER_HOST SPARK_WORKER_CORES MEMORY INSTANCES

启动时可指定core的数目n

还要指定Master的地址

在集群上所有机器上都要部署同样的Spark，比较麻烦

配置Spark SQL

先把hive-site.xml放进spark/conf中

—jars 当需要访问Hive时一定要加入mysql-connector包