集群搭建问题

Hadoop 2.6 CDH5.7.0
下载地址:http://archive.cloudera.com/cdh5/cdh/5
 
提供的镜像文件也遇到和我自己配置一样的问题
17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
 
JDK:
其实只需要配置JAVA_HOME
下载的是Java7的51版本
 
linux系统本机配置:
ip映射关系
ssh免密登陆
 
Hadoop参数配置:
etc/hadoop目录下:
hadoop-env.sh core-site.xml hdfs-site.xml看官方文档修改
 
Hadoop-env.sh配置JAVA_HOME 
 
core-site.xml
配置hadoop端口号。2.0版本为8020
改tmp保存的位置,不能让其重启后自动删除
 
hdfs-site.xml
配置副本系数
配置tmp路径
 
格式化HDFS
只在第一次执行,因为每次执行会清空HDFS的数据
bin/hdfs namenode -format 
 
启动HDFS
sbin/start-dfs.sh
 
 Hadoop目录的相关:
bin目录是客户端相关的脚本
etc是配置相关
sbin是服务器相关
 
验证是否启动成功:
jps:
NN、DN、SNN(Second NameNode)
浏览器:
50070端口访问
 
YARN配置:
配置yarn-site.xml和mapred-site.xml 
验证是否启动:
jps:
RM、NM
浏览器:
8088端口
启停:
sbin/start-yarn.sh stop-yarn.sh
 
Hive配置:
1.2.1版本
hive-env.sh 配置HADOOP_HOME路径
hive-site.xml 配置:
四个参数:my sql URL(存放元数据的数据库)、jdbc connecter、用户名、密码
拷贝jdbc driver到lib
 
启动:
bin/hive
 
编译Spark
scala版本2.11.8
用Maven编译的前置要求:
  1. 需要的Maven版本(Spark官网上看)
  2. 改Maven的使用内存
Maven编译Spark的命令(官网都有 )
对pom.xml要有一定的了解 里面的hadoop、yarn、Hive、Thrift server所对应的参数(注意:yarn若和HDFS不同版本,要在配置时加上yarn的版本)
 
直接用Spark源码中的dev目录下的make-distribution.sh 底层也是通过Maven语句实现(推荐使用)
 
 编译不成功的原因有很多....
 
部署Spark
 
启动Spark 在Spark官网的Programing Guide有介绍:
local模式:
spark-shell —master local[n] n为工作线程数 
 
 
standalone模式:
Spark-env.sh 配置SPARK_MASTER_HOST SPARK_WORKER_CORES MEMORY INSTANCES 
启动时可指定core的数目n
还要指定Master的地址
在集群上所有机器上都要部署同样的Spark,比较麻烦
 
配置Spark SQL
先把hive-site.xml放进spark/conf中
 —jars 当需要访问Hive时一定要加入mysql-connector包
原文地址:https://www.cnblogs.com/kinghey-java-ljx/p/8543123.html