centos7.2 64位 hadoop2.7.3 安装 hawq 2.10 随笔啊随笔而已。

在谷歌趋势上看,spark全球火,而hawq除了中国其他地方也比较火,尤其德国芬兰hawq火。有意思的是hawq的开发团队的老大是华人,是北京某著名大学的08届博士!团队也有好多华人

hive的感觉很呆板,spark天马行空但吃内存并发底。pgsql-->greenplum-->hawq,一路走来,hawq算是够了。hawq的缺点是开发麻烦,CPP语言么!spark用scala语言,代码量少,开发快。

hawq是计算存储分离,使用p2p udp快速传输数据。而spark计算和存储一体,RDD尽量放入内存,占用内存大。

还有,hawq应该不用mapred模型,所以这个实验你不配置mapred也没关系了。

我单节点装了hawq,从源代码编译。到20170411:22:17:13:452250 hawq_init:t430:gpadmin-[INFO]:-Init HAWQ cluster successfully
做个笔记。有同行用到了,最好不过。

主要安装资料

Apache Hadoop 2.7.3 – Hadoop: Setting up a Single Node Cluster.

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

但节点安装hadoop,而非local模式.。hadoop应该放在/home下,而非用户目录下,更不应该是/root下。否则很麻烦

因为hawq资源管理配置文件里可以用no,而非yarn,所以yarn可以不装。no表示用hawq自己的资源管理框架。

https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=61320026 这是apache社区的资料。英文。

https://mp.weixin.qq.com/s?__biz=MzAwMzcyMzEyOQ==&mid=2656640507&idx=1&sn=5c4c48d1aa082374ac59adf0ea51a648&pass_ticket=SMMJxi09RPEUiBXeCWsaJyIycUFKmjbaEQNm1IjphVzh5mvtC3ODZpWPI2skvTOp

这是hawq中文的weixin号的文章。

编译完后,hawq被装在/usr/local/hawq下。要求gpadmin对hawq/etc有完全权限。我设owner是gpadmin,然后目录和文件权限777了。

然后hawq init cluster是以gpadmin身份执行的。

下面把配置文件贴下。

[root@t430 hadoop]# cat bash_profile 
export base1=/home
export JAVA_HOME="$base1/hadoop/jdk1.8.0_111"
export SCALA_HOME="$base1/hadoop/scala-2.11.8"
export HADOOP_HOME="$base1/hadoop/hadoop-2.7.3"
export SPARK_HOME="$base1/hadoop/spark-2.1.0-bin-hadoop2.7"
export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$PATH"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

[root@t430 hadoop]# 

 配置文件中spark和scala是另一个里面的,您不需要这两项。

注意,hawq中hdfs 端口认8020,而hadoop2.7.3默认是9000。这个我们改hadoop这边的。

涉及到环境变量自动设置的问题。每次登陆都执行一次source bash_profile不应该吧。可以cat bash_profile>>~/.bashrc ,就是把环境变量内容追加到.bashrc中,用户登陆时会自动初始化。建议把/usr/local/hawq/gree*.sh也追加到bashrc中。

编译hawq要下载很多东西。

make -j8 这个命令有用,虽然名字起的很随意。要用的。用的时候下载了一堆java的东西,又慢,所以配置了maven的aliyun镜像,简直快。
[root@t430 ~]# cat ~/.m2/settings.xml 
<?xml version="1.0" encoding="UTF-8"?>  
<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"   
          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   
          xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0  
                              http://maven.apache.org/xsd/settings-1.0.0.xsd">  
    <mirrors>  
        <mirror>  
            <id>alimaven</id>  
            <name>aliyun maven</name>  
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>  
            <mirrorOf>central</mirrorOf>          
        </mirror>  
        <mirror>      
            <id>ibiblio</id>      
            <mirrorOf>central</mirrorOf>      
            <name>Human Readable Name for this Mirror.</name>      
            <url>http://mirrors.ibiblio.org/pub/mirrors/maven2/</url>      
        </mirror>    
    </mirrors>  
</settings> 
[root@t430 ~]# 

然后注意启动start-dfs.sh之前,要用su hdfs 切换用户到hdfs。否则对应本地目录的所有人是root,可能会有问题。启动完后,切换到gpadmin 启动hawq init cluster。

最近spark冷了,产品没以前那么火,郁闷。我随笔,不懂问我。

原文地址:https://www.cnblogs.com/wifi0/p/6696887.html