Sqoop 安装与基本操作

Sqoop简介

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

Sqoop原理

将导入或导出命令翻译成mapreduce程序来实现。

在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

Sqoop安装

安装Sqoop的前提是已经具备Java和Hadoop的环境。

1) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中

2) 解压sqoop安装包到指定目录,如:

$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

3)修改配置文件:

Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中,重命名配置文件:

$ mv sqoop-env-template.sh sqoop-env.sh

修改配置文件 sqoop-env.sh (未安装zookeeper,hbase,hive不需要添加相关配置):

  export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2

  export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2

  export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10

  export ZOOCFGDIR=/opt/module/zookeeper-3.4.10

  export HBASE_HOME=/opt/module/hbase

  export HIVE_HOME=/opt/module/hive

4) 拷贝JDBC驱动:

拷贝jdbc驱动到sqoop的lib目录下,如:

$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

5) 验证Sqoop安装是否成功:

我们可以通过某一个command来验证sqoop配置是否正确:

$ bin/sqoop help

出现一些Warning警告(警告信息已省略),并伴随着帮助命令的输出信息,表示安装成功。

6) 开启MySQL远程访问权限 允许远程连接

登陆mysql数据库    

mysql -u root -p;

切换数据库

  mysql> use mysql; 

将host字段的值改为%就表示在任何客户端机器上能以root用户登录到mysql服务器,建议在开发时设为%。   

update user set host =%where user = ’root’;

刷新权限分配

flush privileges;

7) 测试Sqoop是否能够成功连接数据库

 bin/sqoop list-databases --connect jdbc:mysql://192.168.2.198:3306/ --username root --password 000000

出现mysql所有数据库库名称:

information_schema

metastore

mysql

sys

world

Sqoop的简单使用案例

(1) 导入数据

在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HBASE)中传输数据,叫做:导入,即使用import关键字。

RDBMS到HDFS

 1.全部导入

$ bin/sqoop import  

--connect jdbc:mysql://192.168.2.198:3306/company

--username root

--password 000000

--table staff

--target-dir /user/company

--delete-target-dir

--num-mappers 1 

--fields-terminated-by " "

 2.部分导入

$ bin/sqoop import

--connect jdbc:mysql://192.168.2.198:3306/company

--username root

--password 000000

--target-dir /user/company

--delete-target-dir

--num-mappers 1

--fields-terminated-by "	"

--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

 3.查询导入结果

hdfs dfs -ls /user/company

结果:

Found 2 items

-rw-r--r--   2 root supergroup     0 2018-11-13 01:22 /user/company /_SUCCESS

-rw-r--r-- 2 root supergroup 367 2018-11-13 01:22 /user/company/part-m-00000

RDBMS到Hbase

$ bin/sqoop import 
--connect jdbc:mysql://192.168.2.198:3306/company 
--username root 
--password 000000 
--table company 
--columns "id,name,sex" 
--column-family "info" 
--hbase-create-table 
--hbase-row-key "id" 
--hbase-table "hbase_company" 
--num-mappers 1 
--split-by id

提示:sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能

解决方案:手动创建HBase表

hbase> create 'hbase_company,'info'

 4.在HBase中scan这张表得到如下内容

hbase> scan ‘hbase_company’

(2)导出数据

在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字。

1. HIVE/HDFS到RDBMS

$ bin/sqoop export 

--connect jdbc:mysql://192.168.2.198:3306/company 

--username root 

--password 000000 

--table staff 

--num-mappers 1 

--export-dir /user/hive/warehouse/staff_hive 

--input-fields-terminated-by "	"

提示:Mysql中如果表不存在,不会自动创建

2. HBASE到RDBMS

从Hbase导入MySQL数据库

该过程需要借助Hive,需要使用Hive的托管表和外部表。

①、在mysql在建立相应的表

create table employee( rowkey int(11) not null,id int(11) not null,name varchar(20)) charset=utf8;

②、建立Hive的外部表并关联hbase

建表语句:

create table h_employee( key int, id int, name string )

stored by "org.apache.hadoop.hive.hbase.HBaseStorageHandler"

with serdeproperties("hbase.columns.mapping"=":key,info:id,info:name")

tblproperties("hbase.table.name"="employee");

③、建立Hive的托管表

   create table h_employee_export( key int, id int, name string  )

   row format delimited fields terminated by '54'

 其中`row format delimited fields terminated by '54'` 表示Hive托管表中字段之间的分隔符,`54` 是八进制表示形式,十进制为44,ascii为44的符号为逗号。可以改变为其他的符号。

④、将外部表(h_employee)导入到托管表(h_employee_export)

insert overwrite table h_employee_export select * from h_employee;

⑤、从Hive托管表(h_employee_export)导入到MySQL

sqoop export –connect jdbc:mysql://192.168.2.198:3306/ly –username root –password 0987654321 –table employee –bindir /home/ly/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib –export-dir /user/hive/warehouse/h_employee_export/ –mysql-delimiters –input-fields-terminated-by ‘	’
原文地址:https://www.cnblogs.com/ypsy/p/9965028.html