sqoop

版权声明：本文为yunshuxueyuan原创文章。
如需转载请标明出处： http://www.cnblogs.com/sxt-zkys/
QQ技术交流群：299142667

sqoop

Apache Sqoop是用来实现结构型数据（如关系数据库）和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输，同时也借助MapReduce实现了容错。

sqoop支持的数据库：

Database	version	--direct support?	connect string matches
HSQLDB	1.8.0+	No	jdbc:hsqldb:*//
MySQL	5.0+	Yes	*jdbc:mysql://*
Oracle	10.2.0+	No	jdbc:oracle:*//
PostgreSQL	8.3+	Yes (import only)	*jdbc:postgresql:/*

通过sqoop help命令查看sqoop帮助

import（将关系数据库迁移到HDFS上）

[例1] 将mysql中的sds表导入HDFS中

sqoop import

--connectjdbc:mysql://node01/test

--username root -password passwd

--table sds

[例2] 将mysql中的sds，指定的列表导入HDFS中

sqoop import

--connect jdbc:mysql://node01/test

--username root -password 123

--table sds

--columns "SD_ID,CD_ID,LOCATION"

[例3] 将整个数据库中的表全部导入到hdfs上

import-all-tables命令

sqoop import-all-tables

--connect jdbc:mysql://node01/test

--username root -password 123

[例4] 指定导出文件为SequenceFiles，文件命名为com.ctrip.sds

sqoop import

--connect jdbc:mysql://node01/test

--username root -password 123

--table psn

--class-name com.ctrip.psn --as-sequencefile

[例5] 导入文本时可以指定分隔符

sqoop import

--connect jdbc:mysql://node01/test

--username root -password 123

--table psn

--fields-terminated-by '	'

--lines-terminated-by '
'

--optionally-enclosed-by '"'

[例6] 可以指定过滤条件

sqoop import

--connect jdbc:mysql://node01/test

--username root -password passwd

--table sds

--where "sd_id > 100"

--m设置并行数据，即map的数据，决定文件的个数。

--target-dir设置hdfs上的目标目录。

export（将hdfs上的数据导入到关系数据库中）

[例一] 将HDFS中数据导入到mysql中的sds表

sqoop export

--connect jdbc:mysql://node01/test

--username root -password 123 

--table psn 

--export-dir /user/root/psn

mysql数据库的sds表需要先把表结构创建出来，否则export操作会直接失败。

[例二] 将关系数据库表导入到hive表中

create-hive-table

sqoop create-hive-table

--connect jdbc:mysql://node01/test

--username root --password 123

--table psn

--hive-table sds_bak

默认sds_bak是在default数据库的。

这一步需要依赖HCatalog，需要先安装HCatalog，否则报错。

list-databases列出一台server上可用的数据库

sqoop list-databases

--connect jdbc:mysql://node01/

--username root -password 123

list-tables列出一个数据库中的表

sqoop list-tables

--connect jdbc:mysql://node01/test

--username root -password 123

codegen：

将关系数据库表映射为一个java文件、java class类相关的jar包

sqoop codegen

--connect jdbc:mysql://node01/test

--username root -password 123

--table psn

eval用户可以很快的使用sql语句对数据库进行操作。

sqoop eval

--connect jdbc:mysql://node01/test 

--username root -password 123 

--query "SELECT * FROM psn LIMIT 10"

job用来生成sqoop任务。

sqoop job

--create myjob

-- import

--connect jdbc:mysql://node01/test

 --username root -password 123 

--table psn -m 1

sqoop job -exec myjob

metastore 配置sqoop job的共享元数据信息，这样多个用户定义和执行sqoop job在这一metastore中。

启动：sqoop metastore

关闭：sqoop metastore –shutdown

存储位置: conf/sqoop-site.xml/sqoop.metastore.server.location

[补充]

由于sqoop是通过map完成数据的导入，各个map过程是独立的，没有事物的概念，可能会有部分map数据导入失败的情况。为了解决这一问题，sqoop中有一个折中的办法，即是指定中间staging表,成功后再由中间表导入到结果表。

--staging-table <staging-table-name>staging表结构也是需要提前创建出来

sqoop export

--connect jdbc:mysql://192.168.81.176/sqoop

--username root -password passwd

--table sds

--export-dir /user/guojian/sds

--staging-table sds_tmp

[注]在使用 –direct,--update-key或者--call存储过程的选项时，staging中间表是不可用的。

验证结果：

（1）数据会首先写到sds_tmp表，导入操作成功后，再由sds_tmp表导入到sds结果表中，同时会清除sds_tmp表。

（2）如果有map失败，则成功的map会将数据写入tmp表，export任务失败，同时tmp表的数据会被保留。

（3）如果tmp中已有数据，则此export操作会直接失败，

--clear-staging-table 指定在执行前清除中间表。

版权声明：本文为yunshuxueyuan原创文章。
如需转载请标明出处： http://www.cnblogs.com/sxt-zkys/
QQ技术交流群：299142667