Kettle on MaxCompute使用指南

简介： Kettle是一款开源的ETL工具，纯java实现，可以运行于Windows, Unix, Linux上运行，提供图形化的操作界面，可以通过拖拽控件的方式，方便地定义数据传输的拓扑。Kettle支持丰富的数据输入输出源，数据库支持Oracle，MySql，DB2等，也支持业界各种开源的大数据系统，例如HDFS, HBase, Cassandra, MongoDB等。本文将介绍如何利用MaxCompute的插件无缝对接阿里云的大数据计算平台——MaxCompute。

本示例使用的工具及驱动版本
Kettle	8.2.0.0-342
MaxCompute JDBC驱动	v3.2.8

Setup

下载并安装Kettle
下载MaxCompute JDBC driver
将MaxCompute JDBC driver置于Kettle安装目录下的lib子目录（data-integration/lib）
启动spoon

Job

我们可以通过Kettle + MaxCompute JDBC driver来实现对MaxCompute中任务的组织和执行。

首先需要执行以下操作：

新建Job
新建Database Connection
JDBC连接串格式为：jdbc:odps:<maxcompute_endpoint>?project=<maxcompute_project_name>
JDBC driver class为：com.aliyun.odps.jdbc.OdpsDriver
Username为阿里云AccessKey Id
Password为阿里云AccessKey Secret
JDBC更多配置见：https://help.aliyun.com/document_detail/161246.html

之后，可以根据业务需要，通过SQL节点访问MaxCompute。下面我们以一个简单的ETL过程为例：

Create table节点的配置如下：

需要注意：

这里Connection需要选择我们配置好的
不要勾选Send SQL as single statement

Load from OSS节点配置如下：

需要注意的点同Create table节点。有关更多Load的用法，见：https://help.aliyun.com/document_detail/157418.html

Processing节点配置如下：

需要注意的点同Create table节点。

原文链接
本文为阿里云原创内容，未经允许不得转载。