大数据学习总结03

二、可视化ETL平台——Kettle

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起。

1、入门案例

摘要:跟随着视频教学,做了一些基于kettle的demo

①表的输入、输出组件

案例01:使用kettle将txt文件抽取,然后装载到Excel

案例02:使用kettle将Excel文件抽取,然后导入到MySQL

案例03:使用kettle将MySQL数据库表中的数据抽取,然后装载到另一张表

②插入、更新组件

插入/更新组件能够将Kettle抽取的数据,与某个表的数据进行对比,如果数据存在就更新,不存在就插入。

案例04:修改 t_user中的张三这一行数据,修改age为22,同时,使用Kettle将 t_user1 中的张三这一行数据的age也修改为22。

③删除组件

删除组件能够按照指定条件,将表中的数据删除。

案例05:文本文件包含了要删除的两个用户id,使用Kettle将文本文件中两个ID对应的t_user1表的数据删除。

④排序记录组件

案例06:使用Kettlet_user表中的用户数据,按照年龄升序排序,并将排序后的数据装载到Excel

⑤switch/case组件

案例07:t_user 表中读取所有用户数据,我们需要将性别为男的用户导出到一个Excel、性别为女的导出到另外一个Excel

⑥SQL脚本组件

案例08:使用Kettle执行SQL脚本,将 t_user1 表中的数据清空。

案例09:用户输入指定参数来删除t_user1表中对应数据

⑦JOB(作业)开发

案例10:每5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

⑧基于Linux系统使用kettle

案例11: /root/kettle/user.txt数据抽取到 /root/kettle/out_user.xls 表格中

案例12:5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

2、总结

在学习大数据的过程中,我们可能经常会遇到各种数据的处理,转换,迁移,所以为了以后更好的学习大数据,掌握一种etl工具的使用,必不可少。 

原文地址:https://www.cnblogs.com/MoooJL/p/13509648.html