KETTLE、spoon使用

ETL是Extract”、“ Transform” 、“Load”三个单词的首字母缩写分别代表了抽取、转换、装载、是数据仓库中重要的一环、ETL是数据的抽取清洗转换加载的过程，是数据进入数据仓库进行大数据分析的载入过程，抽取将数据从各种原始的业务系统中读取出来，这是所有工作的前提。转换按照预先设计好的规则将抽取得数据进行转换，使本来异构的数据格式能统一起来。装载将转换完的数据按计划增量或全部导入到数据仓库中。大数据的利器大家可能普遍说是hadoop，但是大家要知道如果我们不做预先的清洗和转换处理，我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析，垃圾数据会导致我们的磁盘占用量会相当大，这样无形中提升了我们的硬件成本（硬盘大，内存小处理速度会很慢，内存大cpu性能低速度也会受影响），因此虽然hadoop理论上解决了烂机器拼起来解决大问题的问题，但是事实上如果我们有更好的节点速度必然是会普遍提升的，因此ETL在大数据环境下仍然是必不可少的数据交换工具。目前流行的数据进入仓库的过程有两种形式，一种是进入数据库后再进行清洗和转换，另外一条路线是首先进行清洗转换再进入数据库，我们的ETL属于后者。ETL是数据整合解决方案。目前的运行应用系统是用户花了大部分精力和构建的、系统中的数据时非常宝贵的、是不可代理的系统、它的存在是为了解决原始数据库中的数据来源与格式的不同导致的系统实施、数据整合问题。
KETTLE是一款很优秀的开源ELT工具、java编写的、可以在Window、Linux、Unix上运行、KETTLE应用广泛，而且使用方便、抽取高效稳定。仅仅学会使用就可以找到一份不错的工作课程渗透了大数据的一些处理方法，与目前流行的hadoop配合使用。分析KETTLE源码，即使对ETL兴趣不大，至少可以了解国外开源项目的一些源码，并且KETTLE本身也使用了很多开源项目，因此可以从该工具上学到更多东西