数据仓库知识

一.数据仓库的特点

    面向主题 、集成的 、随时间变化 、相对稳定的 、反应历史数据

二.数据仓库构建思想

  •  自上而下(Bill Inmon):唯一数据中心
  •  自下而上(Ralph Kimbal):

三.ETL

  Extract:数据清洗

  Transformation:转换

  Load:加载

 ETL调度目标:

     数据来源:数据库 、数据库文件 、文本文件 、程序生成

     系统数目:单个/多个(过多可以考虑接口实现)

   数据库的类型:同种数据库/多种数据库

ETL调度参数设计

   调度优先级/调度次序/中断标志/回滚标志/调度开始结束时间等

ETL调度日志管理

  文件记录/数据库记录

  作业名称/作业执行开始-结束时间/作业执行结果。异常信息捕获/作业编号等

ETL调度JOB设计

  数据文本文件加载/SQL在程序中调用/存储过程/ETL工具的WORKFLOW

元数据

  • 技术元数据
  • 业务元数据

 ETL程序开发

  •   创建MAPPING
  •   创建流程
  •   数据抽取

数据仓库的结构

Informatica的功能

  • 按照统一的规则集成并提高数据的价值
  • 负责将数据从业务应用数据库中提取 、转换 、并加载到ODS中
  • 负责将ODS中按照主题发布的数据提取 、转换并加载到数据仓库中
  • 按照一定格式,整合 、转换 、汇总 、传输数据

元数据:描述数据的数据

两个server:管理元数据的server,ETL的server

五个Client:

  • PowerCenter Designer  
  • Workflow Manager
  • Workflow Monitor
  • Repository Manager
  • Respository Server Administrator Console

ETL的实现方法

  • 安装Oracle服务器
  • 在数据库下新建用户,管理资料库,用于存放源表和目标表
  • 安装oracle客户端
  • 安装ETL服务器
  • 安装ETL客户端
  • 配置数据源

步骤:

  源表  目标表    ETL规则(Mapping) 实例化session

创建workFlow(复杂的流程控制)    监测最终的任务结果 

安装JDK(java)   、安装oracle10g Server 、安装oracle 10g client

   

原文地址:https://www.cnblogs.com/Jims2016/p/5627025.html