Data Profiling Task

Data Profiling Task 是用于收集数据的Metadata的Task,在使用ETL处理数据之前,应该首先检查数据质量,对数据进行分析,这将对Table Schema的设计结构和生成ETL的方式产生不可估量的影响。

Data Profiling Task 输出XML格式的数据文件,并能通过Open Profile Viewer 查看输出结果。

一,属性配置 

1,General Tab

可以将Task产生的结构化输出保存到文件中,便于对数据质量进行深入的分析,Destination 就是输出结果保存的Path。

2,Profile Requests Tab

Profile Type 共有8个,分别是检查不同类型的数据质量,非常有用。
1,Candidate key Profile Request

  检查一列或一组列,以确定数据集用于唯一Candidate key的可能性,即check 数据列和数据列组合的唯一性。
2,Column Length Distribution Profile Request

  分析某一列的所有数据,用于确定数据列长度的分布信息
3,Column Null Ration Profile request

  检查某一列中NULL值的比例
4,Column Pattern Profile request

  将正则表达式引用到某一字符串列中,从而确定数据的通过/失败率。
5,Column Statistics Profile Request

  仅适用于数值,日期,时间类型的列,分析所有数据行,提供列值的统计信息:最大值,最小值,平均值和标准方差(列值与平均值的平均方差)
6,Column value Distribution Profile Request

  分析所有数据行,提供列值的分布信息
7,Functional Dependency Profile Request

  分析两个数据列(决定列和依赖列)之间的依赖关系
8,Value Inclusion Profile Request

  确定某一列中的所有值是否全部包含在一个单独的查询或表中,用于check 外键 关系。

二,配置Profile Request

有两种配置Profile Request的方式,第一种在General Tab中,使用 Quick Profile。

第二种就是在Profile Requests Tab中,逐个配置Profile Type。

3,查看数据质量

在General Tab中使用Open Profile Viewer 查看输出结果,分析数据质量。

在该Task执行成功之后,会将结果保存在General Task中设置的Destination 文件中,内容是XML文档。

推荐阅读:

微软BI 之SSIS 系列 - 使用 SQL Profilling Task (数据探测) 检测数据源数据

原文地址:https://www.cnblogs.com/ljhdo/p/5511274.html