如何使用数据质量和模糊匹配


什么是数据质量(Data Profiling)?

数据质量是PowerBI 10月更新的新功能,我们可以通过他查看数据的整体情况和结构,能反映出数据的质量好坏,目前只能在10月Desktop版本中可以看到。而且一次只能预览到1000行的数据质量,相信PowerBI很快将预览到更多的数据质量。

开启数据质量预览功能

数据质量是(2018年10月)的预览功能。在选项设置中打开它。

 

打开选项,点击预览功能,再勾选启用列分析,点击确认后,我们需要重启一下PowerBIDesktop,这样他的功能就开始生效了。 

加载和配置一些数据

我们通过Excel快速加载一些数据,然后选择编辑启动Power Query。

 

进入PowerQuery,我们可以看到标题底部多了一条横线,这是数据质量分析第一个功能。红色表示错误,灰色表示空白,绿色表示正常。

接下来我们要做的是,进入视图菜单并打开列分发,如下图所示,我们可以到数据质量分析的条形图。这里统计着数据的重复性和唯一性,这是数据质量的第二个功能。

再接着,我们打开列质量,我们可以看到下图,新的一横。里面有提示有效的、错误的、空的数据质量占比。这是数据质量分析的第三个功能。

通过上面3个功能,我们可以快速的见解到我们的数据质量是不是很健康。可以帮助我们改善我的模型健康程度。

模糊合并(Fuzzy Matching)

模糊合并是一种将两个表连接在一起的方法,但不是在完全匹配条件上,而是在相似性阈值上做匹配。

有时候我们会遇到这样的问题,比如下图,我们的部门名称,有时候因为录入的问题导致不一致,但是这些数据又是有效的,单独通过部门匹配无法全部匹配出来。下面我们可以通过模糊合并,把这些有效数据合并出来。

 

同样的,我们需要先打开设置里面的选择,然后点击预览功能,勾选启用模糊合并,再重启 PowerBI Desktop 这样我们的功能才能生效。

然后我们导入一下数据,启动Power Query.

然后我们在开始里面。找到合并查询

打开我们的合并查询,现在我们看到我们的销售表,我们看到了部门,下面我们选择我们的部门表。

 

加载部门表后,我们选择销售部门这一列,然后再选择部门表的部门这一列。点击确认,开始匹配。

匹配完成后,我们并没有直接看到我们想要的数据,我们需要点击列的右上角,选择展示的列名称,我们选择部门组长。

确认后,我们可以看到以下图。

为了更直观看对比,我们把组长的部门也带出来,我们看到只有赵豆组长的部门能匹配到,其他匹配为空。

接下里,我们尝试模糊匹配看看。同样的操作,打开合并查询,选择对应的部门列,接下里我们要勾选使用模糊匹配。然后阀值设置0.9。

 

确认后,我们再设置好列,现在我们对比看看。部门跟部门都匹配对上了,假如这些都是有效的数值,那么你可以通过模糊合并把这些数据合并起来。

选项

可接受的价值

描述

阈值

0.00~1.00

如果两个文本值的相似度大于阈值,则将其视为成功匹配。值1.00表示完全匹配。

忽略大小写

真假

如果你希望相似度算法无论大小写字母是否有效,请选择此选项。

忽略空间

真假

如果你希望相似度算法无论文本中的空格数如何都能工作,请选择此选项。

最大匹配数

数字正值0~2147483647

可以与一个值匹配的行数。

转型表

这就像一个映射表,让我们稍后在这篇文章中查看它。它为你提供了使用自己的映射表的选项。该表应至少有两列“To”和“From”。


 1.Power BI免费下载:http://www.yeacer.com/

    Microsoft Power BI Desktop中文最新版:下载地址

2.欢迎加入的Power BI技术群,目前正在学习阶段,有兴趣的朋友可以一起学习讨论。 

   Power Data技术交流群:702966126 (验证注明:博客园Power BI) 

   更多精彩内容请关注微信公众号:悦策PowerBI          


如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!欢迎各位转载,作者博客:https://www.cnblogs.com/yeacer/ 
Fancy
原文地址:https://www.cnblogs.com/yeacer/p/9910435.html