离群异常值与重复数据检测

  离群点判断:离群异常值指的是偏离绝大多数样本值的少数样本取值,所以离群是一个相对的概念,不能通过具体量来判断某一个样本是否离群,需要从整体出发找到相对异常的样本。所以离群点的判断方式多样,总之具体要求为相对整体异常。

  

  重复数据检测:重复数据指的是两组数据相类似,

    (1) 数据记录描述同一对象:比如一个人的收货地址可能有多个,但是其都是表示同一个人。

    (2) 数据记录相同:如两条数据记录的是同一内容。只是可能表述不同或者部分数据出现偏差。

    使用程序进行重复数据检测时,可以利用数据行为键生成值从而构成键值对,然后通过将各行对应的键进行对比,从而判断两数据行的相似度,此方法需要键值对生成函数以及相似度计算函数。

原文地址:https://www.cnblogs.com/yuncaige/p/13306462.html