数据清洗

脏数据的特征

每个与数据打交道的人都应该听说过“脏数据”(dirty data)一词。脏数据会破坏数据集的完整性,它的某些特征是不完整,不准确,不一致,或者重复的。有必要指出的是,数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进,垃圾出”(Garbage in, garbage out.)这句话了。

不完整

“不完整”是指,有些必要特征空缺。例如,假设你的任务是预测房价,而“房子的区域”对于良好的预测至关重要,但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了,并且你的模型也可能表现欠佳。

不一致

“不准确”和“不一致”就是指,技术上来说数值是正确的,但在具体语境下却是错误的。例如,当一名员工更改了自己的地址,并且未更新,又或者,某项数据有很多版本,但数据科学家拿到的是旧版。

重复

“重复”是一个常见的问题。这里作者分享了一个以前在电子商务公司工作时发生的事情。“按照计划,当访问者单击“收取收据”按钮时,网站会向服务器发送一个响应,这就使得我们能够计数已收取了收据的用户数量。该网站运行良好,直到一天某个变化发生了,但我对此一无所知。前端开发人员添加了另一个响应,在有人成功收取了收据时发送。理由是某些收据可能短缺,他们想记下单击了该按钮以及收取了收据的访问者。那时,两个响应会被发送到同一日志表。我看着我的报表工具,发现收据的数量似乎在一夜之间翻了一番!因为我前一天部署了一个模型,所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢,后来才意识到只是因为重复计算而已!”

数据科学家是个性感的工作?我信你个鬼!

原文地址:https://www.cnblogs.com/vvlj/p/12598479.html