数据清洗

脏数据的特征

每个与数据打交道的人都应该听说过“脏数据”（dirty data）一词。脏数据会破坏数据集的完整性，它的某些特征是不完整，不准确，不一致，或者重复的。有必要指出的是，数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进，垃圾出”（Garbage in, garbage out.）这句话了。

不完整

“不完整”是指，有些必要特征空缺。例如，假设你的任务是预测房价，而“房子的区域”对于良好的预测至关重要，但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了，并且你的模型也可能表现欠佳。

不一致

“不准确”和“不一致”就是指，技术上来说数值是正确的，但在具体语境下却是错误的。例如，当一名员工更改了自己的地址，并且未更新，又或者，某项数据有很多版本，但数据科学家拿到的是旧版。

重复

“重复”是一个常见的问题。这里作者分享了一个以前在电子商务公司工作时发生的事情。“按照计划，当访问者单击“收取收据”按钮时，网站会向服务器发送一个响应，这就使得我们能够计数已收取了收据的用户数量。该网站运行良好，直到一天某个变化发生了，但我对此一无所知。前端开发人员添加了另一个响应，在有人成功收取了收据时发送。理由是某些收据可能短缺，他们想记下单击了该按钮以及收取了收据的访问者。那时，两个响应会被发送到同一日志表。我看着我的报表工具，发现收据的数量似乎在一夜之间翻了一番！因为我前一天部署了一个模型，所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢，后来才意识到只是因为重复计算而已！”

数据科学家是个性感的工作？我信你个鬼！