数据整理总结

数据整理总结

收集

根据数据来源及其格式，收集数据的步骤各不相同。
高级收集过程：获取数据（从互联网下载文件、抓取网页、查询 API 等），然后将该数据导入编程环境（例如 Jupyter Notebook）。

评估

评估数据的目的包括：
- 质量：内容问题。低质量数据也称为脏数据。
- 整洁度：使分析难易进行的问题。不整洁数据也称为杂乱数据。条理数据的要求包括：
  1. 每个变量成一列。
  2. 每个观察结果成一行。
  3. 每种观察单位构成一个表格。
评估类型：
- 目测评估：使用你喜欢的软件应用程序（Google 表格、Excel、文本编辑器等）观察数据。
- 编程评估：使用代码来查看数据的特定部分和摘要（例如 pandas 的 head、tail 和 info方法）。

清洗

清洗类型：
- 手动（不推荐，除非问题是一次性出现）
- 编程
编程数据清洗过程：
1. 定义：将评估转换为定义的清洗任务。这些定义也可以作为指令列表，以便其他人（或你自己将来）可以回顾和重现自己的工作。
2. 代码：将这些定义转换为代码并运行。
3. 测试：可视上或使用代码练习数据集，确保清洗操作可顺序进行。
清洗之前，请务必备份原始数据！

重新评估与迭代

清洗后，如有必要，请重新评估和迭代任何数据整理步骤。

存储（可选）

例如，如果将来使用，可将数据存储到文件或数据库中。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/chickenwrap/p/10005364.html