12.09

12.09

1. 导入数据

2 缺失值处理

从上述信息可知，共有记录4803条。

其中release_data有4802条，runtime有4801条，所以缺少3条数据

缺失记录仅____3____条，采取网上搜索，补全信息。

2.1补全release_data

Release_data值为空，经过查找缺少数据为2014-06-01

2.2补全runtime

缺失记录的电影 runtime 分别为____94___min 和 ___81____min。

进行runtime补全

3.重复值处理

分析结果可知有_____4803_____个不重复的 id，可以认为没有重复数据

4.日期值处理

分析结果可知已经将release_date列转换为日期类型。

5. 筛选数据

票房、预算、受欢迎程度、评分为__0_____的数据应该去除；

评分人数过低的电影，评分不具有统计意义，筛选评分人数大于__50___的数据。

此时剩余___2961___条数据，包含__19____个字段

6 json 数据转换

genres,keywords,production_companies,production_countries,cast,crew 这6列都是json数据，需要处理为列表进行分析。

处理方法：

json 本身为字符串类型，先转换为字典列表，再将字典列表转换为，以’,'分割的字符串

7 数据备份

5.2.1电影类型：

定义一个集合，获取所有的电影类型

注意到集合中存在多余的元素：空的单引号，所以需要去除。

5.2.1.1 电影类型数量（绘制条形图）

5.2.1.2 电影类型占比（绘制饼图）

5.2.1.3 电影类型变化趋势（绘制折线图）

5.2.1.4 不同电影类型预算/利润（绘制组合图）

5.2.2 电影关键词（keywords 关键词分析，绘制词云图）

这里会提示你用pip下载安装wordcloud库，下载安装即可。

5.3 when

查看 runtime 的类型，发现是 object 类型，也就是字符串，所以，先进行数据转化:

用pandas最新版语句

5.3.1 电影时长（绘制电影时长直方图）

5.3.2 发行时间（绘制每月电影数量和单片平均票房）

5.5 who

5.5.1 分析票房分布及票房 Top10 的导演

5.5.2 分析评分分布及评分 Top10 的导演

5.6 how

5.6.1 原创 VS 改编占比（饼图）

5.6.2 原创 VS 改编预算/利润率（组合图）

5.7 how much

5.7.1 计算相关系数（票房相关系数矩阵）

5.7.2 票房影响因素散点图

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/1329197745a/p/15665100.html