12.09

  1. 1.  导入数据

 

 

2 缺失值处理

 

从上述信息可知,共有记录4803条。

其中release_data有4802条,runtime有4801条,所以缺少3条数据

缺失记录仅____3____条,采取网上搜索,补全信息。

2.1补全release_data

 

Release_data值为空,经过查找缺少数据为2014-06-01

 

 

2.2补全runtime

 

 

 

缺失记录的电影 runtime 分别为____94___min 和 ___81____min。

 

进行runtime补全

3.重复值处理

 

分析结果可知有_____4803_____个不重复的 id,可以认为没有重复数据

4.日期值处理

 

 

分析结果可知已经将release_date列转换为日期类型。

5. 筛选数据

 

票房、预算、受欢迎程度、评分为__0_____的数据应该去除;

评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。

 

此时剩余___2961___条数据,包含__19____个字段

6 json 数据转换

genres,keywords,production_companies,production_countries,cast,crew 这6列都是json数据,需要处理为列表进行分析。

处理方法:

json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串

 

7 数据备份

 

 

 

5.2.1电影类型:

定义一个集合,获取所有的电影类型

 

注意到集合中存在多余的元素:空的单引号,所以需要去除。

 

 

5.2.1.1 电影类型数量(绘制条形图)

 

 

5.2.1.2 电影类型占比(绘制饼图)

 

 

 

5.2.1.3 电影类型变化趋势(绘制折线图)

 

 

5.2.1.4 不同电影类型预算/利润(绘制组合图)

 


5.2.2 电影关键词(keywords 关键词分析,绘制词云图)

 

 

这里会提示你用pip下载安装wordcloud库,下载安装即可。

5.3 when

查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化:

 

用pandas最新版语句

 

5.3.1 电影时长(绘制电影时长直方图)

 

 

5.3.2 发行时间(绘制每月电影数量和单片平均票房)

 

 

5.5 who

5.5.1 分析票房分布及票房 Top10 的导演

 

 

5.5.2 分析评分分布及评分 Top10 的导演

 

 

 

5.6 how

5.6.1 原创 VS 改编占比(饼图)

 

5.6.2 原创 VS 改编预算/利润率(组合图)

 

5.7 how much

5.7.1 计算相关系数(票房相关系数矩阵)

 

 

5.7.2 票房影响因素散点图

 

 

 

原文地址:https://www.cnblogs.com/1329197745a/p/15665100.html