观影大数据分析(2)

4 日期值处理

将 release_date 列转换为日期类型

5 筛选数据

票房、预算、受欢迎程度、评分为0的数据应该去除

评分人数过低的电影,评分不具有统计意义,筛选评分人数大于50的数据

6 json 数据转换 **说明:**genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是 json 数据,需要处理为列表进行分析。

处理方法: json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串

7 数据备份

#数据备份

org_df = df.copy()

df.reset_index().to_csv("TMDB_5000_Movie_Dataset_Cleaned.csv")

原文地址:https://www.cnblogs.com/SirNie/p/15690089.html