(4)pyspark---dataframe清理 1、交叉表(crosstab): pandas中也有,常和pivot_table比较。 查看家庭ID与评分的交叉表: 2、处理缺失值:fillna withColumn:新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型 将缺失值删除:dropna 3、处理重复值 查看有没有重复值存在:distinct().count() 将重复值去除:dropDuplicates() 4、dataframe的agg应用: