python可视化

python可视化

变量分布

hist是直方图的缩写,bins表示有多少个直方图。

df['col'].hist(bins=50, figsize=(12,5),grid=False)
sns.distplot(train['col'])

seaborn会自动拟合一条曲线。

双变量联系

画房屋面积和价格之间的x-y图

sns.jointplot(x='area_house', y='price', data=train, alpha=0.3, size=4)

或是直接查看Pearson系数:

columns = train.columns.values.tolist()
train.corr()['price'][columns].sort_values(ascending=False).plot(
    kind='barh', figsize=(12,6)
)

解析一下,columns是列的名称,train.corr()返回一个DataFrame,里面全是corr,
选出其中的一个Series: train.corr()['price'][columns],排序以后,再画图。

离散变量和连续变量之间的关系

离散值对连续取值的影响程度。

比如构造二值,判断这个构造合不合理,就是看这个二值有没有区分度。

from scipy.stats import pointbiserialr
plt.figure(figsize=(15,6)) # 设置sns要画的大小
sns.boxplot(y='repaired', x = 'price', data=train, orient='h') # 

会自动根据分的类计算不同类的箱线图。

原文地址:https://www.cnblogs.com/ticlab/p/15391338.html