数据科学:待学习的内容

pandas.Series 的一些方法:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.corr.html

  1. plt.subplots():将 plt.figure 创建的画板,分割成多个子图(clos——列、rows——行);
  2. plt.figure(figsize=(15,5)):创建一个图形实例,俗称话本,在这个画板上绘制几行几列的图;figsize 表示图形的(宽,高);
  3. sns.barplot():绘制不同Series之间的相关性图
  4. figure、subplot 的使用,参考:https://blog.csdn.net/claroja/article/details/70841382
  5. pd.concat(df1, df2):连接两个DataFrame 数据集;
  6. df1.loc[[0, 2, 3], :]:删除数据 df1的第0、2、3 行;
  7. df1.loc[:, [0, 2, 3]]:删除数据 df1的第0、2、3 列;
  8. df2 = df1.reset_index():将 df1 的每行的引索(Id)保留,以列名做为新的 index,生成新的数据 df2;(一般默认以行做引索)
  9. df3 = df1.reset_index(drop=True):drp = True,删除 df1 的行引索,一列名作为新的 index,生成新的数据 df3;
  10. df1.dtypes(include=None, exclude=None):按类型查看数据 df1 中的其它数据;
  11. df1.dtypes[df1.dtypes == 'object']:查看 df1 数据中,类型为 'object' 类型的数据;
  12. df1.index:返回数据 df1 的引索对象;
  13. df1.index.values:以 array 的形式返回 df1 的引索的值;(多用于获取所有的特征,也就是 df1 的所有列名)
  14. stats.probplot():
  15. DataFrame 中 sort_values():
  16. Seaborn 中的箱型图:
  17. 箱型图:统计学中应用
  18. 四等分点:
  19. 方差齐次验证:如何理解线性回归中的方差齐性
  20. 方差分析:统计学知识;参考百科自学
  21. 协方差:
  22. scipy.stats 模块:
  23. f, p = scipy.stats.f_oneway(sample1, sample2, ...):单向方差分析,入参是分好组的多个 array;
  24. 单向方差分析:计算各组数据间的差异性,统计学知识,参考百科;
  25. df1.isnull():判断 df1 的数据是否为 np.NaN 类型;返回 bool 类型,是则为 True,不是返回 False;
  26. Series1.corr(Series2, method='pearson'min_periods=None):计算 Series1 和 Series2 之间的相关性(不包含数据中的缺失值);(采用了方差的分析思路)参考pandas文档
  27. DataFrame.corr(method='pearson'min_periods=None):计算 DataFrame 的协方差关联程度;
  28. sns.heatmap():绘制热力图;
  29. DataFrame.nlargest(n, 'columns1'):从数据 DataFrame 的 ‘columns1’ 列中,找出数值最大的 n 个数所在行,返回一个新的 DataFrame;
  30. sns.pairplot():绘图
  31. train.sort_values(by='GrLivArea', ascending=False)[:2][['Id', 'GrLivArea', 'SalePrice']]:按 ‘GrLivArea’ 列的数值对 train 从大到小排序(ascending=False 表示从大到小),并且查看排序后的数据集的前 2 行的列名是 ['Id', 'GrLivArea', 'SalePrice'] 的数据;
  32. DataFrame[:n][['columns1', 'columns2', 'columns3']]:查看数据的前 n 行的列名为 ['columns1', 'columns2', 'columns3'] 的数据;
  33. “偏度 - 峰度” 检验法:
  34. 偏度:统计学知识
  35. 峰度:统计学知识;
  36. DataFrame.apply():
  37. dataframe.fillna():
  38. Series.to_dict():
  39. DataFrame.gtoupby():
  40. 学习《Python 科学计算》:做数据处理的;
原文地址:https://www.cnblogs.com/volcao/p/9535294.html