23个Pandas方法

23个Pandas核心方法

  1. 读取 CSV 格式
    pd.read_csv(“csv_file”)
    pd.DataFrame.from_csv(“csv_file”)
  2. 读取 Excel
    pd.read_excel("excel_file")
  3. 将 DataFrame 写入 CSV 文件
    df.to_csv("data.csv", sep=",", index=False)
  4. 显示基本的数据集特征信息
    df.info()
  5. 基本的数据集统计信息
    print(df.describe())
  6. 将 DataFrame 输出到一张表
    print(tabulate(print_table, headers=headers))
  7. 列出所有列的名字
    df.columns
  8. 删除缺失数据
    df.dropna(axis=0, how='any')
  9. 替换缺失数据
    df.replace(to_replace=None, value=None)
  10. 检查空值 NaN
    pd.isnull(object)
  11. 删除特征
    df.drop('feature_variable_name', axis=1)
  12. 将目标类型转换为浮点型
    pd.to_numeric(df["feature_name"], errors='coerce')
  13. 将 DataFrame 转换为 NumPy 数组
    df.as_matrix()
  14. 取 DataFrame 的前面「n」行
    df.head(n)
  15. 通过特征名取数据
    df.loc[feature_name]
  16. 对 DataFrame 使用函数
    df["height"].apply(*lambda* height: 2 * height)
    def multiply(x):
     return x * 2
    df["height"].apply(multiply)
  17. 重命名行(重命名第三行)
    df.rename(columns = {df.columns[2]:'size'}, inplace=True)
  18. 取某一行的唯一实体
    df["name"].unique()
  19. 访问子 DataFrame
    new_df = df[["name", "size"]]
  20. 总结数据信息
    # Sum of values in a data frame
    df.sum()
    # Lowest value of a data frame
    df.min()
    # Highest value
    df.max()
    # Index of the lowest value
    df.idxmin()
    # Index of the highest value
    df.idxmax()
    # Statistical summary of the data frame, with quartiles, median, etc.
    df.describe()
    # Average values
    df.mean()
    # Median values
    df.median()
    # Correlation between columns
    df.corr()
    # To get these values for only one column, just select it like this#
    df["size"].median()
  21. 给数据排序
    df.sort_values(ascending = False)
  22. 布尔型索引(过滤size的行,仅显示等于5的行)
    df[df["size"] == 5]
  23. 选定特定的值(选size列,第一行的值)
    df.loc([0], ['size'])

print(df.describe())

原文地址:https://www.cnblogs.com/piaoyangz/p/9552319.html