23个Pandas方法

23个Pandas核心方法

读取 CSV 格式

pd.read_csv(“csv_file”)

pd.DataFrame.from_csv(“csv_file”)

读取 Excel
```
pd.read_excel("excel_file")
```

将 DataFrame 写入 CSV 文件

df.to_csv("data.csv", sep=",", index=False)

显示基本的数据集特征信息
```
df.info()
```
基本的数据集统计信息
```
print(df.describe())
```

将 DataFrame 输出到一张表

print(tabulate(print_table, headers=headers))

列出所有列的名字
```
df.columns
```
删除缺失数据
```
df.dropna(axis=0, how='any')
```
替换缺失数据
```
df.replace(to_replace=None, value=None)
```
检查空值 NaN
```
pd.isnull(object)
```

删除特征

df.drop('feature_variable_name', axis=1)

将目标类型转换为浮点型

pd.to_numeric(df["feature_name"], errors='coerce')

将 DataFrame 转换为 NumPy 数组
```
df.as_matrix()
```
取 DataFrame 的前面「n」行
```
df.head(n)
```
通过特征名取数据
```
df.loc[feature_name]
```

对 DataFrame 使用函数

df["height"].apply(*lambda* height: 2 * height)

def multiply(x):
 return x * 2
df["height"].apply(multiply)

重命名行（重命名第三行）

df.rename(columns = {df.columns[2]:'size'}, inplace=True)

取某一行的唯一实体
```
df["name"].unique()
```
访问子 DataFrame
```
new_df = df[["name", "size"]]
```

总结数据信息

# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

给数据排序
```
df.sort_values(ascending = False)
```
布尔型索引（过滤size的行，仅显示等于5的行）
```
df[df["size"] == 5]
```
选定特定的值（选size列，第一行的值）
```
df.loc([0], ['size'])
```

print(df.describe())