python pandas里面的一些函数及用法

1.pd.set_option()

# 显示所有列
pd.set_option('display.max_columns', None)
pd.set_option('display.max_columns', 5)  #最多显示5列
# 显示所有行
pd.set_option('display.max_rows', None)
pd.set_option('display.max_rows', 10)#最多显示10行
#显示小数位数
pd.set_option('display.float_format',lambda x: '%.2f'%x) #两位
#显示宽度
pd.set_option('display.width', 100)
#
import warnings
warnings.filterwarnings('ignore')  # 关闭运行时的警告
np.set_printoptions(linewidth=100, suppress=True)   # 打印numpy时设置显示宽度,并且不用科学计数法显示
pd.set_option('display.width', 100)   # pandas设置显示宽度
pd.set_option('precision', 1)   # 设置显示数值的精度


2.head()函数

Returns the first or last parts of a vector, matrix, table, data frame or function.  

Since head() and tail() are generic functions, they may also have been extended to other classes.
返回向量、矩阵、表、数据框或函数的前(或者最后)一部分。head()和tail()相似,他们也可能被扩展到其他类

3.get_dummies()函数

get_dummies 是利用pandas实现one hot encode的方式。

one hot encode 的思想是:

将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]

例如:

import pandas as pd
df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'B'],   
            ['blue'  , 'A']])  

df.columns = ['color',  'class'] 
pd.get_dummies(df) 

get_dummies 前:

 get_dummies 后:

 上述执行完以后再打印df 出来的还是get_dummies 前的图,因为你没有写

df = pd.get_dummies(df)

可以对指定列进行get_dummies

pd.get_dummies(df.color)

将指定列进行get_dummies 后合并到元数据中

df = df.join(pd.get_dummies(df.color))

原文地址:https://www.cnblogs.com/LLLLgR/p/14659919.html