Pandas 常用命令

tag : pandas 常用基础命令

注:用于记录pandas所有常用的基础命令。

参考链接:Pandas 数据框增、删、改、查、去重、抽样基本操作:

# 字段重命名$a 重命名为a  无返回值
df.rename(columns={'$a': 'a', '$b': 'b'}, inplace=True) 
# inplace 直接修改,所以无返回值。 inplace=False 不直接修改,故有返回值

# 指定列 填充空值为0
col = "aaaaa"
df[col] = df[col].ffill(0)

# pandas列函数处理 -- 整列每行采用同一个函数处理
c=c[["a","b"]].apply(foo,axis=1)

# 获取指定字段长度大于10的数据 .map(len)
df = df[df['JY_FROM_NAME'].map(len) >= 10]

# 数据去重 
drop_duplicates df = df.drop_duplicates()

# 数据合并 concat
df_new = pd.concat([df1,df2])

# 数据汇总 
groupbygroupby_col = ["a","b","c"]
sum_col = "amount"
df_new = df.groupby(groupby_col)[[sum_col]].sum()

# 查看开头为xxx的字符 .str.startswith('0')
df["JY_FROM_CERTID"] = df[df["JY_FROM_CERTID"].str.startswith('0')]

# 去除指定左边开头的字符 str.lstrip("9")
df["JY_FROM_CERTID"] =  df["JY_FROM_CERTID"].str.lstrip("9")

# pandas 列类型转换为 日期格式
# 方法1
df['date'] = pd.to_datetime(df['date'])
df.set_index("date", inplace=True) # 方法2
df2.index = pd.DatetimeIndex(df2["date"])
del df2["date"]
结论:.to_datetime仅转换格式,.DatetimeIndex还能设置为索引

# pandas类型种类 str float int datetime
df[col] = df[col].astype('str')

# DataFrame 转 list
np.array(data_x).tolist()

# pandas 行列循环
df.iterrows()

# 删除全空的那列
df = df.dropna(axis=1,how='all')

# axis参数说明
axis = 1 行处理 默认
axis = 1 列处理

# 删除含有空数据的全部行 
df4 = pd.read_csv('4.csv', encoding='utf-8')
df4 = df4.dropna() 
# 可以通过axis参数来删除含有空数据的全部列 
df4 = df4.dropna(axis=1) 
# 可以通过subset参数来删除在age和sex中含有空数据的全部行 
df4 = df4.dropna(subset=["age","sex"])



原文地址:https://www.cnblogs.com/superscfan/p/12257028.html