快速了解pandas

pandas主要就下面两方面:(只要稍微了解下面两点,那你就会用了)

1、两种数据结构(SeriesDataFrame

2、对这两种数据进行处理(主要是对DataFrame处理)

--------------------------------------------------------------------------------------------------------

正文:

  1、两种数据结构(SeriesDataFrame

    Series:有属性:index,values

    DataFrame:有属性:index,columns,valuess

    简单来说:series组成dataframe

      series是这样:

      

      dataframe是这样:

      

   2、对这两种数据进行处理(主要是对DataFrame处理)

    例如:读取csv到DataFrame

import pandas as pd
df = pd.read_csv('1.csv')

        清洗数据

#1、用数字0填充空值:
df.fillna(value=0)

#2、使用列prince的均值对NA进行填充:
df[‘prince’].fillna(df[‘prince’].mean())

#3、清楚city字段的字符空格:
df[‘city’]=df[‘city’].map(str.strip)

#4、大小写转换:
df[‘city’]=df[‘city’].str.lower()

#5、更改数据格式:
df[‘price’].astype(‘int’)

#6、更改列名称:
df.rename(columns={‘category’: ‘category-size’})

#7、删除后出现的重复值:
df[‘city’].drop_duplicates()

#8 、删除先出现的重复值:
df[‘city’].drop_duplicates(keep=‘last’)

#9、数据替换:
df[‘city’].replace(‘sh’, ‘shanghai’)

  如需更深入的了解各种方法可自行网上查阅

 

原文地址:https://www.cnblogs.com/yizhixiang/p/12367157.html