pandas

三大对象

1.DataFrame（index, columns ,values）

　　1）先从文件(excel,csv,mysql)中读取，或者自己制造一个DataFrame对象

　　2)查看数据

　　　　查看数据的形状（几行几列）

　　　　查看每一列的数据类型，数据中是否有空值（行、列），查看每一列和标签的关系（离散-柱状图，连续-密度图或者子状图），两列之间的相关度，查看整个的数据分布（最小，最大，均值，标准差等）目的之一是找出异常值。

　　3）清洗数据

　　　　删除

　　　　　　列（如序号列）、行、空值的列（如：一列中绝大多少是空值）

　　　　替换

　　　　　　空值（一列中极少数空值，替换方法许多，如均值（连续型如年龄），众数（离散型，如性别），线性差值等），去掉空格/特殊字符，数据类型转换，列名，索引名

　　4）整理

　　　　　　排序：列的值，索引

　　　　　　修改结构：列变成索引

　　　　　　分组：索引，列

　　　　　　　　注意：分组要做数据统计（透视表-pivot-table、交叉表）

　　　　　　应用函数

　　　　　　　　列

　　5）数据合并

　　　　多个DateFrame 按照不同的轴合并

　　6）数据统计

　　　　count，sum，max，min mean

　　7）可视化

使用：

　　　　导入： import pandas as pd

1.数据类型

　　1）Series：index(行索引)+values(1维numpy数据)

　 2）DataFrame：index(行索引)+Columns+values(2维numpy数据)

2.读入/写入数据

　　1）手动创建(内存)

　　　　df = pd.DataFrame(2维列表/2维numpy数组/字典，index =1维列表/数组 ,columns =1维列表/数组 )

　　2）从文件读取（csv--以逗号分隔的文本、excel、json、xml、html等）

　　　　df = pd.read_csv('csv文件'，sep=‘,’ , encoding ='utf-8/gbk',header= True/False)

　　3）从数据库中读取

　　4）写入文件/数据库

　　　　df.to_csv('csv文件'，header= True, index= False)

3.查看数据

　　1)查看数据的形状（几行几列）

　　　　df.shape

　　2）查看数据列的数据类型和空值

　　　　df.info()

　　　　df.isnull.sum(axis=0/1)/df.shape[0/1]

　　3）查看数据的前5行和后5行

　　　　df.head()、df.head(n)

　　　　df.tail()、df.tail(n)

　　4）查看统计信息

　　　　df.describe(include = 'all')

　　5)查看某列的唯一性（unique）

　　　　s.unique()

　　　　s.value_counts() #可以用于计数

　　　　如：

　　　　df.年龄.value_counts()

df['年龄'].value_counts()

柱状图显示结果：

import matplotlib.pyplot as plt
df['年龄'].value_counts().plot(kind='bar')
plt.show()

4.选择数据

　　方法1：

　　　　获取行 df[切片/全部行的布尔数组]

　　　　　　如： df[1:4] #获取第2，3，4 三条数据

　　　　　　　　　df[[False,True,True,True,False,False]]

　　　　　　　　　df[df.age>15 ] #以上两条含义一致，更多选择下一条

　　　　获取列

　　　　　　df[列名] 或df.列名， df[列表]

　　方法2

　　　　获取行/列 df.iloc[行自动索引切片，列自动索引切片]

　　　　　　　　　df.loc[行手动索引切片，列手动索引切片]

　　　　　　　　　　df.loc[:,'性别']

　　　　　　　　　　df.loc[:,['性别','年龄']]

　　　　　　　　　　df.iloc[1:4:]

　　增加列 df[不存在的列] = 值

　　增加行 df.iloc[6]=['wangwu',20,'Y'] #报错

　　　　　　df.loc[3]=['wangwu',20,'Y'] #已知道有多少行

　　　　　　len（df） #用于测试一共有多少行　　

　　　　　改进：df.loc[len(df)]=['wangwu1',20,'Y']

相关代码：

import pandas as pd


df = pd.DataFrame(
    [
        ['zhangsan',18,'Y'],
        ['lisi',19,'N'],
        ['wangwu',20,'Y']
    ],index=['a','b','c'],columns=['姓名','年龄','是否结婚'])
df

df.index,df.columns,df.valuse

df = pd.read_csv('1.txt')
df

df.to_csv('2.txt',header= True)

df.年龄, type(df.年龄)

df.to_csv('3.txt',index = False)

df.shape


df.info()

df.tail()

df.tail(2)

df.describe()

df.describe(include = 'all')

df.年龄.unique

df.年龄.value_counts()

df['年龄'].value_counts()

import matplotlib.pyplot as plt
df['年龄'].value_counts().plot(kind='bar')
plt.show()

df.loc[3]=['wangwu',20,'Y']

df.loc[len(df)]=['wangwu1',20,'Y']

df

5.清洗数据

　　1)删除

　　　　　　drop（行/列/列的列表---格式是字符串/整数/列表 , axis = 0/1）

　　　　　　dropna:删除含有空值的列和行，很少用。

　　　注意：大部分删除的列，1）感觉没有用的列，通常是id，name这些列。2）空值太多的列 3）没用的列-通过特征工程比如方差为0，过滤法F减压

df.drop('姓名',axis=1) 结果变，df没有变，如果变，两种办法，1）把结果赋值给df，2）把参数加入inplace=True

#删除空值的列
#先查看所有列的空值
df.info()  #结果不是统计数据，不方便
df.isnull()  #是空值才为True
df.isnull().sum(axis = 0) #沿着轴0进行累加空值数
df.isnull().sum(axis = 0)/ df.shape[0] #沿着轴0得到空值的比例数

#删除空值的行
#先查看所有行的空值

df.isnull().sum(axis = 1)/ df.shape[1] #沿着轴1得到空值的比例数

df.drop(3,axis = 0) #删除第三行

df.isnull().sum(axis = 1)/ df.shape[1]<0.8 #找出空值数比例在0.8以下的列

df2 = df[(df.isnull().sum(axis = 1)/ df.shape[1]<0.8)] #选择满足该比例的数据列

　　　2)替换

　　　　　　s.fillna(值)：空值替换

　　　　　　s.replace(old_value, new_value):非空值替换

　　　　举例：

　　　　　　df.是否结婚.replace ('Y',0)

#连续型的用均值
#离散型的用众数
df.是否结婚.mode()[0]


df.是否结婚 = df.是否结婚.fillna(df.是否结婚.mode()[0])

　　3)数据类型转换

　　　　astype

　　　　pd_todatetime(要改变的字符串, format = 格式) #字符串格式良好，则不用写format

举例：

　　查看类型：dy.dtypes

　　　　df.年龄.astype(float)

　　4）修改列名

　　　　df.rename(old_name,new_name)

　　5)apply 函数

　　　　apply(lambda x:处理x)

　　6）排序

　　　　sort_value

　　　　sort_index

　　df.sort_value('年龄'，axis=0,ascendinig = True) #从小到大，若要从大到小，改为False

　　df.sort_value(['年龄'，'性别'], axis=0,[ascendinig = True,ascending = False]) #从小到大，若要从大到小，改为False

6。数据整理

　　1）连接

　　　　拼接： pd.concat((df1,df2),axis=0/1)

　　　　连接：pd.merge(左边，右边，on = 关键字，how = ‘inner/left/right’)

　　2)分组

　　　　set_index

　　　　reset_index

　　　　stack

　　　　unstack

　　　　groupby

　　3)透视表

　　　　pivot_table(哪几列数据，)

　　　　df.pivot_table(value='价格'，index =‘产地’，columns= '类别'，aggfunc='mean').fillna(0)

　　4)交叉表（把一列作为）用于统计分组频率的特殊透视表，

　　　　crosstab

　　5)统计

4.查看数据分布　　　　

2.Series

3.Panel