Numpy

用Python做数据分析，涉及到的函数实在是太多了，容易忘记，去网上查中文基本上差不到，英文有时候描述不清楚问题。

这里搞个针对个人习惯的函数汇总速查手册，下次需要用一个什么功能，就在这里面查到对应的函数名字，然后取搜索具体用法。随时更新。

Numpy

创建：

创建一个随机数组x*y:

np.empty(x,y)

产生随机数组，产生指定大小随机数组，指定范围随机数组，均匀分布，数组元素在0到1之间

np.random.uniform(0,100,size=5)

-----------Pandas----------

Series

判断是否是唯一的值:

obj.unique()

统计值：

obj.value_counts()

DataFrame:

根据一个列或者多个列进行排序

frame.sort_values(by=['a','b'])

删除列/删除行

del frame['a']

del frame[3]

对整个表应用操作f

frame.apply(f)

对列进行重新排序/重排：

frame.colomns = ['b','c','a']

对每列求和

frame.sum()

对每行求和

frame.sum(axis=1)

求累计和，就是加上前几行的数据的总和

frame.cumsum()

求每列最大值的索引

frame.idxmax() 返回索引

frame.argmax() 返回一个整数值

求每行最大值的索引

frame.idxmax(axis=1)

对每一列进行汇总统计(包括计数/均值/方差/最小值/分位点/最大值)

frame.describe()

缺失数据/缺失处理：

删除缺失数据(NaN)：

丢掉数据：dropna

只丢掉全为空的列: data.dropna(axis=1,how='all')

用指定值填充：fillna

对每个位置判断有无缺失: isnull , notnull

填充缺失数据（NaN）：

用指定值填充：

data.fiina(1)

用平均值填充：

data.fillna(data.mean())

修改列名

df=df.rename(columns = {'two':'new_name'})