python基本数据预处理语法函数(1)

numpy包：

####数组###########
from numpy import *
shape  #获取维度
size #获取长度
arange(0,5,1) #生成数组函数，从0到5以1为间隔
mgrid[0:5,0:5,0:5]  #生成多维数组 
np.zeros(2)   #生成2个0
np.zeros([2,2])  #生成2*2个0
np.arange(3)  #返回连续数列，输入为3则返回[0,1,2]

####矩阵#####################

from numpy import random
random.rand(5,5) #生成5*5矩阵，值为0-1
a=np.matrix([[1,2,3],[2,3,4],[4,5,6]])  #或者 np.mat([[1,2,3],[2,3,4],[4,5,6]]))  生成矩阵
a=np.mat(np.random.random(size=(3,3)))       #生成随机矩阵
a=pd.DataFrame([[1,2,3],[2,3,4],[4,5,6]])  ##直接表示DataFrame
a.columns=['a','b','c']       #修改列名
a.T               # a的转置矩阵
a.I               # a的逆矩阵
pd.DataFrame(a)   ##转换为DataFrame
a*a.T           # 矩阵相乘,T为逆矩阵
a.shape      #获取矩阵的维度
np.exp(n)  #e的n词次
np.power(x,3)  #返回x的3次方
np.ones([3,3])  #生成3*3且值为1的2维数组，ones主要用于生成多维数组
a=np.zeros([2,2])
a=np.random.randint(3,10,size=[3,3])        #产生多维随机矩阵
a=np.random.random((3,3))           #生成多维的小数随机数组
#上面这条等价于： a=np.random.rand(3,3)  
a[1, :]    #取a的第二行
a[1  :]    #取a第二行到末尾行
b=a.astype(np.float32)  #将a的格式转化为float32
a.dtype   #返回格式，输出float64
b.dtype   #返回格式，输出float32
np.floor(1.5)  #返回1
np.ceil(1.5)   #返回2
a.describe()   #对数据进行描述性统计
a.transpose()   #对a矩阵进行转置
a.to_csv('C:/Users/1/Desktop/345.csv', encoding='utf-8', index=False)   # 快速地将DataFrame导入csv文件

####其他#####################
set(a)    #元素拆分
a.count   #统计个数

pandas包：

a=pd.Series(np.random.randn(5),index=['a','b','c','d','e'])   #生成随机序列,'a'到'e'为列名,通过a['a']来读取序列内容
d = {'a': 0, 'b': 1, 'c': 2} 
pd.Series(d)   #从dict生成series 
d={'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([4,5,6],index=['a','b','c'])}
pd.DataFrame(d)              ##建立dataframe
b['three']=b['one']      ##增加列
del b['one']     ##删除列
b.insert(3,'oo',b['two'])   ##插入列名为'oo'，内容为b['two']的列
b[0:1]     ##返回第一行
b['one'] 或 b.one   ##返回列
b.head()  ##默认前5行  b.head(10) 为前10行
b.tail()   ##默认后5行
b[b.two==4]  ##获取列名为'two'的值为4的行
b.loc[b['two']== 4]    ##返回列名为'two'，且值为4的行   (类似于R语言dplyr包的filter函数)
b['two']   #返回列名为two的列
b.loc['two']   #返回行名为'two'的行  
b.columns.size    ##获取列数
b.ix[1]     ##第2行     ix和iloc的区别在于假若index是int类的，则在排序的时候ix会按照index的来，这时并不完全按照实际的行和列顺序，同样出现字符型index的时候对ix也是如此
b.ix[1,2]    ##第2行第3列
b.ix[:,2]   ##第3列的所有行
b.icol(2)    ##第3列
b.irow(2)    ##第3行
b.describe()   ##按列对数据进行汇总
b.T.describe()   ##按行对数据进行汇总
b.sort(columns='A')   ##对A列进行排序
b.iloc[1,2]              ##提取b的第2行第3列
b[b>1]     ##提取b里面大于0的部分
b[b.A>0]   ##提取A列大于0的行
b.groupby('two').sum()    ##对two分组并计算每组总和，与R语言和sql的groupby类似
pd.date_range("2016-07-01 00:00:00", "2016-07-31 23:58:00", freq='2min')  #返回时间范围内以2min作为时间间隔的所有时间   
pd.date_range(start='20170101',periods=10)    #返回给定时间之后10天的内容
midx=pd.MultiIndex.from_product([['A','B','C'],['X','Y']],names=['class1','class2'])    #使用笛卡尔积创建MultiIndex对象
#笛卡尔乘积的作用：
以日期的缺失值查找为例，根据笛卡尔积作一个排列组合，然后和目标表进行关联，查找哪些数据缺失
例如有个考勤记录，记录了100个人2011年5月的考勤信息，理论上每个人每天都有考勤信息，实际上有人在某天的值缺失了。不管是一天一天的查询或者是一人一人的查询都比较麻烦，因此可以作每个人和每一天的笛卡尔积，然后和实际的表去关联，从而得出哪些值是缺失的。
df=pd.DataFrame({'A':[1,2,3],'B':['a','b','f']})
df.T          #转置
df.sort_values(by='A',ascending=False)      #对列名为'A'进行降序排序  
df.isin([1,2,'a','b'])      #判断[1,2,'a','b']是否在df之内
a=pd.read_csv('....')
a['title'].str.len().apply(lambda x:np.floor(x/19))   #返回a的title列的每条字符串的长度，进行除以19后进行取下限整数的结果
a['num'].astype('str')   #类型转换，转为字符型
a.loc[1,'price']         #获取符合条件的行列
a.loc[a['day_of_week'].isin([6, 7]), 'day_of_week_en'] = 3    #将符合条件的行列值对应的内容进行替换
a.loc[a['clean'].isin(['0']),'clean']    #同上
df1 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],'D': ['D2', 'D3', 'D6', 'D7'],'F': ['F2', 'F3', 'F6', 'F7']},index=[2, 3, 6, 7])
df2 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],'D': ['D2', 'D3', 'D6', 'D7'],'F': ['F2', 'F3', 'F6', 'F7']},index=[2, 3, 6, 7])
pd.concat([df1,df2]，axis=0)     #将不同的dataframe进行合并，axis为设置合并的维度
a=a.drop(['g1','g2','g3','g4'],axis=1)   #删除列名字为['g1','g2','g3','g4']的列

math包：

from math import *
math.tanh(x) #双曲正切函数

collection包：

import collections
point=collections.namedtuple('point',['x','y'])     #创建一个自定义的tuple对象
p=point(1,2)
p.x   #返回1   
p.y   #返回2
c = Counter('abracadabra')
c.most_common(3)   #返回出现次数最多的前3项

其他：

yield介绍：
返回生成器，从第一次返回值之后，在下次循环时候从该位置开始继续迭代

def aa(ali):
　　for i in ali:
　　　　i=i+1
　　　　yield i+5

b=aa([1,2,3,4])

[w for w in b] #返回[7,8,9,10]

sys包：

import sys
sys.path.append('...') #插入路径，用于读入自定义模块
sys.exit(1)   #用于中途退出程序

os包：

import os
os.getcwd()  #获取当前路径
os.chdir('...')  #更新路径
%run xx.py   #运行路径下的py文件
os.path.join('aaa','bbb','ccc')  #返回'aaa/bbb/ccc'
os.listdir('C:/Users/1/Desktop/123/')   #返回某路径下的所有文件名

assert用法：

assert condition     #如果condition为True，则进入下一步，若为False，则raise一个AssertionError错误

字符串的一些预处理方法：

a=['1','2','3']
' '.join(a)    #返回'1 2 3' 字符串

字典dict:

#获取key所对应的value
dict_c={0:'catering', 1:'facility', 2:'flow', 3:'manage', 4:'price', 5:'service', 6:'traffic', 7:'view'}
dict_c.get(0)    #返回字典的key中0对应的值
dict_c.get(1)    #返回字典的key中1对应的值
#获取字典的keys
list(dict_c.keys())
#获取字典的values
list(dict_c.values())
a={'a':1,'b':2}.items()   
type(a) #返回dict_items
for i in a:
  print(i)   #通过循环获取a里的数据
dict.fromkeys('a',10)   #返回{'a': 10}
dict.fromkeys(['a',10])  #返回{'a': None, 10: None}

线性回归：

import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
dat = sm.datasets.get_rdataset("Guerry", "HistData").data
results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
print(results.summary())

onehot编码转换：

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
enc.fit(a[['A','B']])
enc.transform(a[['A','B']]).toarray()
print(enc.transform(a[['A','B']]).toarray())

assert断言的作用：

用于判定某布尔值必须为真，如果发生异常说明表达式为假，以如下代码为例

assert 1==1   #未返回值
assert 1==2   #返回错误