python学习随笔

1、选取标签为C并且只取前两行，选完类型还是dataframe

df = df.loc[0:2, ['A', 'C']] 
df = df.iloc[0:2, [0, 2]]

不同：loc是根据dataframe的具体标签选取列，而iloc是根据标签所在的位置，从0开始计数。

2、加减乘除等操作的，比如dataframe的一列是数学成绩(shuxue)，另一列为语文成绩(yuwen)，现在需要求两门课程的总和。可以使用df['shuxue'] +

df['yuwen']（选取完之后类型为series）来获得总分，而不能使用df.iloc[:,[2]]+df.iloc[:,[1]]或df.iloc[:,['shuxue']]+df.iloc[:,['yuwen']]，这会产生错误结果。

3、使用df.icol(i)来选取列，选取完的也不是dataframe而是series，i为该列所在的位置，从0开始计数。

4、gran = int(round(np.timedelta64(largest - second_largest) / np.timedelta64(1, 's'))) #转换成秒

5、anoms = all_data[i][all_data[i].timestamp.isin(s_h_esd_timestamps)]

6、periodic_maxes = df.groupby( df.timestamp.map(Timestamp.date)).aggregate(np.max).value #按天求最大值

7、ESD_example_data = copy.deepcopy(total_Y)

8、对于给定的显著性水平，可以使用百分点函数（PPF）计算临界值，例如0.05（95％置信度）。

此功能可用于SciPy中的t分布，如下所示：

　　# calculate the critical value

　　alpha = 0.05

　　cv = t.ppf(1.0 - alpha, df)

　　p值可以用t分布上的累积分布函数来计算（同样在SciPy中）。

　　# calculate the p-value

　　p = (1 - t.cdf(abs(t_stat), df)) * 2

9、在Python中，如何将一个字符串数组转换成整型数组

py2:

>>> arr = ['22','44','66','88']

>>> arr = map(int,arr)

>>> print(arr)

[22, 44, 66, 88]

py3:

>>> arr = ['22','44','66','88']

>>> arr = list(map(int,arr))

>>> print(arr)

[22, 44, 66, 88]
10、时间戳转换成date

def time_to_datetime(time_at):
    str_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(1476923280))
    return pd.to_datetime(str_time)

11、python进行数据处理——pandas的drop函数

https://blog.csdn.net/nuaadot/article/details/78304642

12、python 四位数整数补零

n = "%04d" % n
print n
0123

13、同名文件

if os.path.exists(filename):
    raise ValueError("路径里千万不能有同名文件，否则会叠加文件！！！")

14、dataframe.to_csv（），（用pandas）写入时，当数据量很大时，行写入（30分钟）要比列写入（秒），慢好几百多倍

15、分段存储

for i in range(0, len(data), 10000):
    data[i:i+10000]

16、to_csv的参数设置,　　'a'不覆盖

dataframe.to_csv(filename, mode='a', header=False, encoding='utf-8', index=False)

17、三位随机数：

str(random.randint(100, 999))

18、Python如何读取、拆分大文件

pd.read_table("data/ex1.csv", chunksize=10000, header=None, sep=',')
for chunk in data:
    print(chunk)

19、np.float64 not float

datefram.astype(np.int64)

20、dropna

删除DataFrame中值全为NaN或者包含有NaN的列或行

删除NaN所在的行：
删除表中全部为NaN的行
df.dropna(axis=0,how='all')

删除表中含有任何NaN的行
df.dropna(axis=0,how='any') #drop all rows that have any NaN values
删除NaN所在的列：
删除表中全部为NaN的列
df.dropna(axis=1,how='all')
删除表中含有任何NaN的列
df.dropna(axis=1,how='any') #drop all rows that have any NaN values

21、按照时间天分组

data.groupby(data.index.map(Timestamp.date))

结果是tuple(Timestamp.date"2019-03-05", series)

22、连接series,,,pd.concat([data1, data2], axis=0)

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False)
参数说明
objs: series，dataframe或者是panel构成的序列lsit
axis：需要合并链接的轴，0是行，1是列
join：连接的方式 inner，或者outer

23、自定义索引：data.set_index("timestamp", drop=False, inplace=True)

Pandas可以使用某一列来重新自定义DataFrame的索引，通过set_index()方法来实现，该方法主要有两个参数：

inplace，如果设置为True就不会返回一个新的DataFrame，而是直接修改该DataFrame
drop，如果设置为True，就会移出掉该列的数据

24、本地时间的区别

str_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(time_at - 8 * 60 * 60))
str_time.fromtimestamp(time_at).strftime('%Y-%m-%d %H:%M:%S')

str_time = datetime.utcfromtimestamp(time_at).strftime('%Y-%m-%d %H:%M:%S')

25、pandas.DataFrame的index重新排列（从0开始）

　　重新赋值pandas.DataFrame.index即可。

df1.index = range(len(df1))
df1.reset_index(drop=True, inplace=True)

26、

list = []
for i in range(100):
    if i % 2 == 1:
    list.append(i)

等价于

list = [i for i in range(100) if i % 2 == 1]

27、使用enumerate内置函数来给元素加上序号形成元组：

list = ['a', 'b', 'c']
for x in enumerate(list):
    print(x)

运行结果为： (0, 'a') (1, 'b') (2, 'c')

28、我们可以使用raise语句自己触发异常

def functionName( level ):
    if level < 1:
        raise Exception("Invalid level!", level)
        # 触发异常后，后面的代码就不会再执行

29、断言

assert isinstance(astring, str)

30、Python上下文管理器与with语句

上下文管理器的任务是：代码块执行前准备，代码块执行后收拾。

31、使用concurrent.futures实现并行计算

（1）创建进程池Executor

concurrent.futures.ProcessPoolExecutor(max_workers=None)

建立进程池Executor。max_workers表示进程池的进程数量限制，缺省为None，表示与CPU数量相同。

concurrent.futures.ThreadPoolExecutor(max_workers=None)

多讲一个线程池Executor的创建。

（2）创建子进程Future

　　（a）直接提交单个子进程：

　　XXX.submit(fn, *args, **kwargs)

　　向进程池提交一个子进程（future对象），子进程直接开始运行，并返回该future对象。future对象对应函数fn(*args, **kwargs)。XXX为进程池Executor。

　　（b）map方式（同时提交多个子进程）：

　　XXX.map(fn, *iterables, timeout=None, chunksize=1)

　　并发map函数，返回迭代器（与map(fn,*iterables)返回相同，只是并发执行）。注意这个并行与mulitprocessing模块中的并行也有差异，这里是同批次的子进程同步执行，直到该批次所有进程结束后，才开始下一批次执行。XXX为进程池Executor。

　　fn：被调函数，
　　iterables：个数与被调函数的参数个数相同（每个iterable对应一个参数）。
　　timeout：最大等待时间。缺省为None，表示无限等待。
　　chunksize：缺省为1，表示iterables中的元素将一次送出1个到进程池。如大于1，则一次送出chunksieze个元素到进程池。对于非常大的iterables，设置较大的chunksize，将显著加快执行速度（只对ProcessPoolExecutor有用。对ThreadPoolExecutor无用，该值忽略）。

（3）with上下文管理

　　如果直接使用executor和future，多进程执行完成后，最好手动释放资源：

　　XXX.shutdown() #所有任务完成后，清理并释放进程池Executor相关的资源。

　　更好的办法是采用with上下文管理：

　　with concurrent.futures.ProcessPoolExecutor() as executor:
   　　res = executor.map(fuc, ...)

32、知识点：
random.random() ：返回 0 <= n < 1的随机实数。
random.uniform(a,b) ：返回 a <= n < b的随机实数。
random.randrange([start],stop,[step]) ：返回range([start],stop,[step])的随机整数。
random.choice(seq) ：返回seq序列中的任意元素。
random.shuffle(seq) ：随机移位。
random.sample(seq,n) ：从序列中取n个随机的元素。

33、pandas将index转换为datetime

df.index = pd.to_datetime(df.index)

34、设置坐标轴

ax = plt.gca()
ax.set_xlabel('x-label', fontsize=fontsize)
ax.set_ylabel('y-label', fontsize=fontsize)
ax.set_title('Title', fontsize=fontsize)

35、经常遇到问题 ValueError: If using all scalar values, you must pass an index，因为pandas 的dataframe需要一个可迭代的对象
换成列表或者加个index就可以解决这个问题

36、数字转换成excel列序号：

def convert_to_title(n):
    result = ""
    while n != 0:
        result = chr((n-1) % 26+65) + result
        n = (n-1)//26
    return result

37、python 保留2位小数

1、round
In [3]: a=21.2345
In [4]: round(a,2)
Out[4]: 21.23
2、%nf
In [5]: b = '%.2f'%a
Out[6]: '21.23'
In [7]: b = float('%.2f'%a)
3、'{.%2f}'.format()
In [10]: b = '{:.2f}'.format(a)
Out[11]: '21.23'

38、python中的sum函数.sum(axis=1)

np.sum([[0,1,2],[2,1,3]],axis=1)

结果就是：array（[3,6]）

39、Python 字典(Dictionary) setdefault() 函数和get()方法类似, 如果键不已经存在于字典中，将会添加键并将值设为默认值。

dict.setdefault(key, default=None)
参数

key -- 查找的键值。
default -- 键不存在时，设置的默认键值。
demo：

dict = {'Name': 'Zara', 'Age': 7}
print "Value : %s" %  dict.setdefault('Age', None)
print "Value : %s" %  dict.setdefault('Sex', None)
Value : 7
Value : None

40、Python字符串格式化千分位逗号分隔

print "{:,}".format(99999999)

# 结果
# 99,999,999

41、join箭头连接

" —> ".join(all_list)

42、PYTHON删除某目录下的所有文件

import shutil
shutil.rmtree(r'G:	est')

会删目录，如果想不删目录的话，就不能用这个函数了，需要自己写代码来递归删除文件夹中的内容，或者还是用这个函数，但是删完以后再新建文件夹。

import shutil  
shutil.rmtree('要清空的文件夹名')  
os.mkdir('要清空的文件夹名')

os.remove() 方法用于删除指定路径的文件。如果指定的路径是一个目录，将抛出OSError。
os.removedirs() 方法用于递归删除目录。像rmdir(), 如果子文件夹成功删除, removedirs()才尝试它们的父文件夹,直到抛出一个error(它基本上被忽略,因为它一般意味着你文件夹不为空)。
os.rmdir() 方法用于删除指定路径的目录。仅当这文件夹是空的才可以, 否则, 抛出OSError。
os.unlink() 方法用于删除文件,如果文件是一个目录则返回一个错误。

递归删除目录和文件的方法（类似DOS命令DeleteTree）：

import os
for root, dirs, files in os.walk(top, topdown=False):
    for name in files:
        os.remove(os.path.join(root, name))
    for name in dirs:
        os.rmdir(os.path.join(root, name))

如果想把一个文件从一个文件夹移动到另一个文件夹，并同时重命名，用shutil也很简单：

shutil.move('原文件夹/原文件名','目标文件夹/目标文件名')

43、求和

sum_cnt = np.sum([x[1] for x in list])

44、Python中Numpy库中的np.sum(array,axis=0,1,2...)

c = np.array([[[0, 1, 2,3], 
               [4, 5, 6,7]],
               [[1, 2, 3,4],
                [5,6,7,8]]]
                
 print( c.sum(axis=0))
 print( c.sum(axis=1)) 
 print( c.sum(axis=2))

45、特殊用法：mat (or array).reshape(c, -1); 必须是矩阵格式或者数组格式，才能使用 .reshape(c, -1) 函数，表示将此矩阵或者数组重组，以 c行d列的形式表示（-1的作用就在此，自动计算d：d=数组或者矩阵里面所有的元素个数/c, d必须是整数，不然报错）

46、存文件

output_file = open("shishi.pkl", 'wb')
pickle.dump(data, output_file)
output_file.close()
input_file = open("shishi.pkl", 'rb')
data = pickle.load(input_file)

47、python 判断为空nan, null

对整体的series或Dataframe判断是否未空，用isnull()
eg:
pd.isnull(df1) #df1是dataframe变量

对单独的某个值判断，可以用 np.isnan()
eg: np.isnan(df1.ix[0,3]) #对df1的第0行第3列判断

48、Python中可以用如下方式表示正负无穷：

float("inf"), float("-inf")

49、log1p() 函数

log1p() 函数返回 log(1+number)，甚至当 number 的值接近零也能计算出准确结果。

50、python numpy 一维数组转变为多维数组

numpy.array(new_list).reshape(3,3)

51、python生成随机数组

https://blog.csdn.net/healthy_coder/article/details/50502643

52、