如何快速掌握Pandas

如何快速入门

pandas是python的一个出色的统计类库,同时也是python的科学计算与可视化生态系统中不可或缺的一环,但是如此出色的pandas却十分的简单易上手而且拥有出色的官方文档,假如你想快速的掌握pandas的使用的话,那么官方文档必是首选.建议直接访问pandas官网:http://pandas.pydata.org/pandas-docs/stable/,与有道网页翻译搭配食用效果更佳.

因为pandas的官方文档已经进行了十分详细的介绍,所以本篇文章不再对其进行过多介绍,下面最展示<10 Minutes to pandas>部分的汇总以及部分pandas中部分要注意的地方.

10 Minutes to pandas 快速入门

当你打开pandas的官网文档,首先你会看到的正是<10 Minutes to pandas>,可以翻译为十分钟pandas快速入门.其中大体介绍了pandas的使用方法我对其进行了汇总(脑图文件下载地址在文章结尾)
10 Minutes to pandas

要注意的几个地方

  • 获取DataFrame长度
    len(DataFrame.index)
  • 文件读写问题:Unnamed
# 将DataFrame类型文件以csv格式导出的时候,再读入会产生一个新列'Unnamed: 0'
# 内容为DataFrame的index
# 有两种解决方案,第一手动删除

df1 = pd.DataFrame(pd.read_csv())
del df1['Unnamed: 0']
# 或在存储csv是不存储idnex,例如
df.to_csv('/tmp/9.csv',columns=['open','high'],index=False,header=False)
# 不要列头,不要索引,只要open,high两列。来解决这个问题
  • 文件读写问题:columns
    在使用pd.DataFrame(pd.read_csv())这行代码时在读入excel文件时,假如会默然将第一行作为columns.
  • 更多文件读取问题
    建议额外阅读官方文档http://pandas.pydata.org/pandas-docs/stable/io.html
  • 画图问题:Pandas无法显示中文:
    需要动态修改配置
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['KaiTi']
mpl.rcParams['font.serif'] = ['KaiTi']
# mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串

import seaborn as sns
sns.set_style("darkgrid",{"font.sans-serif":['KaiTi', 'Arial']})

详细内容请阅读Pandas matplotlib 绘图无法显示中文问题各种解决方案详解

  • 添加更多的matplotlib 样式,这个只需要引入matplotlib 包然后使用plt添加即可,例如
import matplotlib.pyplot as plt
......

df= pd.DataFrame(listval, columns=['次数'])
df.index = listkey
df.plot(kind='bar')
plt.title('关于梅宏院士的报告的词频统计')

# 下面的这些代码都是有效的

# plt.figure(figsize = (8,4))
# plt.xlabel('x-变量',fontproperties=myfont,fontsize=12) #设置标签
# plt.ylabel('y-正弦余弦函数值',fontproperties=myfont,fontsize=12)
plt.show()
  • pandas的绘图功能十分强大,但是要进行较为复杂的绘图,依旧建议使用matplotlib,pandas仅仅在统计绘图方面足够强大而已,好在使用numpy与pandas对接十分容易
    更多的绘图功能建议详细阅读
    官方文档目录:

中文 有道翻译 截图

英文 官方文档

10 Minutes to pandas 脑图下载地址:

百度云链接:http://pan.baidu.com/s/1jHCt4Qq

原文地址:https://www.cnblogs.com/fonttian/p/9162814.html