Python机器学习(八十)Pandas 介绍

Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Pandas基于NumPy开发。

Pandas 用途

Pandas 是一个数据分析工具,可用来清理、转换和分析数据。

例如,我们有一个csv格式的数据集,我们可以把数据提取到Pandas的DataFrame中,然后就可以使用Pandas对其分析处理:

  • 每一列的平均值、中值、最大值或最小值是多少?
  • 列A和列B相关吗?
  • C列中的数据分布情况如何?
  • 通过删除缺失的值和根据某些标准过滤行或列来清理数据。
  • 在Matplotlib的帮助下可视化数据。图条、线、直方图、气泡等等。
  • 将清理后的数据存储回CSV、或其他文件、数据库。

在开始对数据进行建模或可视化之前,我们通常需要很好地理解数据集的性质,而panda是实现这一目标的最佳途径。

Pandas与其他工具包怎么配合

Pandas 库是Python数据科学工具包的一个中心组件,通常与其他库一起配合使用。

Pandas 基于NumPy包构建,Pandas中使用了很多NumPy的数据结构,这些数据结构在很多Python数据科学工具包中都是通用的。Pandas的数据可用于SciPy中的统计分析,Matplotlib中的函数绘图,Scikit-learn中的机器学习算法。

原文地址:https://www.cnblogs.com/huanghanyu/p/13173968.html