读取文件

一、读取文本文件数据

大家都知道,Python中的pandas模块是专门用来做数据分析的强大工具,同样此模块也可以用来读取外部数据。

1、读取txt文件

#加载第三方库

importpandasaspd

#读取数据

info_data=pd.read_csv('E:/Pycharm_Project/info_data.txt',sep=' ',encoding='gbk')

print(info_data.head())

2、读取csv文件

csv文件是非常常用的一种数据存储格式,而且其存储量要比Excel表格大很多,下面我们就来看看如何利用Python读取csv格式的数据文件:

#读取数据

info_data=pd.read_csv('E:/Pycharm_Project/info_data.csv',sep=',',encoding='gbk')

print(info_data.head())

基于以上txt文件和csv文件都是通过pandas模块中的read_csv函数进行读取,该函数有20多个参数,其中sep:指定分隔符,encoding:指定文件编码等,其中最重要的一点,对于文本文件含有中文的,其文件编码通常为gbk,谨记!

二、读取Excel文件

在日常工作中,很多数据都是存放在Excel表格中的,如果我们需要利用Python对其进行分析或处理的话,第一步就是如何读取Excel数据。下面我们就来看看如何读取Excel数据:

#读取数据

info_data=pd.read_excel('E:/Pycharm_Project/info_data.xlsx',sep=' ',encoding='utf-8')

print(info_data.head())

三、读取数据库数据

企业中更多的数据还是存储在MySQL、Oracle等数据库中,为了能够使Python连接到数据库中,这里向大家介绍一个模块,那就是pymysql模块,这里需要特别注意的是这个模块是需要安装的,该安装教程在我的上一篇文章中有具体介绍,此处已安装好。具体操作看下面例子:

#加载第三方库

importpandasaspd

importpymysql

#通过connect函数连接本地数据库

conn=pymysql.connect(host='192.168.0.1',# IP地址

user='root',#默认用户名

passwd='***',# 数据库登录密码

db='mango',#数据库名称

port='3306',#默认端口号

charset='utf8'#数据库统一编码

)

#读取数据

sql='select*from table'

info_data=pd.read_sql(sql,conn)

print(info_data)

我们使用select语句可以获取数据,这个语句随着你的查询需求的不同是可以改变的;并将数据读取到pandas里面,方便后期的统计分析。

原文地址:https://www.cnblogs.com/shida-liu/p/11874694.html