引入
1、什么是文件
文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口
用户/应用程序(open())
操作系统(文件)
计算机硬件(硬盘)
2、为何要用文件
用户/应用程序可以通过文件将数据永久保存的硬盘中
即操作文件就是操作硬盘
用户/应用程序直接操作的是文件,对文件进行的所有的操作,都是
在向操作系统发送系统调用,然后再由操作将其转换成具体的硬盘操作
3、如何用文件:open()
控制文件读写内容的模式:t和b 强调:t和b不能单独使用,必须跟r/w/a连用 t文本(默认的模式) 1、读写都以str(unicode)为单位的 2、文本文件 3、必须指定encoding='utf-8' b二进制/bytes 控制文件读写操作的模式 r只读模式 w只写模式 a只追加写模式 +:r+、w+、a+
一、文件基本操作
一般操作:
1、打开文件
1.1 open()传参
# windows路径分隔符问题
# 因为分隔符“”在python中代表转义符,为确保能正确读出路径
# 我们可采取以下两种策略
例子:
open('C:a.txt
bcd.txt')
# 解决方案一:推荐
open(r'C:a.txt
bcd.txt')
# 解决方案二:
open('C:/a.txt/nb/c/d.txt')
1.2 open()的返回值
f=open(r'aaa/a.txt',mode='rt',encoding="utf-8") # f的值是一种变量,占用的是应用程序的内存空间
print(f) # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
x=int(10) # f的存储于x的存储类似
打开文件,由应用程序向操作系统发起系统调用open(...),操作系统打开该文件,对应一块硬盘空间,并返回一个文件对象赋值给一个变量f
2、操作文件
读/写文件,应用程序对文件的读写请求都是在向操作系统发送
# 系统调用,然后由操作系统控制硬盘把输入读入内存、或者写入硬盘
res=f.read()
print(type(res))
print(res)
3、关闭文件
因为若不关闭文件,操作系统会一直维持文件打开状态占用内存。
若一直不关闭会有以下问题:
1、操作系统可开文件数量有限,开太多无用文件会导致现有程序无法再打开更多文件。
2、虽然有机制,一定时间内检测文件长期不活跃,则关闭,但是仍占用内存资源。
f.close() # 回收操作系统资源
print(f) # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
f.read() # ValueError: I/O operation on closed file.
# 变量f存在,但是不能再读了
del f # 回收应用程序资源
with操作:
其中del f一定要发生在f.close()之后,否则就会导致操作系统打开的文件无法关闭,白白占用资源, 而python自动的垃圾回收机制决定了我们无需考虑del f,
这就要求我们,在操作完毕文件后,一定要记住f.close(),虽然我们如此强调,但是大多数读者还是会不由自主地忘记f.close(),考虑到这一点,python提供
了with关键字来帮我们管理上下文。
# f1---文件对象又称为文件句柄
with open('a.txt',mode='rt') as f1: # f1=open('a.txt',mode='rt')
res=f1.read()
print(res)
with可同时打开多个文件:
with open('a.txt',mode='rt',encoding="utf-8") as f1,
open('b.txt',mode='rt',encoding="utf-8") as f2:
res1=f1.read()
res2=f2.read()
print(res1)
print(res2)
# f1.close()
# f2.close()
二、文件编码模式与操作模式
2.1 控制文件读写内容的模式:
t:
1、读写都是以字符串(unicode)为单位
2、只能针对文本文件
3、必须指定字符编码,即必须指定encoding参数(没有指定encoding参数操作系统会使用自己默认的编码)
b:binary模式
1、读写都是以bytes为单位
2、可以针对所有文件
3、一定不能指定字符编码,即一定不能指定encoding参数
总结:
1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
2、针对非文本文件(如图片、视频、音频等)只能使用b模式
3、不论是t模式还是b模式,都需要与操作模式连用,不可单独出现
bytes类型转换补充:
with open('h.txt', mode='wb') as f: # l = [ # '1111aaa1 '.encode('utf-8'), # '222bb2'.encode('utf-8'), # '33eee33'.encode('utf-8') # ] # 补充1:如果是纯英文字符,可以直接加前缀b得到bytes类型 # l = [ # b'1111aaa1 ', # b'222bb2', # b'33eee33' # ] # 补充2:'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8') l = [ bytes('上啊',encoding='utf-8'), bytes('冲呀',encoding='utf-8'), bytes('小垃圾们',encoding='utf-8'), ] f.writelines(l)
2.2控制文件操作的模式
r---只读模式
# 1、r(默认的操作模式):只读模式,当文件不存在时报错,当文件存在时文件指针跳到开始位置
with open('c.txt',mode='rt',encoding='utf-8') as f:
print('第一次读'.center(50,'*'))
res=f.read() # 把所有内容从硬盘读入内存
print(res)
# with open('c.txt', mode='rt', encoding='utf-8') as f:
print('第二次读'.center(50,'*'))
res1=f.read()
print(res1)
w---只写模式
# 2、w:只写模式,当文件不存在时会创建空文件,当文件存在会清空文件,指针位于开始位置
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.read() # 报错,不可读
f.write('擦勒
')
# 强调1:
# 在以w模式打开文件没有关闭的情况下,连续写入,新的内容总是跟在旧的之后
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒1
')
f.write('擦勒2
')
f.write('擦勒3
')
# 强调2:
# 如果重新以w模式打开文件,则会清空文件内容
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒1
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒2
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒3
')
a---只追加模式
# 3、a:只追加写,在文件不存在时会创建空文档,在文件存在时文件指针会直接调到末尾
with open('e.txt',mode='at',encoding='utf-8') as f:
# f.read() # 报错,不能读
f.write('擦嘞1
')
f.write('擦嘞2
')
f.write('擦嘞3
')
# 强调 w 模式与 a 模式的异同:
# 1 相同点:在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前写的内容之后
# 2 不同点:以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,新写的内容永远写在最后
+---只可与r、w、a模式连用,增加子代码块中可对文件进行的操作:
with open('h.txt', mode='w+t',encoding='utf-8') as f:
print(f.readable()) # True 是否可读
print(f.writable()) # True 是否可写
print(f.encoding) # utf-8 打印编码格式
print(f.name) # h.txt 打印文件名
print(f.closed) # 文件已关闭
x---只写模式【不可读;文件不存在则创建,存在则报错】
with open('d.txt',mode='x',encoding='utf-8') as f:
f.write('哈哈哈
')
三、文件的其他操作
3.1 读相关操作
1、readline:一次读一行
with open(r'g.txt',mode='rt',encoding='utf-8') as f:
# res1=f.readline()
# res2=f.readline()
# print(res2)
while True:
line=f.readline()
if len(line) == 0:
break
print(line)
2、readlines:将文件一次性读入内存,并按行存入列表
with open(r'g.txt',mode='rt',encoding='utf-8') as f:
res=f.readlines()
print(res) # ['111
', '222
', '333
', '444
', '5555']
# 强调:
# f.read()与f.readlines()都是将内容一次性读入内存,如果内容过大会导致内存溢出,若还想将内容全读入内存,则必须分次读入。
3.2 写相关操作
1、writelines:传入一个列表类型,各元素按行写入文件
with open('h.txt',mode='wt',encoding='utf-8') as f:
# f.write('1111
222
3333
')
# l=['11111
','2222','3333',4444]
l=['11111
','2222','3333']
# for line in l:
# f.write(line)
f.writelines(l)
with open('h.txt', mode='wb') as f:
# l = [
# '1111aaa1
'.encode('utf-8'),
# '222bb2'.encode('utf-8'),
# '33eee33'.encode('utf-8')
# ]
l = [
bytes('上啊',encoding='utf-8'),
bytes('冲呀',encoding='utf-8'),
bytes('小垃圾们',encoding='utf-8'),
]
f.writelines(l)
3.3 flush
flush() 方法是用来刷新缓冲区的,即将缓冲区中的数据立刻写入文件,同时清空缓冲区,不需要被动的等待输出缓冲区写入。
一般情况下,文件关闭后会自动刷新缓冲区,但有时你需要在关闭前刷新它,这时就可以使用 flush() 方法。
with open('h.txt', mode='wt',encoding='utf-8') as f:
f.write('哈')
f.flush()
3.4 其他函数操作
这些函数大多在嵌套打开多个文件时,查看文件属性。
是否以关闭或是否可读,变量名所保存的文件对象(文件句柄)是对应哪个文件的。
with open('h.txt', mode='wt',encoding='utf-8') as f:
print(f.readable()) # False 是否可读
print(f.writable()) # True 是否可写
print(f.encoding) # utf-8 打印编码格式
print(f.name) # h.txt 打印文件名
print(f.closed) # True 已关闭
四、文件的高级操作:控制文件指针的移动
4.1 文件中指针的移动
# 指针移动的单位都是以bytes/字节为单位
# 只有一种情况特殊:
# t模式下的read(n),n代表的是字符个数
with open('aaa.txt',mode='rt',encoding='utf-8') as f:
res=f.read(4) # 此处的4,代表以指针位置为起点,向后读取四个字符
print(res)
4.2 seek函数
# f.seek(n,模式):n指的是移动的字节个数
# 模式:
# 模式0:参照物是文件开头位置
f.seek(9,0)
f.seek(3,0) # 3
# 模式1:参照物是当前指针所在位置
f.seek(9,1)
f.seek(3,1) # 12
# 模式2:参照物是文件末尾位置,应该倒着移动
f.seek(-9,2) # 3
f.seek(-3,2) # 9
# 强调:只有0模式可以在t下使用,1、2必须在b模式下用
f.tell() # 获取文件指针当前位置
示例:
with open('aaa.txt',mode='rb') as f:
f.seek(9,0)
f.seek(3,0)
print(f.tell()) # tell()函数,表示指针位置(第几个字节)。3
# f.seek(4,0) # 刚好截断了表示中文字符的两个字节
# 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte
res=f.read()
print(res.decode('utf-8'))
五、文件修改的两种方式
方式一:文本编辑采用的就是这种方式
实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
优点: 在文件修改过程中同一份数据只有一份
缺点: 会过多地占用内存
with open('c.txt',mode='rt',encoding='utf-8') as f:
res=f.read()
data=res.replace('alex','dsb')
print(data)
with open('c.txt',mode='wt',encoding='utf-8') as f1:
f1.write(data)
方式二:
实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名
优点: 不会占用过多的内存
缺点: 在文件修改过程中同一份数据存了两份
with open('c.txt', mode='rt', encoding='utf-8') as f,
open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
for line in f:
f1.write(line.replace('alex', 'dsb'))
os.remove('c.txt')
os.rename('.c.txt.swap', 'c.txt')
PS:
最后,补充一点。当open()执行时,文件中的内容仍在硬盘之中,此处在内存中存的只是指向这块内存的一个文件类型数据,直到我们调用.read()函数,才将文件内容读入内存。