05-文件处理

引入

1、什么是文件

文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口

用户/应用程序(open())
操作系统(文件)
计算机硬件(硬盘)

2、为何要用文件

用户/应用程序可以通过文件将数据永久保存的硬盘中
即操作文件就是操作硬盘

用户/应用程序直接操作的是文件,对文件进行的所有的操作,都是
在向操作系统发送系统调用,然后再由操作将其转换成具体的硬盘操作

3、如何用文件:open()

控制文件读写内容的模式:t和b 强调:t和b不能单独使用,必须跟r/w/a连用 t文本(默认的模式) 1、读写都以str(unicode)为单位的 2、文本文件 3、必须指定encoding='utf-8' b二进制/bytes 控制文件读写操作的模式 r只读模式 w只写模式 a只追加写模式 +:r+、w+、a+

一、文件基本操作

一般操作:

1、打开文件

1.1 open()传参

# windows路径分隔符问题
# 因为分隔符“”在python中代表转义符,为确保能正确读出路径
# 我们可采取以下两种策略

例子:
open('C:a.txt
bcd.txt')
# 解决方案一:推荐
open(r'C:a.txt
bcd.txt')
# 解决方案二:
open('C:/a.txt/nb/c/d.txt')

 1.2 open()的返回值

f=open(r'aaa/a.txt',mode='rt',encoding="utf-8") # f的值是一种变量,占用的是应用程序的内存空间
print(f)                                        # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
x=int(10)                                       # f的存储于x的存储类似
打开文件,由应用程序向操作系统发起系统调用open(...),操作系统打开该文件,对应一块硬盘空间,并返回一个文件对象赋值给一个变量f

 2、操作文件

读/写文件,应用程序对文件的读写请求都是在向操作系统发送
# 系统调用,然后由操作系统控制硬盘把输入读入内存、或者写入硬盘
res=f.read()
print(type(res))
print(res)
3、关闭文件
因为若不关闭文件,操作系统会一直维持文件打开状态占用内存。
若一直不关闭会有以下问题:
1、操作系统可开文件数量有限,开太多无用文件会导致现有程序无法再打开更多文件。
2、虽然有机制,一定时间内检测文件长期不活跃,则关闭,但是仍占用内存资源。
f.close()                   # 回收操作系统资源
print(f)                    # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
f.read()                    # ValueError: I/O operation on closed file.
                            # 变量f存在,但是不能再读了
del f                       # 回收应用程序资源

 with操作:

  其中del f一定要发生在f.close()之后,否则就会导致操作系统打开的文件无法关闭,白白占用资源, 而python自动的垃圾回收机制决定了我们无需考虑del f,

这就要求我们,在操作完毕文件后,一定要记住f.close(),虽然我们如此强调,但是大多数读者还是会不由自主地忘记f.close(),考虑到这一点,python提供

了with关键字来帮我们管理上下文。

# f1---文件对象又称为文件句柄

with open('a.txt',mode='rt') as f1:             # f1=open('a.txt',mode='rt')
    res=f1.read()
    print(res)

with可同时打开多个文件:

with open('a.txt',mode='rt',encoding="utf-8") as f1,
        open('b.txt',mode='rt',encoding="utf-8") as f2:
    res1=f1.read()
    res2=f2.read()
    print(res1)
    print(res2)

    # f1.close()
    # f2.close()

二、文件编码模式与操作模式 

2.1 控制文件读写内容的模式:

t:
    1、读写都是以字符串(unicode)为单位
    2、只能针对文本文件
    3、必须指定字符编码,即必须指定encoding参数(没有指定encoding参数操作系统会使用自己默认的编码)
b:binary模式
    1、读写都是以bytes为单位
    2、可以针对所有文件
    3、一定不能指定字符编码,即一定不能指定encoding参数
总结:
1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
2、针对非文本文件(如图片、视频、音频等)只能使用b模式
3、不论是t模式还是b模式,都需要与操作模式连用,不可单独出现

bytes类型转换补充:

with open('h.txt', mode='wb') as f:
    # l = [
    #     '1111aaa1
'.encode('utf-8'),
    #     '222bb2'.encode('utf-8'),
    #     '33eee33'.encode('utf-8')
    # ]

    # 补充1:如果是纯英文字符,可以直接加前缀b得到bytes类型
    # l = [
    #     b'1111aaa1
',
    #     b'222bb2',
    #     b'33eee33'
    # ]

    # 补充2:'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8')
    l = [
        bytes('上啊',encoding='utf-8'),
        bytes('冲呀',encoding='utf-8'),
        bytes('小垃圾们',encoding='utf-8'),
    ]
    f.writelines(l)

2.2控制文件操作的模式

r---只读模式

# 1、r(默认的操作模式):只读模式,当文件不存在时报错,当文件存在时文件指针跳到开始位置
with open('c.txt',mode='rt',encoding='utf-8') as f:
    print('第一次读'.center(50,'*'))
    res=f.read()                         # 把所有内容从硬盘读入内存
    print(res)

# with open('c.txt', mode='rt', encoding='utf-8') as f:
    print('第二次读'.center(50,'*'))
    res1=f.read()
    print(res1)

w---只写模式

# 2、w:只写模式,当文件不存在时会创建空文件,当文件存在会清空文件,指针位于开始位置
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.read() # 报错,不可读
    f.write('擦勒
')

# 强调1:
# 在以w模式打开文件没有关闭的情况下,连续写入,新的内容总是跟在旧的之后
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒1
')
    f.write('擦勒2
')
    f.write('擦勒3
')

# 强调2:
# 如果重新以w模式打开文件,则会清空文件内容
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒1
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒2
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒3
')

a---只追加模式

# 3、a:只追加写,在文件不存在时会创建空文档,在文件存在时文件指针会直接调到末尾
with open('e.txt',mode='at',encoding='utf-8') as f:
    # f.read() # 报错,不能读
    f.write('擦嘞1
')
    f.write('擦嘞2
')
    f.write('擦嘞3
')

# 强调 w 模式与 a 模式的异同:
# 1 相同点:在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前写的内容之后
# 2 不同点:以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,新写的内容永远写在最后

+---只可与r、w、a模式连用,增加子代码块中可对文件进行的操作:

with open('h.txt', mode='w+t',encoding='utf-8') as f:
    print(f.readable())         # True 是否可读
    print(f.writable())         # True 是否可写
    print(f.encoding)           # utf-8 打印编码格式
    print(f.name)               # h.txt 打印文件名

print(f.closed)                 # 文件已关闭

x---只写模式【不可读;文件不存在则创建,存在则报错】

with open('d.txt',mode='x',encoding='utf-8') as f:
    f.write('哈哈哈
')

三、文件的其他操作

3.1 读相关操作

1、readline:一次读一行

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
    # res1=f.readline()
    # res2=f.readline()
    # print(res2)

    while True:
        line=f.readline()
        if len(line) == 0:
            break
        print(line)

2、readlines:将文件一次性读入内存,并按行存入列表

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
    res=f.readlines()
    print(res)                              #  ['111
', '222
', '333
', '444
', '5555']
# 强调:
# f.read()与f.readlines()都是将内容一次性读入内存,如果内容过大会导致内存溢出,若还想将内容全读入内存,则必须分次读入。

3.2 写相关操作

1、writelines:传入一个列表类型,各元素按行写入文件

with open('h.txt',mode='wt',encoding='utf-8') as f:
    # f.write('1111
222
3333
')

    # l=['11111
','2222','3333',4444]
    l=['11111
','2222','3333']
    # for line in l:
    #     f.write(line)
    f.writelines(l)
with open('h.txt', mode='wb') as f:
    # l = [
    #     '1111aaa1
'.encode('utf-8'),
    #     '222bb2'.encode('utf-8'),
    #     '33eee33'.encode('utf-8')
    # ]
    l = [
        bytes('上啊',encoding='utf-8'),
        bytes('冲呀',encoding='utf-8'),
        bytes('小垃圾们',encoding='utf-8'),
    ]
    f.writelines(l)

3.3 flush

flush() 方法是用来刷新缓冲区的,即将缓冲区中的数据立刻写入文件,同时清空缓冲区,不需要被动的等待输出缓冲区写入。
一般情况下,文件关闭后会自动刷新缓冲区,但有时你需要在关闭前刷新它,这时就可以使用 flush() 方法。
with open('h.txt', mode='wt',encoding='utf-8') as f:
    f.write('')
    f.flush()

3.4 其他函数操作

这些函数大多在嵌套打开多个文件时,查看文件属性。
是否以关闭或是否可读,变量名所保存的文件对象(文件句柄)是对应哪个文件的。
with open('h.txt', mode='wt',encoding='utf-8') as f:
    print(f.readable())         # False 是否可读
    print(f.writable())         # True 是否可写
    print(f.encoding)           # utf-8 打印编码格式
    print(f.name)               # h.txt 打印文件名

print(f.closed)                 # True 已关闭


四、文件的高级操作:控制文件指针的移动

4.1 文件中指针的移动

# 指针移动的单位都是以bytes/字节为单位
# 只有一种情况特殊:
#       t模式下的read(n),n代表的是字符个数

with open('aaa.txt',mode='rt',encoding='utf-8') as f:
    res=f.read(4)                                       # 此处的4,代表以指针位置为起点,向后读取四个字符
    print(res)

4.2 seek函数

# f.seek(n,模式):n指的是移动的字节个数
# 模式:
# 模式0:参照物是文件开头位置
f.seek(9,0)
f.seek(3,0)             # 3

# 模式1:参照物是当前指针所在位置
f.seek(9,1)
f.seek(3,1)             # 12

# 模式2:参照物是文件末尾位置,应该倒着移动
f.seek(-9,2)            # 3
f.seek(-3,2)            # 9

# 强调:只有0模式可以在t下使用,1、2必须在b模式下用

f.tell() # 获取文件指针当前位置

示例:

with open('aaa.txt',mode='rb') as f:
    f.seek(9,0)
    f.seek(3,0)
    print(f.tell())                   # tell()函数,表示指针位置(第几个字节)。3
    # f.seek(4,0)                     # 刚好截断了表示中文字符的两个字节
    # 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte
    res=f.read()
    print(res.decode('utf-8'))

 五、文件修改的两种方式

方式一:文本编辑采用的就是这种方式
实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
优点: 在文件修改过程中同一份数据只有一份
缺点: 会过多地占用内存
with open('c.txt',mode='rt',encoding='utf-8') as f:
    res=f.read()
    data=res.replace('alex','dsb')
    print(data)

with open('c.txt',mode='wt',encoding='utf-8') as f1:
    f1.write(data)

  方式二:

实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名
优点: 不会占用过多的内存
缺点: 在文件修改过程中同一份数据存了两份
with open('c.txt', mode='rt', encoding='utf-8') as f, 
        open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
    for line in f:
        f1.write(line.replace('alex', 'dsb'))

os.remove('c.txt')
os.rename('.c.txt.swap', 'c.txt')


PS:

最后,补充一点。当open()执行时,文件中的内容仍在硬盘之中,此处在内存中存的只是指向这块内存的一个文件类型数据,直到我们调用.read()函数,才将文件内容读入内存。
 
 
原文地址:https://www.cnblogs.com/zhubincheng/p/12488647.html