05-文件处理

引入

1、什么是文件

文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口

用户/应用程序(open())
操作系统（文件）
计算机硬件（硬盘）

2、为何要用文件

用户/应用程序可以通过文件将数据永久保存的硬盘中
即操作文件就是操作硬盘

用户/应用程序直接操作的是文件，对文件进行的所有的操作，都是
在向操作系统发送系统调用，然后再由操作将其转换成具体的硬盘操作

3、如何用文件：open()

控制文件读写内容的模式：t和b 强调：t和b不能单独使用，必须跟r/w/a连用 t文本（默认的模式） 1、读写都以str（unicode）为单位的 2、文本文件 3、必须指定encoding='utf-8' b二进制/bytes 控制文件读写操作的模式 r只读模式 w只写模式 a只追加写模式 +：r+、w+、a+

一、文件基本操作

一般操作：

1、打开文件

1.1 open()传参

# windows路径分隔符问题
# 因为分隔符“”在python中代表转义符，为确保能正确读出路径
# 我们可采取以下两种策略

例子：
open('C:a.txt
bcd.txt')
# 解决方案一：推荐
open(r'C:a.txt
bcd.txt')
# 解决方案二：
open('C:/a.txt/nb/c/d.txt')

1.2 open()的返回值

f=open(r'aaa/a.txt',mode='rt',encoding="utf-8") # f的值是一种变量，占用的是应用程序的内存空间
print(f)                                        # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
x=int(10)                                       # f的存储于x的存储类似

打开文件，由应用程序向操作系统发起系统调用open(...)，操作系统打开该文件，对应一块硬盘空间，并返回一个文件对象赋值给一个变量f

　2、操作文件

读/写文件，应用程序对文件的读写请求都是在向操作系统发送

# 系统调用，然后由操作系统控制硬盘把输入读入内存、或者写入硬盘
res=f.read()
print(type(res))
print(res)

3、关闭文件
因为若不关闭文件，操作系统会一直维持文件打开状态占用内存。
若一直不关闭会有以下问题：
1、操作系统可开文件数量有限，开太多无用文件会导致现有程序无法再打开更多文件。
2、虽然有机制，一定时间内检测文件长期不活跃，则关闭，但是仍占用内存资源。

f.close()                   # 回收操作系统资源
print(f)                    # <_io.TextIOWrapper name='aaa/a.txt' mode='rt' encoding='utf-8'>
f.read()                    # ValueError: I/O operation on closed file.
                            # 变量f存在，但是不能再读了
del f                       # 回收应用程序资源

with操作：

　　其中del f一定要发生在f.close()之后，否则就会导致操作系统打开的文件无法关闭，白白占用资源，而python自动的垃圾回收机制决定了我们无需考虑del f，

这就要求我们，在操作完毕文件后，一定要记住f.close()，虽然我们如此强调，但是大多数读者还是会不由自主地忘记f.close()，考虑到这一点，python提供

了with关键字来帮我们管理上下文。

# f1---文件对象又称为文件句柄

with open('a.txt',mode='rt') as f1:             # f1=open('a.txt',mode='rt')
    res=f1.read()
    print(res)

with可同时打开多个文件：

with open('a.txt',mode='rt',encoding="utf-8") as f1,
        open('b.txt',mode='rt',encoding="utf-8") as f2:
    res1=f1.read()
    res2=f2.read()
    print(res1)
    print(res2)

    # f1.close()
    # f2.close()

二、文件编码模式与操作模式

2.1 控制文件读写内容的模式：

t：
    1、读写都是以字符串（unicode）为单位
    2、只能针对文本文件
    3、必须指定字符编码，即必须指定encoding参数（没有指定encoding参数操作系统会使用自己默认的编码）
b：binary模式
    1、读写都是以bytes为单位
    2、可以针对所有文件
    3、一定不能指定字符编码，即一定不能指定encoding参数

总结：
1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节，b模式则需要手动编码与解码，所以此时t模式更为方便
2、针对非文本文件（如图片、视频、音频等）只能使用b模式
3、不论是t模式还是b模式，都需要与操作模式连用，不可单独出现

bytes类型转换补充：

with open('h.txt', mode='wb') as f:
    # l = [
    #     '1111aaa1
'.encode('utf-8'),
    #     '222bb2'.encode('utf-8'),
    #     '33eee33'.encode('utf-8')
    # ]

    # 补充1：如果是纯英文字符，可以直接加前缀b得到bytes类型
    # l = [
    #     b'1111aaa1
',
    #     b'222bb2',
    #     b'33eee33'
    # ]

    # 补充2：'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8')
    l = [
        bytes('上啊',encoding='utf-8'),
        bytes('冲呀',encoding='utf-8'),
        bytes('小垃圾们',encoding='utf-8'),
    ]
    f.writelines(l)

2.2控制文件操作的模式

r---只读模式

# 1、r（默认的操作模式）：只读模式，当文件不存在时报错，当文件存在时文件指针跳到开始位置
with open('c.txt',mode='rt',encoding='utf-8') as f:
    print('第一次读'.center(50,'*'))
    res=f.read() 　　　　　　　　　　　　　　　　　　　　　　　　# 把所有内容从硬盘读入内存
    print(res)

# with open('c.txt', mode='rt', encoding='utf-8') as f:
    print('第二次读'.center(50,'*'))
    res1=f.read()
    print(res1)

w---只写模式

# 2、w：只写模式，当文件不存在时会创建空文件，当文件存在会清空文件，指针位于开始位置
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.read() # 报错，不可读
    f.write('擦勒
')

# 强调1：
# 在以w模式打开文件没有关闭的情况下，连续写入，新的内容总是跟在旧的之后
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒1
')
    f.write('擦勒2
')
    f.write('擦勒3
')

# 强调2：
# 如果重新以w模式打开文件，则会清空文件内容
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒1
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒2
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
    f.write('擦勒3
')

a---只追加模式

# 3、a：只追加写，在文件不存在时会创建空文档，在文件存在时文件指针会直接调到末尾
with open('e.txt',mode='at',encoding='utf-8') as f:
    # f.read() # 报错，不能读
    f.write('擦嘞1
')
    f.write('擦嘞2
')
    f.write('擦嘞3
')

# 强调 w 模式与 a 模式的异同：
# 1 相同点：在打开的文件不关闭的情况下，连续的写入，新写的内容总会跟在前写的内容之后
# 2 不同点：以 a 模式重新打开文件，不会清空原文件内容，会将文件指针直接移动到文件末尾，新写的内容永远写在最后

+---只可与r、w、a模式连用，增加子代码块中可对文件进行的操作：

with open('h.txt', mode='w+t',encoding='utf-8') as f:
    print(f.readable())         # True 是否可读
    print(f.writable())         # True 是否可写
    print(f.encoding)           # utf-8 打印编码格式
    print(f.name)               # h.txt 打印文件名

print(f.closed)                 # 文件已关闭

x---只写模式【不可读；文件不存在则创建，存在则报错】

with open('d.txt',mode='x',encoding='utf-8') as f:
    f.write('哈哈哈
')

三、文件的其他操作

3.1 读相关操作

1、readline：一次读一行

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
    # res1=f.readline()
    # res2=f.readline()
    # print(res2)

    while True:
        line=f.readline()
        if len(line) == 0:
            break
        print(line)

2、readlines：将文件一次性读入内存，并按行存入列表

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
    res=f.readlines()
    print(res)                              #  ['111
', '222
', '333
', '444
', '5555']

# 强调：
# f.read()与f.readlines()都是将内容一次性读入内存，如果内容过大会导致内存溢出，若还想将内容全读入内存，则必须分次读入。

3.2 写相关操作

1、writelines：传入一个列表类型，各元素按行写入文件

with open('h.txt',mode='wt',encoding='utf-8') as f:
    # f.write('1111
222
3333
')

    # l=['11111
','2222','3333',4444]
    l=['11111
','2222','3333']
    # for line in l:
    #     f.write(line)
    f.writelines(l)

with open('h.txt', mode='wb') as f:
    # l = [
    #     '1111aaa1
'.encode('utf-8'),
    #     '222bb2'.encode('utf-8'),
    #     '33eee33'.encode('utf-8')
    # ]
    l = [
        bytes('上啊',encoding='utf-8'),
        bytes('冲呀',encoding='utf-8'),
        bytes('小垃圾们',encoding='utf-8'),
    ]
    f.writelines(l)

3.3 flush

flush() 方法是用来刷新缓冲区的，即将缓冲区中的数据立刻写入文件，同时清空缓冲区，不需要被动的等待输出缓冲区写入。
一般情况下，文件关闭后会自动刷新缓冲区，但有时你需要在关闭前刷新它，这时就可以使用 flush() 方法。

with open('h.txt', mode='wt',encoding='utf-8') as f:
    f.write('哈')
    f.flush()

3.4 其他函数操作

这些函数大多在嵌套打开多个文件时，查看文件属性。
是否以关闭或是否可读，变量名所保存的文件对象（文件句柄）是对应哪个文件的。

with open('h.txt', mode='wt',encoding='utf-8') as f:
    print(f.readable())         # False 是否可读
    print(f.writable())         # True 是否可写
    print(f.encoding)           # utf-8 打印编码格式
    print(f.name)               # h.txt 打印文件名

print(f.closed)                 # True 已关闭

四、文件的高级操作：控制文件指针的移动

4.1 文件中指针的移动

# 指针移动的单位都是以bytes/字节为单位
# 只有一种情况特殊：
#       t模式下的read(n),n代表的是字符个数

with open('aaa.txt',mode='rt',encoding='utf-8') as f:
    res=f.read(4)                                       # 此处的4，代表以指针位置为起点，向后读取四个字符
    print(res)

4.2 seek函数

# f.seek(n,模式):n指的是移动的字节个数
# 模式：
# 模式0：参照物是文件开头位置
f.seek(9,0)
f.seek(3,0)             # 3

# 模式1：参照物是当前指针所在位置
f.seek(9,1)
f.seek(3,1)             # 12

# 模式2：参照物是文件末尾位置，应该倒着移动
f.seek(-9,2)            # 3
f.seek(-3,2)            # 9

# 强调：只有0模式可以在t下使用，1、2必须在b模式下用

f.tell() # 获取文件指针当前位置

示例：

with open('aaa.txt',mode='rb') as f:
    f.seek(9,0)
    f.seek(3,0)
    print(f.tell())                   # tell()函数，表示指针位置（第几个字节）。3
    # f.seek(4,0)                     # 刚好截断了表示中文字符的两个字节
    # 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte
    res=f.read()
    print(res.decode('utf-8'))

五、文件修改的两种方式

方式一：文本编辑采用的就是这种方式

实现思路：将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
优点: 在文件修改过程中同一份数据只有一份
缺点: 会过多地占用内存

with open('c.txt',mode='rt',encoding='utf-8') as f:
    res=f.read()
    data=res.replace('alex','dsb')
    print(data)

with open('c.txt',mode='wt',encoding='utf-8') as f1:
    f1.write(data)

方式二：

实现思路：以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名
优点: 不会占用过多的内存
缺点: 在文件修改过程中同一份数据存了两份

with open('c.txt', mode='rt', encoding='utf-8') as f, 
        open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
    for line in f:
        f1.write(line.replace('alex', 'dsb'))

os.remove('c.txt')
os.rename('.c.txt.swap', 'c.txt')

PS：

最后，补充一点。当open（）执行时，文件中的内容仍在硬盘之中，此处在内存中存的只是指向这块内存的一个文件类型数据，直到我们调用.read()函数，才将文件内容读入内存。