文件操作

一、文件操作

1、操作文件的流程

1、打开文件，得到一个文件句柄，赋值给变量
2、通过句柄来操作文件
3、关闭文件

2、在Python中的文件操作

file = open("a.txt","r")    #通过r模式打开文件

data = file.read()          #读取文件
print(data)

file.close()                #关闭文件

3、强调

#强调第一点：
打开一个文件包含两部分资源：操作系统级打开的文件+应用程序的变量。在操作完毕一个文件时，必须把与该文件的这两部分资源一个不落地回收，回收方法为：
1、f.close() #回收操作系统级打开的文件
2、del f #回收应用程序级的变量

其中del f一定要发生在f.close()之后，否则就会导致操作系统打开的文件还没有关闭，白白占用资源，
而python自动的垃圾回收机制决定了我们无需考虑del f，这就要求我们，在操作完毕文件后，一定要记住f.close()

虽然我这么说，但是很多同学还是会很不要脸地忘记f.close(),对于这些不长脑子的同学，我们推荐傻瓜式操作方式：使用with关键字来帮我们管理上下文
with open('a.txt','w') as f:
    pass
 
with open('a.txt','r') as read_f,open('b.txt','w') as write_f:
    data=read_f.read()
    write_f.write(data)

强调第一点：资源回收

f=open(...)是由操作系统打开文件，那么如果我们没有为open指定编码，那么打开文件的默认编码很明显是操作系统说了算了，操作系统会用自己的默认编码去打开文件，在windows下是gbk，在linux下是utf-8。
这就用到了上节课讲的字符编码的知识：若要保证不乱码，文件以什么方式存的，就要以什么方式打开。

f=open('a.txt','r',encoding='utf-8')

强调第二点：字符编码

注意：如果利用Pycharm编写，不加字符编码，默认为utf-8

二、打开文件的模式

open() 函数常用形式是接收两个参数：文件名(file)和模式(mode)。

open(file, mode='r')

完整的语法格式为：

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明:

file: 必需，文件路径（相对或者绝对路径）。
mode: 可选，文件打开模式
buffering: 设置缓冲
encoding: 一般使用utf8
errors: 报错级别
newline: 区分换行符
closefd: 传入的file参数类型
opener:

mode 参数有：

模式	描述
t	文本模式 (默认)。
x	写模式，新建一个文件，如果该文件已存在则会报错。
b	二进制模式。
+	打开一个文件进行更新(可读可写)。
U	通用换行模式（Python 3 不支持）。
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb	以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。
r+	打开一个文件用于读写。文件指针将会放在文件的开头。
rb+	以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。
w	打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
wb	以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。
w+	打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
wb+	以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。
a	打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
ab	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
a+	打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。
ab+	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

默认为文本模式，如果要以二进制模式打开，加上 b 。

三、操作文件的方法

file 对象使用 open 函数来创建，下表列出了 file 对象常用的函数：

序号	方法及描述
1	file.close() 关闭文件。关闭后文件不能再进行读写操作。
2	file.flush() 刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。
3	file.fileno() 返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。
4	file.isatty() 如果文件连接到一个终端设备返回 True，否则返回 False。
5	file.next() Python 3 中的 File 对象不支持 next() 方法。返回文件下一行。
6	file.read([size]) 从文件读取指定的字节数，如果未给定或为负则读取所有。
7	file.readline([size]) 读取整行，包括 " " 字符。
8	file.readlines([sizeint]) 读取所有行并返回列表，若给定sizeint>0，返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。
9	file.seek(offset[, whence]) 设置文件当前位置
10	file.tell() 返回文件当前位置。
11	file.truncate([size]) 从文件的首行首字符开始截断，截断文件为 size 个字符，无 size 表示从当前位置截断；截断之后后面的所有字符被删除，其中 Widnows 系统下的换行代表2个字符大小。
12	file.write(str) 将字符串写入文件，返回的是写入的字符长度。
13	file.writelines(sequence) 向文件写入一个序列字符串列表，如果需要换行则要自己加入每行的换行符。

练习，利用b模式，编写一个cp工具，要求如下：

1. 既可以拷贝文本又可以拷贝视频，图片等文件

2. 用户一旦参数错误，打印命令的正确使用方法，如usage: cp source_file target_file

提示：可以用import sys，然后用sys.argv获取脚本后面跟的参数

import sys
if len(sys.argv) != 3:
    print('usage: cp source_file target_file')
    sys.exit()

source_file,target_file=sys.argv[1],sys.argv[2]
with open(source_file,'rb') as read_f,open(target_file,'wb') as write_f:
    for line in read_f:
        write_f.write(line)

View Code

四、文件的操作解析

1、读取

# 一、只读  r           #没有文件，则报错
# f = open("a.txt","r")

# 1、读取全部内容
# data = f.read()
# print(data)

# 2、是否可读
# data = f.readable()
# print(data)

# 3、读取一行
# data = f.readline()
# print(data)
# data = f.readline()
# print(data)
# data = f.readline()
# print(data)
# data = f.readline()
# print(data)
# data = f.readline()
# print(data)
# data = f.readline()
# print("第6行",data)   #若读完后，没有数据，则读空
# data = f.readline()   #文件末尾有自动换行符
# print("第7行",data)

# data = f.readline()
# print(data,end="")    #去掉换行
# data = f.readline()
# print(data,end="")


# 4、读取多行
# data = f.readlines()      #返回一个列表
# print(data)


# 5、利用readline循环读取数据
# f = open("a.txt","r")
# line = f.readline()
# while line:
#     print(line)
#     line = f.readline()

# 或
# f = open("a.txt","r")
# for i in f:
#     print(i)

View Code

2、写入

# 二、只写 w    若文件有内容，先删除，在添加，没有文件，则创建文件
# 1、write
# f = open("a.txt","w")
# f.write("123")


# 2、writelines  #字符串或列表，迭代写入数据
# f.writelines("123456")


# 3、writable
# data = f.writable()
# print(data)


# 4、自定义修改文件
# 删除第一行
# res_f = open("a.txt","r")
# # data = res_f.readlines()
# # res_f.close()
# # print(data)
# # data = data[1:]
# #
# # des_f = open("a.txt","w")
# # des_f.writelines(data)
# # des_f.close()

View Code

3、追加

# 三、追加 a
# f = open("a.txt","a")
# f.write("
666666")
# f.close()

View Code

4、with

四、with    不需要手动关闭
# 1、示范
# with open("a.txt","r") as f:
#     pass
# 
# 
# 2、cp工具
# with open("a.txt","r") as res_f,open("b.txt","w") as des_f:
#     data = res_f.readlines()
#     des_f.writelines(data)

View Code

5、b模式

b模式存在的理由：

1、在windows系统中，默认为t模式（读取rt、写入wt）、在Linux系统中默认为b模式

2、t模式为操作文本，不是文本类型的文件不能操作（例如电影，音乐、图片）

# 读取
f = open("a.txt","rb")  #不能指定编码
data = f.read()         #因为为二进制文件，没有行之分，所有没有readline()与readlines()
print(data.decode("utf-8"))
f.close()


# 写入
f = open("a.txt","wb")
f.write("123".encode("utf-8"))
f.close()


#追加
f = open("a.txt","ab")
f.write("123".encode("utf-8"))
f.close()

五、文件内光标移动

一: read(3)：

　　1. 文件打开方式为文本模式时，代表读取3个字符

　　2. 文件打开方式为b模式时，代表读取3个字节

二: 其余的文件内光标移动都是以字节为单位如seek，tell，truncate

注意：

　　1. seek有三种移动方式0，1，2，其中1和2必须在b模式下进行，但无论哪种模式，都是以bytes为单位移动的

　　2. truncate是截断文件，所以文件的打开方式必须可写，但是不能用w或w+等方式打开，因为那样直接清空文件了，所以truncate要在r+或a或a+等模式下测试效果

import time
with open('test.txt','rb') as f:
    f.seek(0,2)
    while True:
        line=f.readline()
        if line:
            print(line.decode('utf-8'))
        else:
            time.sleep(0.2)

练习：基于seek实现tail -f功能

# 利用seek读取最后一行（日志）
# f = open("a.txt","rb")
#
# for i in f:
#     offes = -10
#
#     while True:
#         f.seek(offes,2)
#         data = f.readlines()
#         if len(data) > 1:           #读取两行数据
#             print("最后一行数据为:",data[-1].decode("utf-8"))
#             break
#         offes *= 2

利用seek读取最后一行（日志）

六、文件的修改

文件的数据是存放于硬盘上的，因而只存在覆盖、不存在修改这么一说，我们平时看到的修改文件，都是模拟出来的效果，具体的说有两种实现方式：

方式一：将硬盘存放的该文件的内容全部加载到内存，在内存中是可以修改的，修改完毕后，再由内存覆盖到硬盘（word，vim，nodpad++等编辑器）

import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    data=read_f.read() #全部读入内存,如果文件很大,会很卡
    data=data.replace('alex','SB') #在内存中完成修改

    write_f.write(data) #一次性写入新文件

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt')

View Code

方式二：将硬盘存放的该文件的内容一行一行地读入内存，修改完毕就写入新文件，最后用新文件覆盖源文件

import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    for line in read_f:
        line=line.replace('alex','SB')
        write_f.write(line)

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt')

View Code

练习题：

1. 文件a.txt内容：每一行内容分别为商品名字，价钱，个数，求出本次购物花费的总钱数
apple 10 3
tesla 100000 1
mac 3000 2
lenovo 30000 3
chicken 10 3

2. 修改文件内容，把文件中的alex都替换成SB

本文参考:https://www.cnblogs.com/linhaifeng/articles/5984922.html