Python-文件处理

一、文件处理

什么是文件

文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟单位

为何要使用文件

存取硬盘必须使用文件

如何用文件

打开文件的方法：open(文件路径，文件打开模式，编码方式等)
当使用open(文件路径，打开模式)时候，由应用程序帮助我们向操作系统发出申请，要打开一个文件，open(文件路径，打开模式)会产生一个返回值，叫文件对象(也叫文件句柄)。如下面的f
f = open(文件路径，打开模式)，此时会占用操作系统的资源(因为要求操作系统打开文件)，也会占用应用程序的资源(因为产生了文件对象f，需要内存空间)。
当文件操作结束之后，因为python有垃圾回收机制，就如同我们定义的x = 1一样，会自己被回收。而操作系统不会自己关闭文件，所以我们需要帮助操作系统关系，
语法是f.close()
使用文件的基本三个步骤：
1.f = open(文件位置，打开模式)
2.f.write(数据)
3.f.close()
应用程序/用户=》文件对象/文件句柄=》遥控
操作系统===========》文件 =================》空调
硬件 ==============》系统

绝对路径

从系统盘开始到目标文件的路径

如Windows系统下：D:ac.txt
     file_path = r'D:ac.txt'
linux系统共下:a/b/c.txt

相对路径

以当前目录为首发位置，利用一个.来代表当前路径

r模式

r模式只适用文本

f = open(r'a.txt',mode='rt',encoding='utf-8')
res = f.read()
print(res)
f.close()

rb模式

rb模式可以用以操作图片等，因为b模式读出来的是硬盘的原生内容即二进制，因为pycharm的优化，我们看到的是转化为16进制的数字。

f = open(r'a.txt',mode='rb')
res = f.read()
s = res.decode('utf-8')
print(s)
f.close()

二、文件的打开模式

文件的打开模式分类两大类:

控制文件读写操作的模式

'''1.1 r：只读(默认的)：在文件不存在时则报错，文件存在时文件指针跳到文件开头'''

f = open('a.txt',mode='rt',encoding='utf-8')
res = f.read()
print(f.readable())  # 判断文件当前是否可读
print(f.writable())  # 判断文件当前是否可写
f.close()
------------------------------------------------
True
False

'''1.2 w：只写:在文件不存在时则创建空文件，文件存在时则清空，文件指针跳到文件开头'''

f.txt=open('b.txt',mode='wt',encoding='utf-8')
f.txt.write("落霞与孤鹜齐飞
")
f.txt.write("秋水共长天一色
")
f.txt.close()

'''1.3 a：只追加写:在文件不存在时则创建空文件，文件存在时也不会清空，文件指针跳到文件末尾'''

f.txt=open('c.txt',mode='at',encoding='utf-8')
f.txt.write("大弦嘈嘈如急雨
")
f.txt.write("小弦切切如私语
")
f.txt.close()
'''
总结：w与a的异同
相同点：在打开了文件不关闭的情况下，连续地写入，新的内容永远跟在老内容之后
不同点：重新打开文件，w会清空老的内容，而a模式会保留老的内容并且指针跳到文件末尾
'''

# 示范1：注册功能
name = input("your name: ").strip()
'''
做合法性校验：
1、如果输入的用户名包含特殊字符^$&...让用户重新输入
2、如果输入的用户名已经存在也重新输入
'''
pwd = input("your password: ").strip()
'''
做合法性校验：
1、密码长度
2、如果密码包含特殊字符则重新输入
'''
f.txt = open('user.txt',mode='at',encoding='utf-8')
f.txt.write('%s:%s
' %(name,pwd))
f.txt.close()

# 示范2：登录功能
inp_name = input("your name: ").strip()
inp_pwd = input("your pwd: ").strip()

f.txt = open('user.txt',mode='rt',encoding='utf-8')
for line in f.txt:
    user,pwd=line.strip('
').split(':')
    if inp_name == user and inp_pwd == pwd:
        print('login successful')
        break
else:
    print('user or password error')

f.txt.close()

控制文件读写内容的模式

encode('utf-8')：以utf-8的格式编码
decode('utf-8')：以utf-8的格式解码

'''1.1 t（默认）：读写都是以str字符串为单位，一定要指定encoding'''

f=open('a.txt',mode='rt',encoding='utf-8')
print(f.read())
f.close()
----------------------------------------------
yang

'''1.2 b：读写都是以bytes为单位,一定不能指定encoding参数'''
"""读取时候"""
f=open('a.txt',mode='rb')
data=f.read()
print(data,type(data))
print(data.decode('utf-8'))
f.close()
-----------------------------------------
b'yang
egon
' <class 'bytes'>
yang

'''写入时候'''
f.txt=open('d.txt',mode='wb')
f.txt.write("egon".encode('utf-8'))
f.txt.close()

# ```示范1：文件拷贝程序```
src_file = input("请输入源文件路径:").strip()
dst_file = input('请输入目标文件路径:').strip()
with open(src_file,mode='rb') as src_f,
    open(dst_file,mode='rb') as dst_f:
    for line in src_f:
        dst_f.write(line)
'''
为防止占用过多内存空间，应该一边读一边写
若所有的文件一下子都读到内存，会将内存撑爆，系统会卡顿
因为同一时间，也只能由内存往硬盘内写一行（以换行符为一行，for循环也一样），多了也写不了。所以一堆一下子都取出来也没有意义
'''

# 上下文管理with
with open() as f1,open() as f2:
    f.txt.read()


默认的是rt
with open('a.txt') as f:
    pass

with open('a.txt',mode='w+') as f:
    pass

rwa为三种操作模式
tb这两种读取内容的模式必须和rwa联用，如wb,rb等
+必须与rwa联用：r+、w+、a+
如下：r+t，w+t，a+t，r+b，w+b，a+b

三、文件操作的其他方法

'''f.read(),f.readline(),f.readlines()的使用'''
with open('a.txt',mode='r',encoding='utf-8') as f:
    data1 = f.read()  # 一次性取完文件，字符串形式存入data1
    f.seek(0,0)
    data2 = f.readline()  # 一次只读一行内容，字符串形式存入data2
    f.seek(0, 0)
    data3 = f.readlines()  # 一次性取完文件，以
为结尾，按照列表形式存入data3
    print(data1,type(data1))
    print(data2,type(data2))
    print(data3,type(data3))
----------------------------------------------------------
111
222
333
 <class 'str'>
111
 <class 'str'>
['111
', '222
', '333
'] <class 'list'>

f.read(),f.readline(),f.readlines()与for循环的搭配使用

# f.read()与for循环搭配，每次取出一个字符('
'算一个字符)
with open('a.txt',mode='r',encoding='utf-8') as f:
    for i in f.read():
        print(i,type(i))
-------------------------------------------------------
1 <class 'str'>
1 <class 'str'>
1 <class 'str'>

 <class 'str'>
2 <class 'str'>
2 <class 'str'>
2 <class 'str'>

 <class 'str'>
3 <class 'str'>
3 <class 'str'>
3 <class 'str'>

 <class 'str'>

Process finished with exit code 0

# f.readline()与for循环搭配，每次取出一个字符('
'算一个字符)
with open('a.txt',mode='r',encoding='utf-8') as f:
    for i in f.readline():
        print(i,type(i))
--------------------------------------------------
1 <class 'str'>
1 <class 'str'>
1 <class 'str'>

 <class 'str'>
# f.readlines()与for循环搭配，每次取出列表中的一个元素，即对应文件中的一行字符串
with open('a.txt',mode='r',encoding='utf-8') as f:
    for i in f.readlines():
        print(i,type(i))
--------------------------------------------------------------------------
111
 <class 'str'>
222
 <class 'str'>
333
 <class 'str'>

读相关方法

with open('a.txt',mode='rt',encoding='utf-8') as f.txt:
'''一行一行读'''
    line1=f.readline()
    line2=f.readline()
    line3=f.readline()
    print(line1)
    print(line2)
    print(line3)
# 1.循环读出
    lines=[]
    for line in f:
        lines.append(line)
    print(lines)
# 2.  简化
    lines=f.readlines()
    print(lines)
'''方法2其实就是方法1的缩写，将文件内所有内容取出来，按照
分割，存入列表'''

写相关方法

with open('a.txt',mode='wt',encoding='utf-8') as f.txt:
# 1.用循环写入
    lines=['111
','222
','333
']
    for line in lines:
        f.write(line)
# 2.简化
    lines = ['111
', '222
', '333
']
    f.writelines(lines)
# 3.直接将hello写入
    f.writelines("hello")


其他：
with open(r'.a.txt',mode='wt',encoding='utf-8') as f:
    # print(f.txt.name) # 取的是打开文件的路径
    # print(f.txt.closed)
    for i in range(100):
        f.write("%s
" %i)
        f.flush()

四、控制文件内指针移动

控制文件内指针的移动都是以字节为单位
只有一种特殊情况，t模式下的read(n),代表的是n个字符，此外代表的全都是字节

此时f.txt内容如下:

with open('f.txt',mode='rt',encoding='utf-8') as f:
    data=f.read(6) # 6个字符
    print(data)  # 打印了你好和一个换行符和一个2，说明是以字符为一个单位
------------------
你好
222
    

with open('f.txt',mode='rb') as f:
    # data=f.read(6) # 6个字节
    data=f.read(8) # 8个字节
    print(data.decode('utf-8'))  # utf-8中你好占了六个字节，一个换行符加2，一共八个字符
-----------------------
你好
222


f.txt.seek(n,模式) # n代表的移动的字节个数

'''0模式：参照文件的开头开始移动(只有0模式可以在t下使用，1和2模式只能在b下使用)'''
with open('f.txt',mode='rt',encoding='utf-8') as f:
    f.seek(5,0)
    print(f.tell())
    print(f.read())
    print(f.tell())
    print('='*100)
    f.seek(0,0)
    print(f.read())

'''1模式：参照指针当前所在的位置'''
with open('f.txt',mode='rb') as f:
    f.seek(3,1)
    f.seek(3,1)
    print(f.tell())
    # f.seek(2,1)
    f.seek(5,0)
    print(f.read().decode('utf-8'))

'''2模式：参照文件末尾的位置'''
with open('f.txt',mode='rb') as f:
    f.seek(0,2)
    f.seek(-3,2)
    # print(f.tell())
    print(f.read().decode('utf-8'))


'''模拟程序记录日志的功能
time.strftime("%Y年%m月%d日 %H:%M:%S")，可将时间格式化
'''
import time
for i in range(10000):
    with open('access.log.txt',mode='at',encoding='utf-8') as f:
        s = time.strftime("%Y年%m月%d日 %H:%M:%S")
        content = "收入%s万
" %i
        res = "{} {}".format(s,content)
        f.write(res)
        time.sleep(1)
'''
模拟程序读取日志
'''
import time
with open('access.log.txt', mode="rb") as f:
    f.seek(0,2)
    while True:
        line = f.read()
        if len(line) == 0:
            time.sleep(1)
        else:
            print(line.decode('utf-8'))
'''
f.truncate(n)从文件开头往后数n个字节保留下来，其余全部删除
f.truncate()从文件开头往后数指针当前所在的位置，其余全部删除
'''
with open('f.txt',mode='ab') as f:
    f.truncate(3)
    f.seek(-3,2)
    f.truncate()

五、文件修改的两种方法

with open('a.txt',mode='r+t',encoding='utf-8') as f:
    print(f.writable())
    f.seek(7,0)
    f.write('SB')


with open('a.txt',mode='r+t',encoding='utf-8') as f:
    f.seek(3,0)
    f.write('h')

由上例得出结论：硬盘都是用新内容覆盖旧内容，没有修改的概念，但是内存是可以修改的.

如何修改文件

思路：把硬盘的内容先读入内存，然后在内存中修改完毕后，再覆盖到硬盘

'''
方式一：如我们常使用的word，notpad++都是此方法
步骤：
1、先将硬盘中文件的内容全部读入内存，然后在内存中修改完毕得到一个修改好的结果
2、将修改的结果覆盖回原文件
优点: 不耗费硬盘
缺点：耗费内存
'''
with open('a.txt',mode='rt',encoding='utf-8') as f1:
    data=f1.read()
    res=data.replace('lxx','SB')

with open('a.txt',mode='wt',encoding='utf-8') as f2:
    f2.write(res)

'''
方式二：
步骤：
1、循环读取源文件内容，一行行修改一行行写入一个新的临时文件
2、删除源文件
3、将临时文件重命名为源文件名
优点：节省内存
缺点：耗费硬盘空间
'''
import os
with open('a.txt',mode='rt',encoding='utf-8') as f1,
        open('.a.txt.swp',mode='wt',encoding='utf-8') as f2:
    for line in f1:
        res=line.replace('SB','lxx')
        f2.write(res)

os.remove('a.txt')
os.rename('.a.txt.swp','a.txt')