六、字符编码、文件

一、字符编码

1. 计算机系统分为三层：

　　应用软件

　　操作系统

　　硬件

2.
文本编辑器读一个文件的三个过程：

　　1. 先启动文本编辑器

　　2. 文件编辑器会将文件内容读入内存

　　3. 将读入内存的内容显示到屏幕上

Cpython解释器执行一个py文件的三个过程：

　　1. 先启动python解释器

　　2. python解释器会将py文件的内容当中普通的文本内容读入内存

　　3. 开始解释执行刚刚读入内存的代码，识别python

3. 字符编码
字符编码指的是字符转换成/编码成数字
编码的过程一定要遵循一个标准，该标准称之为字符编码表

字符--------编码--------》数字
字符《--------解码--------数字

1. ASCII表：只能识别英文字符，用8bit对应一个英文字符

　　1个英文字符====>1Bytes

2. GBK表：可以识别中文字符、英文字符，用8bit对应一个英文字符，用16个bit对应一个中文字符

　　　　1个英文字符====>1Bytes

　　　　1个中文字符====>2Bytes

3. unicode(内存中默认使用该编码)：用2Bytes表示一个字符

　　1. 可以识别万国字符

　　2. 与各种字符编码的二进制数字都有对应关系

4. utf-8全称Unicode Transformation Format：
　　1个英文字符====>1Bytes
　　1个中文字符====>3Bytes

结论：
1、编码与解码
　　字符--------编码--------》数字
　　字符《--------解码--------数字

　　unicode二进制========编码========》utf-8二进制
　　unicode二进制《=======解码=========utf-8二进制

2. 内存中固定使用unicode编码，我们可以改变的是数据由内存刷到硬盘时采用的编码（应该采用utf-8）
　　unicode的特点：
　　　　1. 可以识别万国字符
　　　　2. 与各种字符编码的二进制数字都有对应关系

3. 解决乱码问题的核心：
　　1. 字符当初以什么编码存的，就应该以什么编码去读
　　2. 保证运行python程序的前两个阶段不乱码的解决方案：添加文件头
在文件首行添加#coding：文件当初存的字符编码

4. python解释器默认的编码
　　python3：默认utf-8
　　python2：默认ASCII

5.
　　python3的字符串类型在内存中存成unicode格式的二进制

二、文件

1、什么是文件

　　文件是操作系统为应用程序或者用户提供一种操作硬盘的虚拟单位

　　强调：

　　　　文件是操作系统提供的虚拟单位

　　　　应用程序或者用户对文件的读写操作其实都是向操作系统发送指令

2、为何要用文件

　　文件对应的硬盘空间，如果需要考虑永久保存数据那必须使用文件

3、如何用文件

　　路径

　　　　绝对路径：c:ac、d.txt（Windows）

　　　　　　 /a/b/c/d.tx（Linux）

　　　　相对路径：相对于当前执行文件所在文件夹

　　　　　　　　 /a/b/c/d.txt

　　1、打开文件

　　　 f=open（'a.txt',mode='r'，mode='rt'，encoding=‘utf-8） #应用程序开辟一块应用程序的内存空间

　　 print(f)

　　2、读写文件

　　　　读：

　　　　　　f.read() #像操作系统发送指令，从硬盘读取数据到应用程序的内存

　　　　　　f.write()

　　　　　　f.readline() #一行行读

　　　　　　for line in f:

　　　　　　　　print(line)

　　　　　　f.readlines #全部读，列表形式

　　　　　　f.readable() #True False

　　　　写：

　　　　　　f.write() #

　　　　　　f.writelines()

　　3、关闭文件

　　　　f.close()　　#像操作系统发送指令，让操作系统回收打开的文件，回收操作系统资源

　　rt模式：读文件时，文件存的用什么编码，就用什么编码去读

　　应用程序（占用资源，应用程序自动回收）-------------->操作系统（占用资源，f.close()回收）-------------->系统硬盘

　　应用程序（开辟一块应用程序的内存空间）向操作系统发送指令（开辟一块操作系统空间），从硬盘读取数据到应用程序的内存，读完就f.close(),操作系统资源被回收；应用程序的内存是pycharm自动回收

　　上下文管理

　　　　with open('a.txt',mode='rt',encoding='utf-8') as f:

　　　　　　data=f.read()

　　　　　　print(data)

　　4、文件的打开模式

　　　　#控制文件操作的模式

　　　　r（默认rt）：只读模式，以该模式打开文件，当文件不存在时，报错；当文件存在时，文件指针在文件开头

　　　　#控制文件操作内容的模式（不能单独使用，必须与r、w、a连用）

　　　　t（默认）：文本模式，无论读写都是以字符为单位的，只能操作文本文件，必须指定encoding参数

　　　　b：二进制模式，无论读写都是bytes为单位的，能操作所有文件，一定不能指定encoding

　　5、文件的写入模式

　　　　w:只写模式，以该模式打开文件，当文件不存在时创建一个空文档；当文件存在时清空文件内容，文件指针在文件开头　　　　

　　　　在打开了文件不关闭的情况下，连续的写入，新写的内容总是跟在老内容之后

　　　　　　　　f.write('哈哈哈 ')

　　　　　　　　f.write('小仙女 ')

　　　　　　l=['111 ','222 ','333 ']

　　　　　　for line in lines:

　　　　　　　　f.write(line)

　　　　　　　 f.writelines(lines)

　　　　　 f.write('aaa bbb ccc ')　　　　

　　　　a：只追加写模式，以该模式打开文件，当文件不存在时创建一个空文档；当文件存在时不清空文件内容，文件指针跳到文件末尾

　　　　　　with open('a.txt',mode='at',encoding='utf-8') as f:

　　　　　　　　　　f.write('接口方面和方法 ')

　　　　　　　　　　f.write('hfffjrglle ')

　　　　　　　　　　f.writelines([1,2,3])

　　　　　　with open('a.txt',mode='rb') as f:

　　　　　　　　　　data=f.read()

　　　　　　　　　　print(data,type(data))

　　6、拷贝文件小程序

　　　　　　with open(‘01.mp4’，mode='rb') as read_f:

　　　　　　　　　　open(r'D:\1111.mp4',mode='wb') as write_f:

　　　　　　　　data=read_f.read()

　　　　　　　　write_f.write(data)

　　7、文件修改的两种方式

　　　　方式一：

　　　　　　1、以读的方式打开源文件

　　　　　　2、将文件内容一次性全读入内存，在内存完成修改

　　　　　　3、以写的方式打开源文件，然后将修改后的结果一次性写入源文件

　　　　　　优点：在文件修改过程中硬盘只存在一份数据

　　　　　　缺点：浪费内存

　　　　　　with open('a.txt',mode='rt',encoding='utf-8') as f1:

　　　　　　　　msg=f.read()

　　　　　　　　new_msg=msg.replace('你好'，'哈哈哈')

　　　　　　with open('a.txt',mode='wt',encoding='utf-8') as f2:

　　　　　　　　f2.write(new_msg)

　　　　方式二：

　　　　　　1、以读的方式打开源文件，以写的方式打开一个临时文件

　　　　　　2、读取源文件中的一行内容到内存中，将修改的结果写入临时文件，循环往复直到改完

　　　　　　3、删除源文件，将临时文件重命名为源文件名

　　　　　　优点：同一时间在内存中只有文件的一行内容，更节省内存

　　　　　　缺点：在文件修改过程中硬盘中存在两份数据

　　　　　　import os

　　　　　　with open('a.txt',mode='rt',encoding='utf-8') as read_f:

　　　　　　　　open('.a.txt.swap',mode='wt',encoding='utf-8') as write_f:

　　　　　　　　for line in read_f:

　　　　　　　　　　write_f.write(line.repalce('你好','哈哈哈'))

　　　　　　os.remove('a.txt')

　　　　　　os.rename('.a.txt.swap','a.txt')

了解：

　　　　+：不能单独使用，必须与rwa连用，r+ w+ a+
　　　　with open('a.txt','r+t',encoding='utf-8') as f:
   　　 print(f.readable())
   　　 print(f.writable())

   　　 data=f.readline()
   　　 print(data)
    　　f.write('刘清蒸')

4、控制文件内指针移动

　　强调：只有t模式下read(n)，n代表字符个数，除此以外都是以字节为单位
　　　　with open('a.txt',mode='rt',encoding='utf-8') as f:
　　　　　　res=f.read(4)
　　　　　　print(res)

　　　　with open('a.txt',mode='rb') as f:
　　　　　　res=f.read(3)
　　　　　　print(res.decode('utf-8'))

　　　　with open('a.txt',mode='at',encoding='utf-8') as f:
　　　　　　f.truncate(3)

　　　　f.seek()：指针移动是以字节为单位的
　　三种模式：只有0模式既可以在t下用也可以在b下用，而1、2两种模式只能在b模式下使用
　　　　0（默认的）：参照文件开头
　　　　　　with open('a.txt',mode='rt',encoding='utf-8') as f:
　　　　　　　　f.seek(3,0)
　　　　　　　　print(f.tell())
　　　　　　　　print(f.read())

　　　　1：参照指针当前所在的位置
　　　　　　with open('a.txt',mode='rb') as f:
　　　　　　　　f.read(2)
　　　　　　　　f.seek(4,1)
　　　　　　　　print(f.tell())
　　　　　　　　print(f.read().decode('utf-8'))

　　　　2: 参照文件末尾
　　　　　　with open('a.txt',mode='rb') as f:
　　　　　　　　f.seek(-5,2)
　　　　　　　　print(f.tell())
　　　　　　　　print(f.read().decode('utf-8'))