要点概论：

1. 字符编码

　　字符编码是计算机技术的基石，常见的字符编码有 ASCII , UTF-8 , Unicode , GB2312 , GBK等。

　　　　在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有 0 和 1 两种状态，8个二进制位就可以组合出256中状态，称为一个字节（byte）。

　　　　ASCII编码将英语字符与二进制值之间的关系进行了规定，对 0~9 的 10 个数字，26 个大小写字英文字母及一些其他符号进行了编码。

　　　　汉字多达 10 万个左右，而 ASCII 编码只能表示 256 种符号，远远不够，因为简体中文使用GB2312 编码方法，使用两个字节表示一个汉字

　　　　Unicode（Universal Multple-Octet Coded Character Set）编码将世界上的每一个符号进行独一无二的编码，解决了乱码问题。Unicode 又称为抽象编码，只是一个符号集，规定了符号的二进制代码，

　　　　并没有规定这个二进制代码应该如何存储和传输。传输编码是由UTF规范规定，常见的UTF规范包括UTF-8,UTF-16。

　　　　浏览网页的源码上会有类似 <meta charset = "UTF-8/">的信息，表示该网页为 UTF-8 编码。 UTF-8 作为互联网上使用最广的 Unicode 编码的实现方式之一，以 8 位表示英语，以 24 位表示中文及其他语言。

　　python语言根据文件编码方式不同将文件分为文本文件和二进制文件

　　1）文本文件：又称为 ASCII 文件，是由ASCII编码字符组成并且不带任何格式的文件，通常使用字处理软件（如 windows 记事本等）编辑。

　　　　文本文件的读取必须从文件的头部开始，一次全部读出，不能只读取中间的一部分数据，不可以跳跃式访问。

　　　　文本文件的每一行相当于一条记录，每条记录可长可短，记录之间使用“换行符”进行分割，不能同时进行读，写操作。

　　　　文本文件的有点是使用方便，占用内存资源较少，但其访问速度较慢，并且不易维护。

　　2）二进制文件：最原始的文件类型，直接把二进制码存放在文件中，以字节为单位访问数据，不能用字处理软件进行编辑。

　　　　二进制文件允许程序按所需的任何方式组织和访问数据，也允许对文件中各字节数据进行存取和访问。

　　3）除此之外，根据存储数据的性质可以将文件分为程序文件和数据文件，根据文件的流向分为输入文件和输出文件，根据文件的存储介质分为磁盘文件，磁带文件等。