爬虫与Python:(四)爬虫进阶二之数据存储(文件存储)——1.Text存储

在实际工作中,使用爬虫获取数据后,要想办法把数据存储起来,以便日后对数据进行各种操作,这也是网络爬虫的最后一步。这一篇,将介绍Text文件促成你。

Text文本文件存储是最常见的存储方式,在计算机中新建文件大多是Text文件,其示例如下:

1 file = open("filename",'a',encoding='utf-8')
2 file.write("需要写入的字符串")
3 file.close();

以上示例为标准的文件存储方式,即打开文件、写入数据、关闭文件。open()方法用于打开一个文件,并返回文件对象,在文件进行处理的过程中都需要使用这个函数,若该文件无法打开,则会爆出OSError。使用open()方法一定要保证关闭文件对象,及调用close()函数。open()函数常用的形式是接收两个参数:文件名(file)和模式(mode)。write()方法用于向文件中写入指定字符串,以下代码中的写法,会随着with语句的结束而自动关闭,不需要调用close()函数:

1 with open("filename",'a' , encoding='utf-8') as file:
2     file.write('...')

文件操作常见模式如下表:

文件操作常见模式
模式 描述
r 以只读方式打开,文件的指针将放在文件的开头。这是默认形式。
rb 以二进制格式打开一个文件用于只读,文件指针放在文件开头,这是默认模式,一般用于非文本文件,如图片等。
r+ 打开一个文件用于读写,文件指针将放在文件开头。
rb+  以二进制格式打开一个文件用于读写,文件指针将放在文件开头。一般用于非文本文件,如图片等。
w  打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该未经不存在,则创建新文件。
 wb  以二进制格式打开一个文件用于写入。若该文件已存在则打开文件,并从文件开头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。
 W+ 打开一个文件用于读写。若该文件已存在则打开文件,并从头开始编辑,即原有内容会被删除;若该文件不存在,则创建新文件。
 Wb+ 以二进制格式打开一个文件用于读写。若该文件已存在则打开该文件,并从文件开头开始编辑,即原有文件会被删除;若该文件不存在,则创建新文件。一般用于非文本文件,如图片等。
 a  打开一个文件用于追加。若该文件已存在,则文件指针将会放到文件的结尾,即行的内容会被写入已有内容之后;若该文件不存在,则创建新文件进行写入。
ab 以二进制格式打开一个文件用于追加。若该文件已存在,则指针将放在该文件结尾,文件打开时会是追加模式;若该文件不存在,则创建文件用于读写。
ab+ 以二进制格式打开一个文件用于追加。若该文件已存在,则文件指针将放在文件的结尾;若该文件不存在,则创建新文件用于读写。
原文地址:https://www.cnblogs.com/luyj00436/p/15434304.html