python爬虫开发与项目实践-学习笔记(一)

1、磁盘IO操作

文件的读写:

1)open函数使用一个文件名作为唯一的强制参数,然后返回一个文件对象。

>>> f=open(r'F:projecttestabc.txt')

2)文件模式。

一般文本文件处理,用不到b参数,但处理一些其他类似的文件(二进制文件),比如图像和MP3格式,增加b模式,这在爬虫处理媒体文件中很常用。参数rb可以用来读取一个二进制文件。

3)文件缓存区

4)文件读取

>>> f=open(r'F:projecttestabc.txt')
>>> f.read()
'cesjhi'

5)文件关闭

>>> f=open(r'F:projecttestabc.txt')
>>> f.read()
'cesjhi'
>>> f.close()

6)IO异常处理

try...finally实现

try:
    f=open(r'F:projecttestabc.txt','r')
    print(f.read())
finally:
    if f:
        f.close()

python简单实现方法,with替代try...finally与close

with open(r'F:projecttestabc.txt','r') as fileReader:
    print(fileReader.read())

7)其他

大文件,防止内存不足,可反复调用read(size),一次最多读取size个字节

配置文件或者其他文本文件,可以采用按行读取readlines()

with open(r'F:projecttestabc.txt','r') as fileReader:
    for line in fileReader.readlines():
        print(line.strip)

8)文件写入

with open(r'F:projecttestabc.txt','w') as fileWriter:
    fileWriter.write('ceshi') #w 去掉了原来的文本内容
with open(r'F:projecttestabc.txt','r') as fileReader:
    print(fileReader.read())

with open(r'F:projecttestabc.txt','a') as fileWriter:
    fileWriter.write('
ceshi')#a 追加
with open(r'F:projecttestabc.txt','r') as fileReader:
    print(fileReader.read()) 
 
原文地址:https://www.cnblogs.com/shishibuwan/p/9167600.html