Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理
源代码如下:
# 改进版, 增加了 .strip()方法的使用 # coding=utf-8 # urllib是用于获取网络资源的库,python3自带 # 此处的request是由Request类创建的一个实例对象 import urllib.request # 调用request对象的urlopen()方法 , 传入url参数 file = urllib.request.urlopen("http://www.baidu.com") # readlines()方法逐行读取整个文件到一个列表 # 注意: .readlines()方法会把字符串前后的空白字符都抓进来, 可用.strip()方法去掉 file_list = file.readlines() # 用for循环和if条件语句来遍历读取列表的前200个元素 i = 0 for file_per in file_list: i += 1 if i <= 200: print(file_per.strip()) # str.strip(): 去掉字符串前后的空白字符 else: break