python爬百度首页

使用requests模块

import requests
res=requests.get("http://www.baidu.com")
res.encoding='utf-8-sig'

file=open('baidu.html','w',encoding='utf-8-sig')
file.write(res.text)
file.close()
print(res.text)

或者

import requests
url='https://www.baidu.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
}
get_response = requests.get(url,headers=headers,params=None)
page=get_response.content
with open('baidu2.html','wb') as f:
    f.write(page)
print(get_response.text)
print(get_response.content)
print(get_response.json)

get_response.text得到的是str数据类型。
get_response.content得到的是Bytes类型,需要进行解码。作用和get_response.text类似。
get_response.json得到的是json数据。
使用urllib模块

import urllib.request

headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
 }
req=urllib.request.Request(url='http://www.baidu.com',headers=headers)
response=urllib.request.urlopen(req)
webpage=response.read()

with open('baidu3.html','wb') as f:
     f.write(webpage)