python网络爬虫day1

python爬虫真的很方便，自己不能忽视的问题就是字符编码的问题，一直想腾出时间来看，一直没有时间。明天开始看吧。

今天是学习python爬虫的第一天，从B站上搜到的，可惜可惜。

import  requests

def getHtmlText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return  r.text
    except:
        return "产生异常"


url="http://baidu.com"
print(getHtmlText(url))

一开始的代码很简单，就是爬取百度的内容。百度做了反爬虫的处理，哈哈哈哈。

import requests
kv={'user-agent':"Mozilla/5.0"}
r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)
print(r.status_code)
print(r.text)

爬亚马逊，亚马逊对爬虫做了限制处理，直接爬取会出错，令爬虫模拟浏览器。

r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)

import requests
kv={"wd":'python'}
r=requests.get("https://www.baidu.com/s",params=kv)
print(r.status_code)
print(r.request.url)

爬取百度关键字的搜素内容，难度不大，使用params参数就行了。