python之爬虫基础

1.爬虫概念

其实就是模拟浏览器发送请求获取相应的数据
    1.模拟请求
    2.获取数据
    3.筛选数据
    4.保存数据

爬虫仅仅是将浏览器可以访问到的数据通过代码的方式加速访问
用于更加快速的获取数据，提升工作效率

2.HTTP协议

1.四大特性
    无状态(cookie、session、token)
2.数据格式
    请求首行
    请求头(重点)
    
    请求体
3.响应状态码
    404
    200

HTML：
构建网页的骨架
    爬虫其实就是大部分都是请求HTML数据然后筛选出想要的部分

3.requests模块

能够模拟浏览器发送请求获取HTML数据，但是该模块不支持运行js代码

# 下载
pip3 install requests

# 基本使用
requests.get()
requests.post()

import requests

res = requests.get('https://www.baidu.com')
# 获取响应状态码
print(res.status_code)  # 200

# 如果不指定编码，汉字会变为乱码
res.encoding='utf8'
print(res.text) # 获取页面的文本数据

# 获取页面的二进制数据
print(res.content)

3.1 请求携带头

# 部分网站针对爬虫做了一定的防爬限制，需要携带请求头，例如抽屉网，如果不携带请求头，提示403

import requests

res = requests.get('https://dig.chouti.com/',
                   headers={
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
                   }
                   )
print(res.status_code) # 不加headers：403
# 200

3.2 携带参数params

import requests

res = requests.get('https://www.baidu.com/s',
             # 携带请求头，需要什么就加什么，摸索测试
             headers={
                 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
             },
             # 携带参数
             params={
                 "wd": "美女"
             }
             )

3.3 携带cookies

# 根据登录留cookie进行登录
requests.get(url,
             cookies={
                 ...
             }
            )

4.基于post的请求

4.1 案例1：

requests.post(url,data={
   k:v 
})

# 华华手机登录案例

"""
用户登陆与否 网站的区别
    1.不登录右上角是登录注册
    2.登录之后右上角是用户名
访问：http://www.aa7a.cn/user.php
查看提交数据
Form Data
username: 780733xxx@qq.com
password: 123qwe
captcha: UXLG
remember:1
ref: http://www.aa7a.cn # 是从哪个页面跳转到登录页面的
act: act_login
"""
import requests

res = requests.post('http://www.aa7a.cn/user.php',
                    headers={
                        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
                    },
                    data={
                        "username": "780733xxx@qq.com",
                        "password": "123qwe",
                        "captcha": "9ADN",
                        "remember": "1",
                        "ref": "http://www.aa7a.cn",
                        "act": "act_login",
                    }
                    )

# 获取服务端返回给你的cookie数据
# print(res.cookies.get_dict())
"""
<RequestsCookieJar[<Cookie ECS[password]=ad0089560b9f8a6b5fa985224451e5a7 for www.aa7a.cn/>,
 <Cookie ECS[user_id]=67057 for www.aa7a.cn/>, <Cookie ECS[username]=780733727%40qq.com for www.aa7a.cn/>, 
 <Cookie ECS[visit_times]=1 for www.aa7a.cn/>, <Cookie ECS_ID=7655f6281f59557885b9b509f24c738d8e6060b7 for www.aa7a.cn/>]>
# get_dict():{'ECS[password]': 'ad0089560b9f8a6b5fa985224451e5a7', 'ECS[user_id]': '67057', 
            'ECS[username]': '780733xxx%40qq.com', 'ECS[visit_times]': '1', 'ECS_ID': 'f4dacf72dfc95354ef3e4e771a06f9d2e43712eb'}
"""
my_cookie = res.cookies.get_dict()
# 携带cookie发送get请求验证是否登录
res = requests.get('http://www.aa7a.cn/',
                   cookies=my_cookie
                   )
# 如何判断当前是否登录
if '780733xxx@qq.com' in res.text:
    print('登录成功')
else:
    print("用户名或密码错误")

4.2 二进制流数据

# stream参数:一点一点的取,比如下载视频时,如果视频100G,用response.content然后一下子写到文件中是不合理的

import requests
response=requests.get('https://gss3.baidu.com/6LZ0ej3k1Qd3ote6lo7D0j9wehsv/tieba-smallvideo-transcode/1767502_56ec685f9c7ec542eeaf6eac93a65dc7_6fe25cd1347c_3.mp4',
                      stream=True)
with open('b.mp4','wb') as f:
    for line in response.iter_content():
        f.write(line)

4.3 解析json

#解析json
import requests
response=requests.get('http://httpbin.org/get')

import json
res1=json.loads(response.text) #太麻烦

res2=response.json() #直接获取json数据

print(res1 == res2) #True

4.4 SSL Cert

#证书验证(大部分网站都是https)
import requests
respone=requests.get('https://www.12306.cn') #如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端



#改进1:去掉报错,但是会报警告
import requests
respone=requests.get('https://www.12306.cn',verify=False) #不验证证书,报警告,返回200
print(respone.status_code)

#改进2:去掉报错,并且去掉警报信息
import requests
from requests.packages import urllib3
urllib3.disable_warnings() #关闭警告
respone=requests.get('https://www.12306.cn',verify=False)
print(respone.status_code)

#改进3:加上证书
#很多网站都是https,但是不用证书也可以访问,大多数情况都是可以携带也可以不携带证书
#知乎百度等都是可带可不带
#有硬性要求的,则必须带，比如对于定向的用户,拿到证书后才有权限访问某个特定网站
import requests
respone=requests.get('https://www.12306.cn',
                     cert=('/path/server.crt',
                           '/path/key'))
print(respone.status_code)

4.5 异常处理

#异常处理
import requests
from requests.exceptions import * #可以查看requests.exceptions获取异常类型

try:
    r=requests.get('http://www.baidu.com',timeout=0.00001)
except ReadTimeout:
    print('===:')
# except ConnectionError: #网络不通
#     print('-----')
# except Timeout:
#     print('aaaaa')

except RequestException:
    print('Error')

4.6 上传文件

import requests
files={'file':open('a.jpg','rb')}
respone=requests.post('http://httpbin.org/post',files=files)
print(respone.status_code)

4.7基本防爬措施

1.校验当前请求是否是由浏览器发出的
    请求头里面有没有User-Agent参数
    requests.get(url,headers={...})
 
2.校验当前请求来自于哪里
    请求头里面有没有referer(ref)参数
    requests.get(url,headers={...})
    
3.校验IP地址在固定的时间内访问的次数

#官网链接: http://docs.python-requests.org/en/master/user/advanced/#proxies

1.采用IP代理池(免费、收费)
        import requests
        proxies={
            'http':'110.88.30.71:4245',
            'http':'27.150.192.211:4237',
            'http':'114.103.135.153:4278',
        }
        respone=requests.get('https://www.12306.cn',
                             proxies=proxies)  # 可能个别IP会被封，可以使用timeout超时设置 timeout=0.01
        print(respone.status_code)
    2.人为的设置时间间歇
        time.sleep()
4.校验cookie在固定的时间内访问的次数
    采用cookie代理池()
    先获取到很多登录之后网站返回的用户cookie数据
    之后在访问的时候随机携带一个用户cookie

5.筛选数据之BS4

文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

5.1 bs4基本用法

该模块封装了正则表达式能够更加简单快速的帮助你筛选出想要的标签及内容

# 下载
pip3 install beautifulsoup4

# 解析器
    有四种不同的解析器
        html.parse  
        lxml
        lxml.xml
        html5lib
pip3 install lxml

# 导入方式
from bs4 import BeautifulSoup

#遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个
#1、用法
#2、获取标签的名称
#3、获取标签的属性
#4、获取标签的内容
#5、嵌套选择
#6、子节点、子孙节点
#7、父节点、祖先节点
#8、兄弟节点

#遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p id="my p" class="title"><b id="bbb" class="boldest">The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

#1、用法
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')
# soup=BeautifulSoup(open('a.html'),'lxml')

print(soup.p) #存在多个相同的标签则只返回第一个
print(soup.a) #存在多个相同的标签则只返回第一个

#2、获取标签的名称
print(soup.p.name)

#3、获取标签的属性
print(soup.p.attrs)

#4、获取标签的内容
print(soup.p.string) # p下的文本只有一个时，取到，否则为None
print(soup.p.strings) #拿到一个生成器对象, 取到p下所有的文本内容
print(soup.p.text) #取到p下所有的文本内容
print(soup.p.children)

for line in soup.stripped_strings: #去掉空白
    print(line)

'''
如果tag包含了多个子节点,tag就无法确定 .string 方法应该调用哪个子节点的内容, .string 的输出结果是 None，如果只有一个子节点那么就输出该子节点的文本，比如下面的这种结构，soup.p.string 返回为None,但soup.p.strings就可以找到所有文本
<p id='list-1'>
    哈哈哈哈
    <a class='sss'>
        <span>
            <h1>aaaa</h1>
        </span>
    </a>
    <b>bbbbb</b>
</p>
'''

#5、嵌套选择
print(soup.head.title.string)
print(soup.body.a.string)

#6、子节点、子孙节点
print(soup.p.contents) #p下所有子节点
print(soup.p.children) #得到一个迭代器,包含p下所有子节点

for i,child in enumerate(soup.p.children):
    print(i,child)

print(soup.p.descendants) #获取子孙节点,p下所有的标签都会选择出来
for i,child in enumerate(soup.p.descendants):
    print(i,child)

#7、父节点、祖先节点
print(soup.a.parent) #获取a标签的父节点
print(soup.a.parents) #找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...

#8、兄弟节点
print('=====>')
print(soup.a.next_sibling) #下一个兄弟
print(soup.a.previous_sibling) #上一个兄弟

print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象
print(soup.a.previous_siblings) #上面的兄弟们=>生成器对象

5.2 过滤器：find 和find_all

#搜索文档树：BeautifulSoup定义了很多搜索方法,这里着重介绍2个: find() 和 find_all() .其它方法的参数和用法类似
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p id="my p" class="title"><b id="bbb" class="boldest">The Dormouse's story</b>
</p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')

#1、五种过滤器: 字符串、正则表达式、列表、True、方法
#1.1、字符串：即标签名
print(soup.find_all('b'))

#1.2、正则表达式
import re
print(soup.find_all(re.compile('^b'))) #找出b开头的标签，结果有body和b标签

#1.3、列表：如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有<a>标签和<b>标签:
print(soup.find_all(['a','b']))

#1.4、True：可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点
print(soup.find_all(True))
for tag in soup.find_all(True):
    print(tag.name)

#1.5、方法:如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

print(soup.find_all(has_class_but_no_id))

#2、find_all( name , attrs , recursive , text , **kwargs )
#2.1、name: 搜索name参数的值可以使任一类型的 过滤器 ,字符窜,正则表达式,列表,方法或是 True .
print(soup.find_all(name=re.compile('^t')))

#2.2、keyword: key=value的形式，value可以是过滤器：字符串 , 正则表达式 , 列表, True .
print(soup.find_all(id=re.compile('my')))
print(soup.find_all(href=re.compile('lacie'),id=re.compile('d'))) #注意类要用class_
print(soup.find_all(id=True)) #查找有id属性的标签

# 有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>','lxml')
# data_soup.find_all(data-foo="value") #报错：SyntaxError: keyword can't be an expression
# 但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag:
print(data_soup.find_all(attrs={"data-foo": "value"}))
# [<div data-foo="value">foo!</div>]

#2.3、按照类名查找，注意关键字是class_，class_=value,value可以是五种选择器之一
print(soup.find_all('a',class_='sister')) #查找类为sister的a标签
print(soup.find_all('a',class_='sister ssss')) #查找类为sister和sss的a标签，顺序错误也匹配不成功
print(soup.find_all(class_=re.compile('^sis'))) #查找类为sister的所有标签

#2.4、attrs
print(soup.find_all('p',attrs={'class':'story'}))

#2.5、text: 值可以是：字符，列表，True，正则
print(soup.find_all(text='Elsie'))
print(soup.find_all('a',text='Elsie'))

#2.6、limit参数:如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果
print(soup.find_all('a',limit=2))

#2.7、recursive:调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .
print(soup.html.find_all('a'))
print(soup.html.find_all('a',recursive=False))

'''
像调用 find_all() 一样调用tag
find_all() 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法. BeautifulSoup 对象和 tag 对象可以被当作一个方法来使用,这个方法的执行结果与调用这个对象的 find_all() 方法相同,下面两行代码是等价的:
soup.find_all("a")
soup("a")
这两行代码也是等价的:
soup.title.find_all(text=True)
soup.title(text=True)
'''

#3、find( name , attrs , recursive , text , **kwargs )
find_all() 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个<body>标签,那么使用 find_all() 方法来查找<body>标签就不太合适, 使用 find_all 方法并设置 limit=1 参数不如直接使用 find() 方法.下面两行代码是等价的:

soup.find_all('title', limit=1)
# [<title>The Dormouse's story</title>]
soup.find('title')
# <title>The Dormouse's story</title>

唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果.
find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None .
print(soup.find("nosuchtag"))
# None

soup.head.title 是 tag的名字 方法的简写.这个简写的原理就是多次调用当前tag的 find() 方法:

soup.head.title
# <title>The Dormouse's story</title>
soup.find("head").find("title")
# <title>The Dormouse's story</title>

print(soup.find(name='a'))
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
print(soup.find_all(name='a'))
列出所有a标签