Request模块—数据解析工具

一、爬虫基本步骤

指定URL信息
发起请求
获取响应数据
对响应数据进行数据解析
持久化存储

二、数据解析

1. 正则表达式

(1) 基本语法

1. 单字符：
	. : 除换行以外所有字符
	[] ：[aoe] [a-w] 匹配集合中任意一个字符
	d ：数字  [0-9]
	D : 非数字
	w ：数字、字母、下划线、中文
	W : 非w
	s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ f

	v]。
	S : 非空白
2. 数量修饰：
	* : 任意多次  >=0
	+ : 至少1次   >=1
	? : 可有可无  0次或者1次
	{m} ：固定m次 hello{3,}
	{m,} ：至少m次
	{m,n} ：m-n次
3. 边界：
	$ : 以某某结尾
	^ : 以某某开头
4. 分组：
	(ab)  
5. 贪婪模式： .*
6. 非贪婪（惰性）模式： .*?
7. 爬虫正则
	re.I : 忽略大小写
    re.M ：多行匹配
    re.S ：单行匹配  //爬虫常用
    re.sub(正则表达式, 替换内容, 字符串)

(2) 相关案例

import re
# 提取出python
key="javapythonc++php"
re.findall('python',key)[0]
-----------------------------------------------------------------------------------------
# 提取出hello world
key="<html><h1>hello world<h1></html>"
re.findall('<h1>(.*)<h1>',key)[0]
-----------------------------------------------------------------------------------------
# 提取170
string = '我喜欢身高为170的女孩'
re.findall('d+',string)
-----------------------------------------------------------------------------------------
# 提取出http://和https://
key='http://www.baidu.com and https://boob.com'
re.findall('https?://',key)
-----------------------------------------------------------------------------------------
# 提取出hello
key='lalala<hTml>hello</HtMl>hahah' #输出<hTml>hello</HtMl>
re.findall('<[Hh][Tt][mM][lL]>(.*)</[Hh][Tt][mM][lL]>',key)
-----------------------------------------------------------------------------------------# 提取出hit.
key='bobo@hit.edu.com'  # 想要匹配到hit.
re.findall('h.*?.',key)
-----------------------------------------------------------------------------------------
# 匹配sas和saas
key='saas and sas and saaas'
re.findall('sa{1,2}s',key)
-----------------------------------------------------------------------------------------
# 匹配出i开头的行
string = '''fall in love with you
i love you very much
i love she
i love her'''

re.findall('^.*',string,re.M)
-----------------------------------------------------------------------------------------
# 匹配全部行
string1 = """<div>静夜思
窗前明月光
疑是地上霜
举头望明月
低头思故乡
</div>"""

re.findall('.*',string1,re.S)

2. Beautifulsoup

(1) 环境安装

- 需要将pip源设置为国内源，阿里源、豆瓣源、网易源等
   - windows
    （1）打开文件资源管理器(文件夹地址栏中)
    （2）地址栏上面输入 %appdata%
    （3）在这里面新建一个文件夹  pip
    （4）在pip文件夹里面新建一个文件叫做  pip.ini ,内容写如下即可
        [global]
        timeout = 6000
        index-url = https://mirrors.aliyun.com/pypi/simple/
        trusted-host = mirrors.aliyun.com
   - linux
    （1）cd ~
    （2）mkdir ~/.pip
    （3）vi ~/.pip/pip.conf
    （4）编辑内容，和windows一模一样
- 需要安装：pip install bs4
     bs4在使用时候需要一个第三方库，把这个库也安装一下
     pip install lxml

(2) 基础使用

1. 使用流程：       
    - 导包：from bs4 import BeautifulSoup
    - 使用方式：可以将一个html文档，转化为BeautifulSoup对象，然后通过对象的方法或者属性去查找指定的节点
    
2. 内容
	(1)转化本地文件：
		- soup = BeautifulSoup(open('本地文件'), 'lxml')
	(2)转化网络文件：
		- soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')
	(3)打印soup对象显示内容为html文件中的内容
    
3. 基础巩固：
    （1）根据标签名查找
        - soup.a   只能找到第一个符合要求的标签
    （2）获取属性
        - soup.a.attrs  获取a所有的属性和属性值，返回一个字典
        - soup.a.attrs['href']   获取href属性
        - soup.a['href']   也可简写为这种形式
    （3）获取内容
        - soup.a.string
        - soup.a.text
        - soup.a.get_text()
       【注意】如果标签还有标签，那么string获取到的结果为None，而其它两个可以获取文本内容
    （4）find：找到第一个符合要求的标签
        - soup.find('a')  找到第一个符合要求的
        - soup.find('a', title="xxx")
        - soup.find('a', alt="xxx")
        - soup.find('a', class_="xxx")
        - soup.find('a', id="xxx")
    （5）find_all：找到所有符合要求的标签
        - soup.find_all('a')
        - soup.find_all(['a','b']) 找到所有的a和b标签
        - soup.find_all('a', limit=2)  限制前两个
    （6）根据选择器选择指定的内容
               select:soup.select('#feng')
        - 常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器
            - 层级选择器：
                div .dudu #lala .meme .xixi  下面好多级
                div > p > a > .lala          只能是下面一级
        【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

3. xpath

(1) 选取节点

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

(2) 案例

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点
/bookstore	选取根元素 bookstore;注释：假如路径起始于正斜杠( / )则此路径始终代表到某元素的绝对路径
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素
//book	选取所有 book 子元素，而不管它们在文档中的位置
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置
//@lang	选取名为 lang 的所有属性

(3) 谓语

表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素
/bookstore/book[position()❤️]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00

(4) 选取位置节点

表达式	结果
*	匹配任何元素节点
@*	匹配任何元素属性节点
node()	匹配任何类型的节点

路径表达式	结果
/bookstore/*	选取bookstore元素的所有子元素
//*	选取文档中的所有元素
//title[@*]	选取所有带属性的title元素

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素
//title \| //price	选取文档中的所有 title 和 price 元素
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素

(5) 基本案例

1. 属性定位：
    #找到class属性值为song的div标签
    //div[@class="song"]
2. 层级&索引定位：
    #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
    //div[@class="tang"]/ul/li[2]/a
3. 逻辑运算：
    #找到href属性值为空且class属性值为du的a标签
    //a[@href="" and @class="du"]
4. 模糊匹配：
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")]
5. 取文本：
    # /表示获取某个标签下的文本内容
    # //表示获取某个标签下的文本内容和所有子标签下的文本内容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
6. 取属性：
    //div[@class="tang"]//li[2]/a/@href

三、流程

1.下载：pip install lxml

2.导包：from lxml import etree

3.将html文档或者xml文档转换成一个etree对象，然后调用对象中的方法查找指定的节点
	2.1 本地文件: tree = etree.parse(文件名)
                 tree.xpath("xpath表达式")
    2.2 网络数据：tree = etree.HTML(网页内容字符串)
                 tree.xpath("xpath表达式")
        
4.备注:
    安装Chrome的xpath插件
    安装xpath插件在浏览器中对xpath表达式进行验证：可以在插件中直接执行xpath表达式
	将xpath插件拖动到谷歌浏览器拓展程序（更多工具）中，安装成功
    启动和关闭插件 ctrl + shift + x
  	
5.xpath解析原理
- 实例化一个etree的对象，且将页面源码数据加载到该对象中    
- 调用etree对象中的xpath方法实现标签定位和数据的提取    
- 在xpath函数中必须作用xpath表达式    
- xpath函数返回的一定是一个列表