大二下学期团队项目（系统学习python爬取）

大二下学期团队项目（系统学习python爬取）

今日系统学习了python的bs4以及xpath解析：

bs4解析

1.实例化BeautifulSoup对象，将页面的原码数据加载。

2.通过BeautifulSoup的属性与方法进行定位。

soup.tagName 如soup.a获取第一个a标签

soup.find(tagName)等同于soup.tagName

soup.find('div',class_='song')定位到class=song的div

soup.find_all(tagName)符合要求的所以标签

select通过类选择器选择标签

通过text，string get_text()可获取文本 string为直系的文本

通过soup.a['href']可获取属性值。

xpath解析

实例化一个etree对象加载页面原码

调用etree对象xpath方法结合xpath表达式实现标签定位会返回Element对象

/表示从根节点定位，一个层级

//表示从任意节点定位，多个层级

//div[@class="song"]获取class为song的div

/p[1]通过索引获取，从1开始

/text()获取标签文本，直系

//text()获取标签的所有文本

/@src 获取src属性

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/fengchuiguobanxia/p/14702439.html