大二下学期团队项目(系统学习python爬取)

今日系统学习了python的bs4以及xpath解析:

bs4解析

1.实例化BeautifulSoup对象,将页面的原码数据加载。

2.通过BeautifulSoup的属性与方法进行定位。

soup.tagName 如soup.a获取第一个a标签

soup.find(tagName)等同于soup.tagName

soup.find('div',class_='song')定位到class=song的div

soup.find_all(tagName)符合要求的所以标签

select通过类选择器选择标签

通过text,string get_text()可获取文本 string为直系的文本

通过soup.a['href']可获取属性值。

xpath解析

实例化一个etree对象加载页面原码

调用etree对象xpath方法结合xpath表达式实现标签定位 会返回Element对象

/表示从根节点定位,一个层级

//表示从任意节点定位,多个层级

//div[@class="song"]获取class为song的div

/p[1]通过索引获取,从1开始

/text()获取标签文本,直系

//text()获取标签的所有文本

/@src 获取src属性

原文地址:https://www.cnblogs.com/fengchuiguobanxia/p/14702439.html