python BeautifulSoup模块的简要介绍

 

常用介绍:

pip install beautifulsoup4  # 安装模块

from bs4 import BeautifulSoup  # 导入模块

soup = BeautifulSoup(html, 'html.parser')  # 解析网页,得到soup对象
soup.find(tag)  # 查找标签,并返回找到的第一个标签
soup.find_all(tag)  # 查找所有标签,并返回所有标签的列表
soup.get_text(tag)  # 获得标签中的文本内容
soup.get(tag)  # 获得标签的属性内容

CSS选择器:

from bs4 import BeautifulSoup

soup.select("title")  # 选择为“title”的标签
soup.select("body a")  # 通过标签逐层查找
soup.select("head > title")  # 找到某个标签下的直接子标签
soup.select(".sister")  # 通过CSS的类名查找
soup.select("#link1")  # 通过标签的id查找
soup.select("a[href]")  # 通过是否存在某个属性来查找

 soup.select("p a[class]"), soup.select("p a[href]"), soup.select("p a[id]"), soup.select("p a[class=sister]")  # 引号内部不需要再加引号了

 CSS选择器

参考:

BeautifulSoup文档

原文地址:https://www.cnblogs.com/sxhui/p/6127723.html