python BeautifulSoup模块的简要介绍

常用介绍：

pip install beautifulsoup4  # 安装模块

from bs4 import BeautifulSoup  # 导入模块

soup = BeautifulSoup(html, 'html.parser')  # 解析网页，得到soup对象
soup.find(tag)  # 查找标签，并返回找到的第一个标签
soup.find_all(tag)  # 查找所有标签，并返回所有标签的列表
soup.get_text(tag)  # 获得标签中的文本内容
soup.get(tag)  # 获得标签的属性内容

CSS选择器：

from bs4 import BeautifulSoup

soup.select("title")  # 选择为“title”的标签
soup.select("body a")  # 通过标签逐层查找
soup.select("head > title")  # 找到某个标签下的直接子标签
soup.select(".sister")  # 通过CSS的类名查找
soup.select("#link1")  # 通过标签的id查找
soup.select("a[href]")  # 通过是否存在某个属性来查找

soup.select("p a[class]"), soup.select("p a[href]"), soup.select("p a[id]"), soup.select("p a[class=sister]") # 引号内部不需要再加引号了

CSS选择器

参考：

BeautifulSoup文档