解析网页---BeautifulSoup解析库

解析网页---BeautifulSoup解析库

灵活，方便的网页解析库，处理高效
安装：
pip install beautifulsoup4

用法：

所谓python标准库，即不需要安装额外插件即可使用

基本使用

标签选择器

这种选择方式，它只返回第一个匹配到的内容

children方法返回一个迭代器，需用for循环来来获取元素，内容同content一样

descendants返回一个迭代器，内容为所有子节点包括孙子节点一并获取，子节点同孙子节点是并列的。

标准选择器
find_all(name,attrs,recursive,text,kwargs)**
可根据标签名，属性，内容查找文档，以列表的形式返回所有的匹配项

find(name,attrs,recursive,text,kwargs)**
返回第一个匹配到的元素

CSS选择器
通过select（）直接传入CSS选择器即可完成选择

总结：一共三种选择器：标签选择器，标准选择器，CSS选择器。

推荐使用lxml解析库，必要时使用html.parser
标签选择器筛选功能弱但速度快
建议使用find(),find_all()查询匹配单个结果或多个结果
如对CSS选择器熟悉建议使用select()

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/tingshu/p/13944891.html