解析网页---BeautifulSoup解析库

灵活,方便的网页解析库,处理高效
安装
pip install beautifulsoup4

用法:

所谓python标准库,即不需要安装额外插件即可使用

基本使用

标签选择器

这种选择方式,它只返回第一个匹配到的内容






children方法返回一个迭代器,需用for循环来来获取元素,内容同content一样

descendants返回一个迭代器,内容为所有子节点包括孙子节点一并获取,子节点同孙子节点是并列的。


标准选择器
find_all(name,attrs,recursive,text,kwargs)**
可根据标签名,属性,内容查找文档,以列表的形式返回所有的匹配项




find(name,attrs,recursive,text,kwargs)**
返回第一个匹配到的元素

CSS选择器
通过select()直接传入CSS选择器即可完成选择


总结:一共三种选择器:标签选择器,标准选择器,CSS选择器。

  • 推荐使用lxml解析库,必要时使用html.parser
  • 标签选择器筛选功能弱但速度快
  • 建议使用find(),find_all()查询匹配单个结果或多个结果
  • 如对CSS选择器熟悉建议使用select()
原文地址:https://www.cnblogs.com/tingshu/p/13944891.html