Beautiful Soup

  Beautiful Soup 是一个非常流行的 Python 模块,该模块可以解析网页,并提供定位内容的便捷接口,如果你还没有安装该模块,可以使用下面的命令安装其最新版本:

pip install beautifulsoup4

  使用 Beautiful Soup 的第一步是将已下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的 HTNML 格式,因此, Beautiful Souop 需要对其实际格式进行确定,

例如,下面的这个简单的网页的列表中,存在属性值两侧引号缺失为闭合的额问题。

<ul class = country>
    <li>Area
    <li>Population
</ul>

如果 Population 列表被解析为 Area 列表项的子元素,而不是并列的两个列表项的话,我们抓取时就会得到错误的结果,下面我们看一下 Beauutful Soup 是如何处理的,

>>> from bs4 import BeautifulSoup
>>> broken_html = '<ul class = country>     <li>Area     <li>Population </ul>'
>>> soup = BeautifulSoup(broken_html, 'html.parser')
>>> fixed_html = soup.prettify()
>>> print(fixed_html)
<ul class="country">
 <li>
  Area
  <li>
   Population
  </li>
 </li>
</ul>
>>>

从上面的执行的结果可以看出,Beautiful Soup 能够正确的解析缺失的引号闭合标签。

现在,可以使用 find() 和 find_all() 方法类定位我们需要的元素了。

>>> ul = soup.find('ul', attrs = {'class':'country'})
>>> ul.find('li')
<li>Area     <li>Population </li></li>
>>> ul.find_all('li')
[<li>Area     <li>Population </li></li>, <li>Population </li>]

下面是使用该方法抽取实例国家面积数据的完整代码。

 这段代码虽然比正则表达式的代码更加复杂,但更容易构造和理解。

原文地址:https://www.cnblogs.com/jcjc/p/10873949.html