Python爬虫-利用BeautifulSoup

可以通过下面链接,到官方文档学习相关信息。

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

 

使用BeautifulSoup实现爬虫大体有三个步骤。

1、使用BeautifulSoup构造函数,创建一个解析网页的BeautifulSoup对象。

2、获取网页中的相关信息,并进行保存。

3、循环爬取网站中的网页。(构建一个url管理器)

使用lxml可以非常好的解析大多数的网页内容。

 

原文地址:https://www.cnblogs.com/cnstalker/p/5610079.html