学习进度条43

分析网页

我们平时使用浏览器来访问网页,实质上来看,就是通过一个客户端经过网络连接访问了服务器端,访问前,我们的页面没有任何内容,那么这些内容必然都是从服务器端传输过来的。爬虫的工作就是利用编程的方式自动化地从服务器端获取并分析数据,得到我们需要爬取的内容。

因此想要利用爬虫获取内容,首先需要我们分析目标网站页面,了解其数据排列方式,知晓其数据传输过程,从而能够制订正确有效的爬取途径。

如果我们希望获取这个页面上的文章内容而不希望自己动手去复制粘贴,爬虫是一个非常有效的工具,而分析这个页面有几个方向:

(一)分析页面源代码:

在页面上单击右键,可以看到选项“查看页面源代码”(这里我使用的是Microsoft Edge浏览器,不同浏览器可能有所不同),弹出的新网页

(二)分析页面元素

在页面上按“F12”,神奇的事情出现了,页面的右侧(有的浏览器是下方)发生了有趣的变化

原文地址:https://www.cnblogs.com/hhw12345/p/14910361.html