【Python网络爬虫一】爬虫原理和URL基本构成

1.爬虫定义

网络爬虫，即Web Spider，是一个很形象的名字。
把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，
然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

2.浏览网页的过程

爬虫爬取网页数据的过程和用户浏览网页的原理是一样的。

用户输入一个地址如“www.baidu.com”，客户端浏览器首先查询DNS服务器，查找IP地址（浏览器缓存->系统缓存->路由器缓存...）

浏览器向web服务器发送一个http请求。

服务器处理请求，根据http协议组建一个数据包，返回给客户端浏览器。

浏览器接受数据包，将HTML的内容渲染出来显示在浏览器中。

3.URL的概念和举例

简单的来讲，URL是Uniform Resource Locator的缩写，译为“统一资源定位符”。

就是在浏览器端输入的 http://www.baidu.com 这个字符串。

采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

URL的格式由三部分组成：

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址，如目录和文件名等。

第一部分和第二部分用“://”符号隔开，

第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的，第三部分有时可以省略。

总结：

爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。
因此，准确地理解URL对理解网络爬虫至关重要。