网络爬虫学习（1）

什么是URI？Web上的每种可用的资源，如Html文档、图像、视频片段、程序等都是由一个通用的资源标识符（Universal Resource Identifier，URI）进行定位。

URI通常是由三部分组成：1.访问资源的命名机制；2.存放资源的主机名；3.资源自身的名称，有路径表示。

如：http://baike.baidu.com/view。我们可以这样理解：我们通过HTTP协议访问资源，主机是http://baike.baidu.com，路径是/viev/。

URL是URI的一个子集。是Uniform Resource Locator 的缩写，称为“同意资源定位符”。一般来说，URL是Internet上描述信息资源的字符串，主要用在各种www客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

URL的格式有三部分组成：1.协议；2.存在有该资源的主机IP地址（有时候包括端口号）；3.主机资源的具体地址，如文件名或目录。

第一部分和第二部分用“://”隔开，第二部分和第三部分用”/“来隔开，第一、二部分不能缺少，第三部分有事可以缺省。

例如：http://baike.baidu.com/view/284853.htm。计算机的域名为http://baike.baidu.com。超级文本文件在目录/view下的284853.htm。

用URL表示文件时，服务器用file表示，后面要有主句的IP地址、文件的存放路径和文件的名称等信息。有事尅省略目录和文件名。

上面这个 URL 代表存放在主机 ftp.yoyodyne.com 上的 pub/files/ 目录下的一个文件，文件名是 foobar.txt 。

爬虫最主要的处理对象就是URL，他根据URL地址获得所需要的文件内容，然后对它进一步的处理。