网络爬虫学习笔记 1

网络爬虫的定义:

从网站的一个页面(通常为首页),读取网页内容,找到网页里其他链接的地址(用来寻找下一个网页),直到抓取完这个网站的所有网页。

网络爬虫的基本操作是抓取网页。

浏览网页的过程:

打开网页的过程是浏览器作为浏览的“客户端”,向服务器端发送一次请求,把服务器端的文件“抓”到本地再解释、展现。

浏览器的功能是把解析html代码(标记语言)转换成网页。

爬虫最重要的处理对象是URL,它根据URL地址获得所需要的文件内容,然后进行处理。

原文地址:https://www.cnblogs.com/claudia529/p/12198749.html