网络爬虫学习笔记 1

网络爬虫学习笔记 1

网络爬虫的定义：

从网站的一个页面（通常为首页），读取网页内容，找到网页里其他链接的地址（用来寻找下一个网页），直到抓取完这个网站的所有网页。

网络爬虫的基本操作是抓取网页。

浏览网页的过程：

打开网页的过程是浏览器作为浏览的“客户端”，向服务器端发送一次请求，把服务器端的文件“抓”到本地再解释、展现。

浏览器的功能是把解析html代码（标记语言）转换成网页。

爬虫最重要的处理对象是URL，它根据URL地址获得所需要的文件内容，然后进行处理。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/claudia529/p/12198749.html