爬虫基础知识

HTTP       超文本传输协议                 默认端口号:80

HTTPS      HTTP + SSL(安全套接字层)       默认端口号：443

HTTPS比HTTP更安全，但是性能更低

HTTP常见请求头

1. Host (主机和端口号)
2. Connection (链接类型)
3. Upgrade-Insecure-Requests (升级为HTTPS请求)
4. User-Agent (浏览器名称)
5. Accept (传输文件类型)
6. Referer (页面跳转处)
7. Accept-Encoding（文件编解码格式）
8. Cookie （Cookie）
9. x-requested-with :XMLHttpRequest  (是Ajax 异步请求)

------------------------------

爬虫的分类：聚焦爬虫和通类爬虫-

--------------------------------

微指数-新浪

-----------------------------------

robots.txt

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

------------------------------------

爬虫的概念

爬虫是模拟浏览器发送请求，获取响应

爬虫的流程

url--->发送请求，获取响应--->提取数据---》保存
发送请求，获取响应--->提取url

------------------------------------

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

当前url地址对应的响应中
其他的url地址对应的响应中
- 比如ajax请求中
js生成的
- 部分数据在响应中
- 全部通过js生成

-----------------------------------------------

爬虫基础知识

爬虫的概念

爬虫的流程

爬虫要根据当前url地址对应的响应为准 ，当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样