爬虫基础知识

HTTP       超文本传输协议                 默认端口号:80

HTTPS      HTTP + SSL(安全套接字层)       默认端口号:443

HTTPS比HTTP更安全,但是性能更低
HTTP常见请求头

1
. Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)

------------------------------

爬虫的分类:聚焦爬虫和通类爬虫-

--------------------------------

微指数-新浪

-----------------------------------

robots.txt

Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

------------------------------------

爬虫的概念

  • 爬虫是模拟浏览器发送请求,获取响应

爬虫的流程

  • url--->发送请求,获取响应--->提取数据---》保存

  • 发送请求,获取响应--->提取url

------------------------------------

爬虫要根据当前url地址对应的响应为准 ,当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

  • 当前url地址对应的响应中

  • 其他的url地址对应的响应中

    • 比如ajax请求中

  • js生成的

    • 部分数据在响应中

    • 全部通过js生成

-----------------------------------------------

 

原文地址:https://www.cnblogs.com/wsg-python/p/10083524.html