4.13关于爬虫

4.13关于爬虫

善意的爬⾍, 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)

恶意的爬⾍, 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源造成⽹站宕机)

反爬机制⻔户⽹站，可以通过制定相应的策略或者技术⼿段，防⽌爬⾍程序进⾏⽹站数据的爬取。

反反爬策略爬⾍程序可以通过制定相关的策略或者技术⼿段，破解⻔户⽹站中具备的反爬机制，从⽽可以获取⻔户⽹站中相关的数据。

robots.txt协议：君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取哪些数据不可以被爬取

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/zhaoyids/p/14902602.html