4.13关于爬虫

善意的爬⾍, 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)

恶意的爬⾍, 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源 造成⽹站宕机)

反爬机制 ⻔户⽹站,可以通过制定相应的策略或者技术⼿段,防⽌ 爬⾍程序进⾏⽹站数据的爬取。

反反爬策略 爬⾍程序可以通过制定相关的策略或者技术⼿段,破解 ⻔户⽹站中具备的反爬机制,从⽽可以获取⻔户⽹站中相关的数 据。

robots.txt协议: 君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取 哪些数据不可以被爬取

原文地址:https://www.cnblogs.com/zhaoyids/p/14902602.html