网络爬虫遵守规则

网络爬虫引发的问题

网络爬虫的尺寸

网络爬虫骚扰

 

网络爬虫的法律风险

网络爬虫泄露隐私

网络爬虫的限制

1.通过请求头

 2.发布公告:Robots协议

告知所有爬虫网站的爬取策略,要求爬虫遵守。

Robots协议

网络爬虫排除标准

作用:告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件

案例:真实的Robots协议

https://www.baidu.com/robots.txt

http://news.sina.com.cn/robots.txt

https://www.qq.com/robots.txt

https://news.qq.com/robots.txt

http://www.moe.edu.cn/robots.txt (无robots协议)

Robots协议的遵守方法

原文地址:https://www.cnblogs.com/yescarf/p/13717205.html