python网络爬虫与信息提取——2.网络爬虫排除标准robots

1.爬虫尺寸

小规模，数据量小，爬取速度不敏感，Requests库，爬取网页
中规模，数据规模较大，爬取速度敏感，Scrapy库，爬取网站
大规模，搜索引擎，爬取速度关键，定制开发，爬取全网

2.引发问题：性能骚扰，法律风险，隐私泄露

3.爬虫限制

来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

4.robots协议

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

基本语法：

# 注释，*代表所有，/代表根目录
User‐agent: *
Disallow: /

（1）.User-agent 定义搜索引擎。

（2）.Disallow 禁止爬取

（3）.Allow 允许。

（4）.$ 结束符。例：Disallow: .php$ 这句话的意思是，屏蔽所有的以.php结尾的文件，不管前面有多长的URL

（5）.* 通配符符号0或多个任意字符。

（6）.sitemap：这个告诉搜索引擎你的sitemap在哪