PYTHON网络爬虫与信息提取[网络爬虫协议](单元二)

robots.txt在网站的根目录下

遵守

自动或人工识别robots.txt再进行内容爬取

约束性:建议性,不遵守协议,存在法律风险。

基本语法:

User-agent: *

Disallow: /

#注释 *所有  /代表根目录

原文地址:https://www.cnblogs.com/sfzyk/p/6512903.html