XCTF-WEB-robots

参考博客:https://blog.csdn.net/qq_36304918/article/details/102931789

题目描述:

 题目场景:

打开网页是一片空白,网站intitle显示robots,从题目描述到题目场景告诉我们,robots是解题的关键。

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应该被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。

我们在URL后面添加robots.txt:http://111.200.241.243:52099/robots.txt

网站中出现如下字符:

Disallow告诉我们当前路径下有一个f1ag_1s_h3re.php的文件,我们将访问这个文件。

在URL后边添加f1ag_1s_h3re.php后访问:http://111.200.241.243:52099/f1ag_1s_h3re.php

得到flag:cyberpeace{ce89f8b5ffd4d3363fc463c8afab505b}

题目反思:

      根据题目中的提示,本题考查的是robots协议,robots.txt放置于网站的根目录下,如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

      当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

      如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

原文地址:https://www.cnblogs.com/lbwBH/p/14347824.html