指定CRC32反构数据

指定CRC反构数据

指定CRC反构数据
1 题目
2 CRC32算法
3 定义运算符
4 逆运算和反运算
5 题目分解
6 处理数组
7 驱动表法
8 处理文件

【摘要】
针对CRC32算法，给定希望产生的CRC32校验和，通过修改给定文件中连续4个字节，将CRC32改变成希望产生的值。

1、题目

　　给出一组具体的题目，可以便于对问题的分析与解答，并用来验证算法的正确。
　　已知如下数据：
00 01 02 03 04 05 06 07 08 09 ?? ?? ?? ?? 0A 0B 0C 0D 0E 0F
　　向问号处填入4个字节的数字，使数据的CRC32校验和为DEADBEEF。

2、 CRC32算法

　　这里的CRC32校验和，以主流文件校验工具提供的CRC32为准，其模型为：
Bits=32，（校验和的位数）
TruncPoly＝0x104C11DB7，（多项式系数序列）
InitRem＝0xFFFFFFFF，（余数的初值）
FinalXor＝0xFFFFFFFF，（最终结果需要异或的值）
ReflectIn＝true，（数据输入时高低颠倒）
ReflectRem＝true。（余数输出之前先高低颠倒）
　　其中，TruncPoly最高位的1通常省略不写，也就是0x04C11DB7。
　　下面给出一个典型的计算函数。函数中，CRC32算法的核心部分，在于前半部分的移位，按情况与多项式的异或。至于后边将余数的高低位进行的颠倒，以及最终异或的常量，只是收尾。
　　计算函数如下：

#include <assert.h>
#include <stdint.h>

uint32_t crc32_checksum( const uint8_t *buf, unsigned len )
{
    assert (buf != 0);

    // initial remainder
    uint32_t rem = 0xFFFFFFFF;
    for (unsigned i = 0; i < len; ++i)
    {
        // reflect input
        for (unsigned j = 31; j >= 24; --j)
        {
            if (((buf[i] << j) ^ rem) & 0x80000000)
            {
                // truncated polynominal
                rem = (rem << 1) ^ 0x04C11DB7;
            }
            else
            {
                rem = rem << 1;
            }
        }
    }

    // reflect remainder
    uint32_t ref = 0;
    for (unsigned i = 0; i < 32; ++i)
    {
        ref |= ((rem >> i) & 1) << (31 - i);
    }

    // final xor value
    return ref ^ 0xFFFFFFFF;
}

3、定义运算符

　　定义需要的运算符，可以便于书写、推导计算方法。
　　仿照CRC32算法核心部分，定义二进制序列的“冗余”运算符：“”，二进制序列X对多项式P（保留最高位的1，共计33位）的冗余：XP，其定义为：
　　直到X的高于32的位全部为0为止，找到X的不为0的最高位的位置n，将P左移(32-n)位得到Q，通过把X^Q赋值给X，使X的不为0的最高位成为0，不断重复该过程；最后保留X的最低32位，就是冗余的结果。上述操作只是为了得到运算结果，而不是修改X的值。
　　定义了冗余运算符，就可以写出循环冗余的核心部分的递推公式：

R n + 1 = ((R n < < 1)^(I n < < 32)) ∖ P, n = 0, 1, 2, 3, . . .

　　设

R′n=Rn^(In<<31)，

R′n的最高位即第31位记做

r′31，也就是：

Rn+1={Rn<<1,(Rn<<1)^P,r′31=0r′31=1

　　其中，

<<是左移操作的运算符，

^是异或操作的运算符，

Rn是记录余数的寄存器（共计32位），

R0是寄存器的初值，

In是输入数据的第

n 个位，

P是除数多项式（共计33位）。
　　由于我们习惯按照字节进行处理，所以再列出针对字节流

In+7In+6⋯In 的递推公式：

R n + 8 = ((R n < < 8)^(I n I n + 1 \dots I n + 7 < < 32)) ∖ P, n = 0, 1, 2, 3, \dots

　　其中，输入数据的字节顺序进行了高低颠倒，原因在于参数ReflectIn为真。注意，参数ReflectIn的含义为，字节内的位是否颠倒输入。为假表示不需要颠倒，按照从高位到低位的顺序依次输入；为真表示需要颠倒，按照从低位到高位的顺序依次输入。另外，

n的取值不仅仅是0、8、16、24……当

n为1、2、3、……时，上述递推公式仍然是成立的，所以

n的有效范围仍然写作0、1、2、3……

4、逆运算和反运算

　　循环冗余的递推公式是可逆的。在循环冗余递推公式中，P是固定的常量，已知Rn和In，可以求得Rn+1。逆运算便是，已知Rn+1和In，求得Rn。与逆运算相对，反运算便是，已知Rn+1和Rn，求得In。
　　我们分析一下逆运算。对Rn+1的值有贡献的，包括(Rn<<1)的值、(In<<32)的值，以及可能出现进行异或操作的P。考虑到(Rn<<1)、(In<<32)的最低位一定是0，所以Rn+1的最低位只能来自于P。要让逆运算存在，其充分必要条件是：P的最低位是1。我们选取的多项式满足这个条件，实际上这本来就是理所当然的条件。假如某种CRC标准的除数多项式，其最低位是0，那么算出的余数一定是偶数，余数的最低位就失去了意义。
　　我们可以得到循环冗余逆运算的递推公式如下：

Rn={(Rn+1>>1)^(In<<31),(Rn+1>>1)^(In<<31)^(P>>1),(Rn+1&1)=0(Rn+1&1)=1

　　其中，

&运算符是“按位与”运算，

(Rn+1&1)的含义就是取

Rn+1的最低位，递推公式是依据这个最低位有不同公式的公式。
　　根据上面的分析，已知

Rn+1和

In，是可以求得

Rn的。那么，已知

Rn+1和

Rn，是否可以求得

In呢？答案是不一定。

In的取值只有0和1，

Rn和

In配合，得到的值可能与

Rn+1并不相等，因为

Rn+1一共有

232种取值，而当

Rn一定时，

In一共有2种取值，得到的结果也只有2种取值，不一定恰好落到

Rn+1上。
　　那么，增加

In的位数，借此增加

In取值的可能性，是不是就能够求得

In呢？实际上，由于

P是33位的，所以令

In增加到32位，便可让

In有

232种取值，用穷举就可以得到正确的值。但穷举法很耗时，而且时间复杂度是指数级别的。在这里我们尝试用数学方法计算。32位的递推公式如下：

R n + 32 = ((R n < < 32)^(I n I n + 1 \dots I n + 31 < < 32)) ∖ P, n = 0, 1, 2, 3, \dots

　　等式右边，

Rn左移的位数，由最开始的左移1位，以及按照字节处理的左移8位，现在变成左移32位，这已经从量变提升为质变了。由于异或操作具有交换律，而等式右边的两个数都是左移32位，因此交换其顺序，就得到了如下的式子：

R n + 32 = ((I n I n + 1 \dots I n + 31 < < 32)^(R n < < 32)) ∖ P, n = 0, 1, 2, 3, \dots

　　我们把

Rn+32对32位的

Rn进行循环冗余逆运算，得到的结果就是

InIn+1⋯In+31的值。由于我们习惯按照字节进行处理，所以将这个32位的值拆成4个字节，注意参数ReflectIn为真，因此4个字节的各个位的顺序是：

In+7In+6⋯In,In+15In+14⋯In+8,In+23In+22⋯In+16,In+31In+30⋯In+24
　　我们把

Rn也按照字节拆开。首先把

Rn用32个位表示：

r 0, r 1, r 2, \dots \dots, r 31

　　由于ReflectIn为真，因此

Rn的值作为输入数据，需要由最低位开始输入：

R n = r 0 r 1 r 2 \dots r 31

　　按照字节拆开之后，4个字节的各个位的顺序是：

r 7 r 6 \dots r 0, r 15 r 14 \dots r 8, r 23 r 22 \dots r 16, r 31 r 30 \dots r 24

　　结论就是，

Rn+32对

Rn的反运算，等效于

Rn+32对上面4个字节的

r的逆运算。

5、题目分解

　　我们把题目中，进行CRC运算的各个步骤列成表格：

余 数 赋 初 值 处 理 开 始 的 已 知 数 处 理 中 间 的 未 知 数 处 理 结 束 的 已 知 数 余 数 各 位 高 低 颠 倒 最 终 结 果 处 理 数 组 数 据 00 01 02 03 04 05 06 07 08 09 I 7 \dots 0 I 15 \dots 8 I 23 \dots 16 I 31 \dots 24 0A 0B 0C 0D 0E 0F - - r e m = 0xFFFFFFFF r e m = U 31 U 30 \dots U 0 r e m = V 31 V 30 \dots V 0 r e m = W 31 W 30 \dots W 0 r e m = W 0 W 1 \dots W 31 W 0 W 1 \dots W 31^0xFFFFFFFF

　　我们可以用开始部分的已知数求出U31U30⋯U0的值，把最终结果变换成W31W30⋯W0的值，用 W31W30⋯W0对结束部分的已知数求逆运算得到V31V30⋯V0的值，最后用V31V30⋯V0对U31U30⋯U0求逆运算，就可以得到I7⋯0I15⋯8I23⋯16I31⋯24的值了。由于进行了两次逆运算，而第二次逆运算正好有4个字节，这4个字节恰好可以填在未知数的4个字节的位置，因此可以将U31U30⋯U0暂时填到未知数的部分，将两次逆运算合并成一次逆运算。
　　由于参数ReflectIn为真，导致运算过程中，所有的运算数据都是高低颠倒的，所以，为了便于处理，这里将余数本身进行高低颠倒，数据输入的操作改为添至余数的低位，移位操作也改为右移，逆运算中的移位操作则改为左移，多项式也进行颠倒。

6、处理数组

void crc32_gen_array( uint32_t crc, int pos, uint8_t *buf, int len )
{
    assert (pos >= 0);
    assert (buf != 0);
    assert (pos + 4 <= len);

    uint32_t rem = 0xFFFFFFFF;
    for (int i = 0; i < pos; ++i)
    {
        rem ^= buf[i];

        for (int j = 0; j < 8; ++j)
        {
            rem = (rem >> 1) ^ (rem & 0x00000001 ? 0xEDB88320 : 0);
        }
    }

    for (int i = 0; i < 4; ++i)
    {
        buf[pos + i] = (rem >> (8 * i)) & 0xFF;
    }

    rem = ~crc;
    for (int i = len - 1; i >= pos; --i)
    {
        for (int j = 0; j < 8; ++j)
        {
            rem = (rem << 1) ^ (rem & 0x80000000 ? 0xDB710641 : 0);
        }

        rem ^= buf[i];
    }

    for (int i = 0; i < 4; ++i)
    {
        buf[pos + i] = (rem >> (8 * i)) & 0xFF;
    }

    return;
}

各个参数的含义为：
crc：指定要构造的校验和；
pos：指定数据在反构数组中的位置；
buf：指定等待反构的数组；
len：等待反构数组的长度。
用这个方法解答文章开头的题目，并验证结果。

#include <stdio.h>

void test1()
{
    uint8_t buf[20] =
    {
        0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09,
        0, 0, 0, 0,
        0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
    };

    crc32_gen_array (0xDEADBEEF, 10, buf, 20);

    for (int i = 10; i < 14; i++)
    {
        printf ("%02X ", buf[i]);
    }

    printf ("%08X 
", crc32_checksum (buf, 20));

    return;
}

　　在主函数中调用测试函数，运行结果如下：
76 EF 99 DE DEADBEEF
　　成功算出来了填入的数字。

7、驱动表法

　　通常，CRC32的计算都是以字节为最小单位，而算法中，在循环内部存在着分支判断语句，这样的语句会严重影响运算效率，所以出现了将一个字节的8位进行整体处理的方法。该方法事先将一个字节的256种可能全部列举出来，然后用查表法对号入座，因此被称为“驱动表法”。
　　算法中的冗余运算及其逆运算，都可以用驱动表法进行改造，这样，处理大量数据的时候可以显著提高效率。
驱动表法能够成立，在于异或操作的交换律。将8次移位、异或的组合操作，拆成8次移位、8次异或，结果是不变的。
　　我们把上文中的计算CRC32的函数，以及反构数组的函数，全部用驱动表法进行改造。注意，计算CRC32的函数，在改造之前，首先用逆序进行了一次改造。改造后的函数如下：

static uint32_t s_gen_table[0x100] = { 0 };
static uint32_t s_inv_table[0x100] = { 0 };

void init_table()
{
    for (int i = 0; i < 0x100; ++i)
    {
        uint32_t gen = i;
        uint32_t inv = i << 24;

        for (int j = 0; j < 8; ++j)
        {
            gen = (gen >> 1) ^ (gen & 0x00000001 ? 0xEDB88320 : 0);
            inv = (inv << 1) ^ (inv & 0x80000000 ? 0xDB710641 : 0);
        }

        s_gen_table[i] = gen;
        s_inv_table[i] = inv;
    }

    return;
}

uint32_t crc32_by_table( const uint8_t *buf, unsigned len )
{
    assert (buf != 0);

    uint32_t rem = 0xFFFFFFFF;
    for (unsigned i = 0; i < len; ++i)
    {
        rem = (rem >> 8) ^ s_gen_table[(rem ^ buf[i]) & 0xFF];
    }

    return ~rem;
}
 
void crc32_gen_by_table( uint32_t crc, int pos, uint8_t *buf, int len )
{
    assert (pos >= 0);
    assert (buf != 0);
    assert (pos + 4 <= len);

    uint32_t rem = 0xFFFFFFFF;
    for (int i = 0; i < pos; ++i)
    {
        rem = (rem >> 8) ^ s_gen_table[(rem ^ buf[i]) & 0xFF];
    }

    for (int i = 0; i < 4; ++i)
    {
        buf[pos + i] = (rem >> (8 * i)) & 0xFF;
    }

    rem = ~crc;
    for (int i = len - 1; i >= pos; --i)
    {
        rem = (rem << 8) ^ s_inv_table[rem >> 24] ^ buf[i];
    }

    for (int i = 0; i < 4; ++i)
    {
        buf[pos + i] = (rem >> (8 * i)) & 0xFF;
    }

    return;
}

　　其中，s_gen_table和s_inv_table是驱动表，调用init_table函数来初始化驱动表。我们可以在初始化之后，把驱动表打印出来，然后以常量静态数组的方式定义驱动表，省去初始化驱动表的函数。

8、处理文件

　　我们的最终目的，是反构文件，改造文件成我们需要的校验和。注意，文件的尺寸可能超过程序可以申请的最大内存的大小，所以要一部分一部分的读取文件。

void crc32_gen_file( uint32_t crc, int64_t pos, const char *filename )
{
    assert (pos >= 0);
    assert (filename != 0);
    assert (filename[0] != 0);

    FILE *stream = fopen (filename, "rb+");
    if (stream == 0)
    {
        return;
    }

    enum { BUF_SIZE = 0x40000 };
    uint8_t buf[BUF_SIZE] = { 0 };
    _fseeki64 (stream, pos, SEEK_SET);
    fwrite (buf, 1, 4, stream);

    uint32_t rem = 0xFFFFFFFF;
    for (int64_t i = 0; i < pos; ++i)
    {
        if (i % BUF_SIZE == 0)
        {
            _fseeki64 (stream, i, SEEK_SET);
            fread (buf, 1, BUF_SIZE, stream);
        }
        rem = (rem >> 8) ^ s_gen_table[(rem ^ buf[i % BUF_SIZE]) & 0xFF];
    }

    for (int i = 0; i < 4; ++i)
    {
        buf[i] = (rem >> (8 * i)) & 0xFF;
    }
    _fseeki64 (stream, pos, SEEK_SET);
    fwrite (buf, 1, 4, stream);
 
    rem = ~crc;
    _fseeki64 (stream, 0, SEEK_END);
    int64_t len = _ftelli64 (stream);
    for (int64_t i = len - 1; i >= pos; --i)
    {
        if (i == len - 1 || i % BUF_SIZE == BUF_SIZE - 1)
        {
            _fseeki64 (stream, i / BUF_SIZE * BUF_SIZE, SEEK_SET);
            fread (buf, 1, BUF_SIZE, stream);
        }

        rem = (rem << 8) ^ s_inv_table[rem >> 24] ^ buf[i % BUF_SIZE];
    }

    for (int i = 0; i < 4; ++i)
    {
        buf[i] = (rem >> (8 * i)) & 0xFF;
    }
    _fseeki64 (stream, pos, SEEK_SET);
    fwrite (buf, 1, 4, stream);
    fclose (stream);

    return;
}

　　自己创建一个文件，然后用这个函数反构文件，然后用文件检验程序计算其CRC32，发现能够成功。

附注：头一次用markdown编辑公式，实在是好麻烦……

指定CRC32反构数据

指定CRC反构数据

1、 题目

2、 CRC32算法

3、 定义运算符

4、 逆运算和反运算

5、 题目分解

6、 处理数组

7、 驱动表法

8、 处理文件