什么是大小端

计算机以二进制形式将数据存储在内存中。经常被忽视的一件事是此数据的字节级别的格式。这称为字节序,它指的是字节的顺序。

具体来说,little-endian 是将最低有效字节存储在更有效字节之前,而 big-endian 是将最高有效字节存储在较低有效字节之前。

当我们写一个数字(十六进制)时,即0x12345678,我们首先用最高有效字节(12部分)写它。从某种意义上说,大端是写东西的“正常”方式。

这篇文章将只讨论整数的字节序,而不是浮点数,因为它变得更加复杂,定义也更少。

为什么这很重要?

关于字节序的一个重要区别是,它只涉及值如何存储在内存中,而不是我们如何处理值;例如,0x12345678仍然是0x12345678。这里没有字节序的概念。但是,如果我们谈论将这个 4 字节值存储到内存中,那么并且只有这样我们才必须指定字节序。

如果我们使用 little-endian 将前面提到的值存储到内存中,我们将得到以下结果。请注意,每个 2 个十六进制字母代表 1 个字节。

78 56 34 12

如果我们以大端存储它,我们会得到:

12 34 56 78

最后,这就是字节序很重要的原因。因为不知道数据是如何存储的会导致交流不同的值。

例如,所有x86_64处理器(Intel/AMD)都使用小端,而IP/TCP使用大端。这意味着为了让您使用 Internet,您的计算机必须考虑字节顺序的差异。

到目前为止看起来很简单,对吧?

大多数混淆在于小端,所以我们将从那里开始。

提醒一下,little-endianness 是指首先存储最低有效字节的字节顺序。因此,例如,如果我们有 8 字节的值,0x123456789abcdef0我们将按以下方式将其存储在内存中。(注意:我在值旁边放了一个伪内存地址,这样我们就可以说这个值在内存地址处0x00。)

0x00: f0 de bc 9a 78 56 34 12

这里要理解的最重要的事情是我们正在存储一个 8 字节的值。另一方面,如果我们存储一个 4 字节的值,我们仍然会翻转字节顺序,但只是针对这 4 个字节。以下面的数组为例。

int a[] = {0x12345678, 0x9abcdef0};

这个数组和 8 字节的数字一样,总共占用 8 个字节,看起来非常相似。但是,在内存中,我们不会存储与上面相同的内容,而是以下内容:

0x00: 78 56 34 12

0x04: f0 de bc 9a

请注意这里数组的顺序是如何保留的,并且0x12345678单独的值(前 4 个字节)是小端的。

理解这一点非常重要:我们不会以小端序任意存储任何 8 字节,而是根据它们占用的大小以小端序存储各个值。

作为最后一个示例,采用以下字符数组。

char s[] = {0x12, 0x34, 0x56, 0x78, 0x9a, 0xbc, 0xde, 0xf0};

正如您可能能够预测的那样,它以以下格式存储。

0x00: 12

0x01: 34

0x02: 56

0x03: 78

0x04: 9a

0x05: bc

0x06: de

0x07: f0

再次,保持数组的顺序。

现在,如果我们将其带回 big-endian,我们可以看到这些示例中的每一个都以相同的方式存储。

0x00: 12 34 56 78 9a bc de f0

这是因为 big-endian 是按照您看到事物的顺序存储的。我建议你自己证明这一点。

那么为什么每个人都会倒退呢?

不管乍一看似乎有悖常理,小端优先于大端的使用是有正当理由的。广泛使用 little-endian 的原因不是因为用户易于理解(您可能已经发现),而是因为计算机易于使用。让我们来看看为什么。我们将使用这个 8 字节的值0x0000000000000042。当我们将它存储在 little-endian 中时,我们有以下内容。

0x00: 42 00 00 00 00 00 00 00

在大端中我们会得到。

0x00: 00 00 00 00 00 00 00 42

现在假设我们要运行以下代码。

// In the case of 64 bit compilers, long long is the same size as long. They are both 8 bytes.unsigned long long x = 0x0000000000000042;unsigned long long * x_p = &x;unsigned int * y_p = (unsigned int *)x_p;unsigned int y = *y_p;

printf("y = %#.8x ", y); // prints in hex with '0x' and with all leading zeros

我们正在做一些叫做指针向下转换的事情。我们不会改变内存中的任何东西,只是改变处理器从内存中读取的方式。

需要注意的重要一点是x_p和y_p将具有相同的值(它们指向相同的位置)。我们会说它们都指向0x00。

当我们运行它时,根据处理器使用的字节顺序,我们将得到两种截然不同的结果。首先,让我们假设我们使用的是 x86_64 处理器(即小端)。我们得到的正是您期望得到的:y = 0x00000042。这是因为当我们以 4 字节的块重新解释内存并得到以下结果时:

0x00: 42 00 00 00

0x04: 00 00 00 00

现在,当我们只在内存位置抓取 4 个字节时,0x00我们从原始 8 字节值中获得了 4 个最低有效字节。请随意在您的计算机上尝试此操作。

正如您所料,Big-endian 的行为非常不同。想象一下,我们在大端处理器上运行此代码。我们会得到:y = 0x00000000。同样,如果我们以 4 字节的块重新解释内存,我们将看到出现这种情况的原因。

0x00: 00 00 00 00

0x04: 00 00 00 42

该y_p指针(0x00在我们的例子)指向0x00000000。

让代码在 big-endian 中运行是很困难的,因为大多数处理器不是 little-endian 就是bi-endian。但是,您可以通过添加字节交换“模拟”big-endian来更改代码。

unsigned long long x = __builtin_bswap64(0x0000000000000042);unsigned long long * x_p = &x;unsigned int * y_p = (unsigned int *)x_p;unsigned int y = __builtin_bswap32(*y_p);

printf("y = %#.8x ", y);

然后你可以在你的电脑上运行它

 

原文地址:https://www.cnblogs.com/wzlbigdata/p/14955974.html