计算机系统中的浮点数

人类世界的小数的表示形式

1、我们最习惯的小数表示形式是十进制，形式为：

　　它的值为：

2、小数的二进制表示法，形式为：

　　它的值为：

IEEE浮点标准

在计算机系统中，因为有字节的限制（C语言中float类型占4字节，double类型占8字节），小数的表示要复杂的多。IEEE制定的浮点标准得到了所有的计算机的支持。

IEEE浮点标准用如下形式表示一个数：

　　符号（sign）s，1为负数，0为正数。数值0的符号位解释做特殊情况处理；

尾数（significand 有效数）M是一个小数，范围为1~2-ε 或 0~1-ε （即 [1,2) 或 [0,1) ，详情请看“浮点数的类型”部分）

阶码（exponent 指数）E的作用是对浮点数加权，这个权重是2的E次幂（可能是负数）

标准浮点格式（浮点有3个字段组成）有以下两个类型：

　　32位的单精度：s、exp和frac字段分别为1位、8位、23位

　　64位的双精度：s、exp和frac字段分别为1位、11位、52位

IEEE浮点数的类型

依据阶码字段是否全为0、全为1分为以下三种：

1、规格化的值：exp字段（阶码字段）的位模式不全为0，或不全为1.

　　阶码E=e-Bias 其中，e是exp字段表示的无符号数，Bias是偏置值2^(k-1)-1（单精度为127，双精度为1023）。阶码E以此方式来表示成有符号数。因此得到E的范围：单精度-126~127，双精度-1022~1023

　　若字段frac（尾数域）为

则定义尾数M=1+f，其中f=

。即尾数域仅仅表示小数点后面的部分，隐含小数点前面为1。

2、非规格化的值：当阶码字段全为0

　　阶码E=1-Bias

　　尾数M=f，不包含隐含的开头1

　　目的是表示数值0；表示非常接近与0.0的数

3、特殊值：阶码字段全为1

　　当尾数域全为0，表示无穷大或无穷小

　　当尾数域不全为0，结果值被称为NaN（Not a Number）

我们用正数范围内的示例，来说明上面的三种类型的重大意义

　　e：假定阶码字段是一个无符号整数表示的值

　　E：偏置之后的阶码值

　　2^E：阶码的权重数

　　f：尾码字段描述的小数值

　　M:尾数值

　　V：小数值 V=2^E * M

IEEE浮点表示的特点

1，最大非规格化数7/512 到最小规格化数8/512的平滑转变；

2，若将上图中浮点数的位表达式解释为无符号整数，它们就是按升序排列的，就像它们表示的浮点数一样。（IEEE如此设计格式就是为了浮点数能够使用整数排序函数来进行排序）

例如：

typedef unsigned char *type_pointer;

void show_types(type_pointer start,int len)
{
    int i;
    for(i=0; i<len; i++)
        printf(" %.2x",start[i]);
    printf("\n");
}

int main()
{
    float f1=1.0;
    show_types(&f1,sizeof(f1));
    return 0;
}

输出：00 00 80 3f

分析：这个程序运行在windows 32位机上。window系统是小端法（数值的低字节放在内存的前端）机器。

对于的二进制表示为：00111111 10000000 00000000 00000000

float的第1位为符号位：0；第2至第9位为阶码位，供8位：E=127-127=0；后面的23位为尾码，M=1+0=1。

所以，（-1）⁰*1*2^₀=1.0

浮点数的舍入方式

IEEE浮点格式定义来四种不同的舍入方式。默认的舍入方式是：偶数舍入。

偶数舍入（round-to-even）：找最接近的数值，舍入到这个值；如果有两个可能的值，将数字向上或向下舍入，使得到的结果的最低有效数字是偶数。

例如，将下面二进制舍入到小数后一位：

　　11.001(2)->舍入：11.0(2)　　11.0是最接近的数值

　　10.010(2)->舍入：10.0(2) 10.0 和 10.1都是最接近的值，但是10.0的最低位为偶数

　　10.110(2) ->舍入：11.0(2) 10.1 和 11.0 都是最接近的值，但是11.0的最低位为偶数

浮点运算

我们将x +^fy定义为Round(x + y)，这是对实际运算的精确结果进行舍入后的结果。

浮点加法的特点：

1、浮点加法不具有结合性。（由于可能发生溢出，或者舍入而失去精度）

    float f1=(3.14+10000000000)-10000000000;
    float f2=3.14+(10000000000-10000000000);
    printf("%f %f ",f1,f2);

　　输出：3.139999 3.140000

2、浮点加法满足了单调性。

无符号和补码加法不具有这个实数加法的属性（因为溢出的原因）

必须非常小心地使用浮点运算，因为浮点运算只有有限的范围和精度，而且不遵守普遍的算术属性，比如结合性。

不能表示 VS 不能精确表示

在浮点数的表示范围内，有多于 99.999…% 的数在计算机中是不能表示的。从数量级分析一下，32bit 浮点数的表示范围是 10 的 38 次
方，而表示个数呢，是 10 的 10 次方。能够被表示的数只有 1/100000000…. （大概有30个零）。详细内容请见“代码之谜（五）- 浮点数（谁偷了你的精度？）”

（转载请注明出处 ^.^）