目录结构：

contents structure [-]

浮点数的存储过程

次正规数（Denormalized Number）
零（zero）
非数值（NaN）
无穷大（infinity）

除数为0.0会发生什么
浮点数的范围
浮点数的精度
参考文献

IEEE 754(Institute of Electrical and Electronics Engineers)在1985年发布,该标准是为了统一规范浮点数的存储。

1.浮点数的存储过程

在IEEE 754标准中浮点数由三部分组成：符号位（sign bit），有偏指数（biased exponent），小数（fraction）。浮点数分为两种，单精度浮点数（single precision）和双精度浮点数（double precision），它们两个所占的位数不同。

单精度浮点数（共32位）：
1个符号位
8个指数位
23个小数位

双精度浮点数（共64位）：
1个符号位
11个指数位
52个小数位

接下来笔者以单精度浮点数0.15625讲解浮点数的存储过程：
0.15625₁₀转化为二进制就是0.00101₂，然后将该数写成科学计数法（scientific notation），根据IEEE 754的规定，小数点的左边只能有一个1，所以最终的科学计数法形式是：

0.15625₁₀ = 0.00101₂ = 1.01₂ * 10^-3

然后就可以得到小数部分为.01₂，指数部分为-3。

最终在内存中的存储结果就是如下图：

符号位（sign）：0，因为该数是正数（1表示负数）。

有偏指数（biased exponent）：-3 + 偏移量（bias）,在单精度浮点数中偏移量是127，因此127+(-3)=124，所以偏移指数是124。在双精度浮点数中偏移量是1023，因此偏移指数是1020。

小数(fraction)：.01000000000000000000000₂

在上面已经展示了浮点数的存储过程，接下来再仔细说一说有偏指数，还是拿单精度浮点数来说吧！在单精度浮点数中，有8位可以用来存储指数（范围就是：0～255），那么怎么表示负的指数呢？IEEE 754标准的制定者为了解决这个问题，约定了指数偏移量（单精度的偏移量是127），指数值要在加上偏移量后才能进行存储，这样就能表示指数的正负值了。通常情况下，如果存储的值大于偏移量，那么就意味着指数是正的；如果存储的值小于偏移量，那么就意味着指数是负的；如果存储的值等于偏移量，那么就意味着指数为0。

下面的对应关系，显示了有偏指数代表的各种含义：

0 == 特殊情况：零（zero） 或 次正规数（subnormal）

1 == 2 ^ -126

    ...

125 == 2 ^ -2

126 == 2 ^ -1

127 == 2 ^  0

128 == 2 ^  1

129 == 2 ^  2

    ...

254 == 2 ^ 127

255 == 特殊情况：无穷大（infinity） 或 非数值（NaN）

1.1 次正规数（Denormalized Number）

IEEE 754的设计者注意到，除了0.0所有的二进制的科学计数法都有一个1在小数点的左边。在上面也提到过，在写成标准的科学计数法的形式后，小数点的左边只能有一个1。
比如：
25.0₁₀ == 11001₂ = 1.1001₂ * 2⁴
0.625₁₀ == 0.101₂ = 1.01₂ * 2^-1
小数点的左边都是以一个1开始的，为了节约内存，它们规定：所有数在小数点左边默认有一个1。

按照这个规定的话，那么能够表示的最小正数就是：
0 00000001 00000000000000000000001₂ = 1.00000000000000000000001₂ * 2^-126

如果指数全为0，只能表示数字0的话，那么表示小数位的23位就没有利用起来。于是IEEE754的设计值，规定了一种新的数次正规数（Subnormal Number Or Denormalize Number)。规定如下：
如果指数位全为0的话，那么在科学计数法中小数点的左边就默认为一个0。这样的数，就被称为次正规数。

在次正规数中所有的偏移指数位都是0，于是规定在单精度浮点数中指数应该为-126（并非-127），在双精度浮点数中指数应该为-1022（并非-1023）

所以最小的正数就应该是：
0 00000000 00000000000000000000001₂ = 0.00000000000000000000001₂ * 2^-126

1.2 零（zero）

数值0被特殊表示：

符号位（sign） = 0或1

有偏指数（biased exponent） = 0

小数（fraction）= 0

0的内存二进制码为：

0 00000000 0000000000000000000000₂
1 00000000 0000000000000000000000₂

1.3 非数值（NaN）

有一些算数操作是非法的，比如对负数开根号。这类非法操作被称为浮点数异常（floating-point exception）,异常结果由特殊字符NaN（Not a Number）表示。

符号位（sign） = 0或1

有偏指数（biased exponent）= 所有位都是1

小数（fraction） = 除了所有位都是0的数（因为所有为0，表示无穷大）

小数位只要不全为0，就表示非数值。
0 11111111 11111111111100000010000₂
或
1 11111111 11111111111100000010000₂

1.4 无穷大（infinity）

无穷大有两种，正无穷大（Positive Infinity）和负无穷大（Negative Infinity）。

符号位（sign） = 0表示正无穷大，1表示负无穷大。

有偏指数（biased exponent） = 所有位都是1

小数（fraction） = 所有位都是0.

正无穷大
0 11111111 00000000000000000000000₂
负无穷大
1 11111111 00000000000000000000000₂

2.除数为0.0会发生什么

如果计算机是采用的IEEE 754的标准（绝大部分计算机都是采用该标准）。那么当除数为0.0时，会发生不可预期的行为（注意程序不会中断）

#include <iostream>

#include <limits>

int main(){

//is_iec559是否支持IEC-559 / IEEE-754标准

std::cout << std::numeric_limits<float>::is_iec559 << std::endl;

std::cout << (1.0 / 0.0) << std::endl;

std::cout << (-1.0 / 0.0) << std::endl;

std::cout << (0.0 / 0.0) << std::endl;

return ;

}

程序的输出结果是:

1

inf

-inf

-nan

3.浮点数的范围

在学习过上面的知识后，我们清楚了IEEE 754中浮点数在内存中的表示形式，我们也知道0（zero）是最小的（这里和下面只讨论非负数），次正规数（Denormalized Number）的表示范围比0大，正规数（normalized Number）表示的范围比次正规数大。

下面清楚的显示了一些范围和数值：

0 00000000 00000000000000000000001₂ = 0000 0001₁₆ = 0.1₂ × 2^-22 × 2^-126 = 2⁻¹²⁶ × 2⁻²³ = 2⁻¹⁴⁹ ≈ 1.4012984643× 10⁻⁴⁵

（最小的次正规数，smallest positive subnormal number）

0 00000000 11111111111111111111111₂ = 007f ffff₁₆ = 0.11111111111111111111111₂ * 2^-126 = 2⁻¹²⁶ × (1 − 2⁻²³) ≈ 1.1754942107 ×10⁻³⁸

（最大的次正规数，largest subnormal number）

0 00000001 00000000000000000000000₂ = 0080 0000₁₆ = 1.0₂ × 2^1-127 = 2⁻¹²⁶ ≈ 1.1754943508 × 10⁻³⁸

（最小的正正规数，smallest positive normal number）

0 11111110 11111111111111111111111₂ = 7f7f ffff₁₆ = 1.11111111111111111111111₂ × 2^254-127 = 2127 × (2− 2⁻²³) ≈ 3.4028234664 × 10³⁸

（最大的正正规数，largest normal number）

0 01111110 11111111111111111111111₂ = 3f7f ffff₁₆ = 1.11111111111111111111111₂ × 2^126-127= 1 − 2⁻²⁴ ≈ 0.9999999404

（比数值1小的最大数，largest number less than one）

0 01111111 00000000000000000000000₂ = 3f80 0000₁₆ = 1.0₂ × 2^127-127 = 1.0₂ × 2⁰= 1

（数值1，one）

0 01111111 00000000000000000000001₂ = 3f80 0001₁₆ = 1.00000000000000000000001₂ × 2^127-127 = 1 + 2⁻²³ ≈ 1.0000001192

（比数值1大的最小数，smallest number larger than one）

1 10000000 00000000000000000000000₂ = c000 0000₁₆ = −2

0 00000000 00000000000000000000000₂ = 0000 0000₁₆ = 0

1 00000000 00000000000000000000000₂ = 8000 0000₁₆ = −0

0 11111111 00000000000000000000000₂ = 7f80 0000₁₆ = infinity（正无穷）

1 11111111 00000000000000000000000₂ = ff80 0000₁₆ = −infinity（负无穷）

0 10000000 10010010000111111011011₂ = 4049 0fdb₁₆ ≈ 3.14159274101 ≈ π （圆周率，pi ）

0 01111101 01010101010101010101011₂ = 3eaa aaab₁₆ ≈ 0.333333343267 ≈ 1/3

x 11111111 10000000000000000000001₂ = ffc0 0001₁₆ = qNaN (on x86 and ARM processors)

x 11111111 00000000000000000000001₂ = ff80 0001₁₆ = sNaN (on x86 and ARM processors)

通常我们所说的浮点数的范围，都是指的正规数的存储范围。

Level	Width	Range at full precision
Single precision	32bits	±1.18×10⁻³⁸ to ±3.4×10³⁸
Double precision	64 bits	±2.23×10⁻³⁰⁸ to ±1.80×10³⁰⁸

4.浮点数的精度

在单精度浮点数中的二进制小数位有23个，所能表示2^23个数，那么只需要换算成在10进制下能够表示相同个数的位数，就可以得到精度了。
10ⁿ = 2²³
10ⁿ = 8388608
10⁶ < 8388608 < 10⁷
所以但精度浮点数的精度为6位，同理也可以得到双精度浮点数的精度为15位。

注意：精度为6位，并不是表示所有小于6的数都可以被精确存储，比如0.9。因为这个精度是由二进制的精度位数计算而来的。

所以浮点数的相等判断中，只需要判断他们的差值小于精度就可以了。

#include <stdio.h>      /* printf */

#include <math.h>       /* fabs */

int main ()

{

  float f1 = 0.007;

  float f2 = 0.009;

  int res = ( fabs(f1-f2) < 1e- );

  printf ("f1 == f2 is : %s\n",res?"true":"false");

  return ;

}

输出结果：

f1 == f2 is : false

5.参考文献

Single-precision floating-point format_Wikipedia
IEEE 754-1985_Wikipedia
What is a subnormal floating point number?
What is a “bias value” of floating-point numbers?

【算法】解析IEEE 754 标准的更多相关文章

python 警惕 IEEE 754标准
双精度浮点数格式,即IEEE 754标准 >>> 0.1+0.2 0.30000000000000004 >>> (0.1+0.2)==0.3 False > ...
打印一个浮点数组，会输出字符串"Hello, world“ & 浮点数的二进制表示(IEEE 754标准)
#include <stdio.h> #include<stdlib.h> int main() { float a[3] = { 1143139122437582505939 ...
IEEE 754标准--维基百科
IEEE二进制浮点数算术标准(IEEE 754) 是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denorm ...
基于 IEEE 754 标准的单精度浮点数计算方式（未完成）
def dec2bin(dec): if dec < 0: s = ' dec = dec * (-1) else: s = ' e = 127 dec = float(dec) r = int ...
IEEE 754标准
IEEE 754-1985 was an industry standard for representing floating-point numbers in computers, officia ...
IEEE 754二进制浮点数算术标准
可能很多人都遇到过浮点数精度丢失的问题,下面以JavaScript为例. 1 - 0.9 = 0.09999999999999998 纳尼,不应该是0.1么,怎么变成0.099999999999999 ...
IEEE二进制浮点数算术标准（IEEE 754）
整理自IEEE 754 IEEE二进制浮点数算术标准(IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0) ...
IEEE 754浮点数表示标准
二进制数的科学计数法 C++中使用的浮点数包括采用的是IEEE标准下的浮点数表示方法.我们知道在数学中可以将任何十进制的数写成以10为底的科学计数法的形式,如下其中显而易见,因为如果a比10大或者比 ...
【Python】解析Python的标准数据类型
目录结构: contents structure [-] 数值(Number) 数值类型类型转化 Python中的Decimal数据类型 Python中的分数 Python中的算术方法字符串(St ...

随机推荐

PostgreSQL 在Ubuntu下如何修改postgres默认密码
Step1: 切换用户为postgres sudo su postgres Step2: 用postgres连接postgreSQL psql -U postgres Step3: 修改postgre ...
003.DNS主从正反解析部署
一实验环境 1.1 实验需求配置正向解析bind 配置反向解析bind 配置辅助dns的bind 实现主辅dns之间的区域传送 1.2 环境规划主dns:CentOS6.8-01 172.24. ...
shell编程第一天
shell编程基础脚本:简单来说就是一条条的文字命令(一些指令的堆积)Shell属于内置的脚本 1.程序开发效率非常高,依赖于功能强大的命令可以迅速地完成开发任务(批处理) 2.语法简单,代码写起来 ...
visual studio 加入zen-codding
大家都知道zen codding的强大之处大家都知道了,那如何让visual studio也支持呢,直接下载插件安装即可: 插件下载地址:zen-codding for visual studio下载 ...
linux 硬盘分区与格式化挂载
1. 硬件设备与文件名的对应关系(详见linux系统管理P297)1) 掌握在Linux系统中,每个设备都被当初一个文件来对待.2) 掌握各种设备在Linux中的文件名 2. 硬盘的结构及硬盘分区(详 ...
使用Log4j日志处理
Springboot日志默认使用的是logback,本文将介绍将springboot项目日志修改为log4j. 首先要将默认的日志依赖排除,然后引用log4j,pom文件代码如下: <?xml ...
SpringBoot邮件发送
这篇文章介绍springboot的邮件发送. 由于很简单就没有分出server和imp之类,只是在controller简单写个方法进行测试. 首先pom文件加入spring-boot-starter- ...
IDEA常用配置
一.安装Activiti 1.File -> Settings -> Plugins -> 搜索actiBPM 2.解决中文乱码问题修改IDEA的安装目录中的idea.exe.vm ...
JavaScript基础笔记（十二）Ajax
Ajax 一.XMLHttpRequest对象一)XHR用法 var xhr = new XMLHttpRequest(); //open()方法,参数一:发送方法,参数二:请求的URL,参数三:是 ...
Ubuntu安装软件时提示依赖项配置错误
在终端中使用dpkg安装软件时有时会出现依赖项配置错误的情况, 解决方法是使用指令 sudo apt-get install -f 安装Ubuntu 16.04新系统不再配有的缺失依赖项,之后再次输入 ...

【算法】解析IEEE 754 标准