IEEE二进制浮点数算术标准（IEEE 754） 是20世纪80年代以来最广泛使用的浮点数运算标准，为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式（包括负零-0）与反常值（denormal number），一些特殊数值（（无穷（Inf）与非数值（NaN）），以及这些数值的“浮点数运算符”；它也指明了四种数值舍入规则和五种例外状况（包括例外发生的时机与处理方式）。

IEEE 754规定了四种表示浮点数值的方式：单精确度（32位）、双精确度（64位）、延伸单精确度（43比特以上，很少使用）与延伸双精确度（79比特以上，通常以80位实现）。只有32位模式有强制要求，其他都是选择性的。大部分编程语言都提供了IEEE浮点数格式与算术，但有些将其列为非必需的。例如，IEEE 754问世之前就有的C语言，现在包括了IEEE算术，但不算作强制要求（C语言的float通常是指IEEE单精确度，而double是指双精确度）。

该标准的全称为IEEE二进制浮点数算术标准（ANSI/IEEE Std 754-1985），又称IEC 60559:1989，微处理器系统的二进制浮点数算术（本来的编号是IEC 559:1989）[1]。后来还有“与基数无关的浮点数”的“IEEE 854-1987标准”，有规定基数为2跟10的状况。现在最新标准是“ISO/IEC/IEEE FDIS 60559:2010”。

在六、七十年代，各家计算机公司的各个型号的计算机，有着千差万别的浮点数表示，却没有一个业界通用的标准。这给数据交换、计算机协同工作造成了极大不便。IEEE的浮点数专业小组于七十年代末期开始酝酿浮点数的标准。在1980年，英特尔公司就推出了单片的8087浮点数协处理器，其浮点数表示法及定义的运算具有足够的合理性、先进性，被IEEE采用作为浮点数的标准，于1985年发布。而在此前，这一标准的内容已在八十年代初期被各计算机公司广泛采用，成了事实上的业界工业标准。加州大学伯克利分校的数值计算与计算机科学教授威廉·卡韩被誉为“浮点数之父”。

浮点数剖析

一个浮点数 (Value) 的表示其实可以这样表示：

也就是浮点数的实际值，等于符号位（sign bit）乘以指数偏移值(exponent bias)再乘以分数值(fraction)。

以下内文是IEEE 754对浮点数格式的描述。

本文表示比特的约定

把W个比特（bit）的数据，从内存地址低端到高端，以0到W−1编码。通常将内存地址低端的比特写在最右边，称作最低有效位（Least Significant Bit, LSB），代表最小的比特，改变时对整体数值影响最小的比特。声明这一点的必要性在于X86体系架构是小端序的数据存储。

对于十进制整数N，必要时表示为N10以与二进制的数的表示N2相区分。

对于一个数，其二进制科学计数法表示下的指数的值，下文称之为指数的实际值；而根据IEEE 754标准对指数部分的编码的值，称之为浮点数表示法指数域的编码值。

整体呈现

IEEE 754浮点数的三个域

二进制浮点数是以符号数值表示法的格式存储——最高有效位被指定为符号位（sign bit）；“指数部分”，即次高有效的e个比特，存储指数部分；最后剩下的f个低有效位的比特，存储“有效数”（significand）的小数部分（在非规约形式下整数部分默认为0，其他情况下一律默认为1）。

指数偏移值

采用指数的实际值加上固定的偏移值的办法表示浮点数的指数，好处是可以用长度为$e}e个比特的无符号整数来表示所有的指数取值，这使得两个浮点数的指数大小的比较更为容易，实际上可以按照字典序比较两个浮点表示的大小。

这种移码表示的指数部分，中文称作阶码。

规约形式的浮点数

如果浮点数中指数部分的编码值在 0<exponent⩽2e−20<exponent\leqslant 2^{e}-20<exponent⩽2e−2之间，且在科学表示法的表示方式下，分数 (fraction) 部分最高有效位（即整数字）是 1，那么这个浮点数将被称为规约形式的浮点数。“规约”是指用唯一确定的浮点形式去表示一个值。

由于这种表示下的尾数有一位隐含的二进制有效数字，为了与二进制科学计数法的尾数（mantissa）相区别，IEEE754称之为有效数（significant）。

举例来说，双精度 (64-bit) 的规约形式浮点数在指数偏移值的值域为000000000010000000000100000000001(11-bit) 到111111111101111111111011111111110 ，在分数部分则是000.....000000.....000000.....000 到111.....111111.....111111.....111 (52-bit)

非规约形式的浮点数

如果浮点数的指数部分的编码值是0，分数部分非零，那么这个浮点数将被称为非规约形式的浮点数。一般是某个数字相当接近零时才会使用非规约型式来表示。 IEEE 754标准规定：非规约形式的浮点数的指数偏移值比规约形式的浮点数的指数偏移值小1。例如，最小的规约形式的单精度浮点数的指数部分编码值为1，指数的实际值为-126；而非规约的单精度浮点数的指数域编码值为0，对应的指数实际值也是-126而不是-127。实际上非规约形式的浮点数仍然是有效可以使用的，只是它们的绝对值已经小于所有的规约浮点数的绝对值；即所有的非规约浮点数比规约浮点数更接近0。规约浮点数的尾数大于等于1且小于2，而非规约浮点数的尾数小于1且大于0。

特殊值

这里有三个特殊值需要指出：

以上规则，总结如下：

32位单精度

单精度二进制小数，使用32个比特存储。

S为符号位，Exp为指数字，Fraction为有效数字。指数部分即使用所谓的偏正值形式表示，偏正值为实际的指数大小与一个固定值（32位的情况是127）的和。采用这种方式表示的目的是简化比较。因为，指数的值可能为正也可能为负，如果采用补码表示的话，全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此，指数部分通常采用一个无符号的正数值存储。单精度的指数部分是−126～+127加上偏移值127，指数值的大小从1～254（0和255是特殊值）。浮点小数计算时，指数值减去偏正值将是实际的指数大小。

单精度浮点数各种极值情况：

64位双精度

双精度二进制小数，使用64个比特存储。

S为符号位，Exp为指数字，Fraction为有效数字。指数部分即使用所谓的偏正值形式表示，偏正值为实际的指数大小与一个固定值（64位的情况是1023）的和。采用这种方式表示的目的是简化比较。因为，指数的值可能为正也可能为负，如果采用补码表示的话，全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此，指数部分通常采用一个无符号的正数值存储。双精度的指数部分是−1022～+1023加上1023，指数值的大小从1～2046（0（2进位全为0）和2047（2进位全为1）是特殊值）。浮点小数计算时，指数值减去偏正值将是实际的指数大小。

浮点数的比较

浮点数基本上可以按照符号位、指数域、尾数域的顺序作字典比较。显然，所有正数大于负数；正负号相同时，指数的二进制表示法更大的其浮点数值更大。

浮点数的舍入

任何有效数上的运算结果，通常都存放在较长的寄存器中，当结果被放回浮点格式时，必须将多出来的比特丢弃。有多种方法可以用来运行舍入作业，实际上IEEE标准列出4种不同的方法：

舍入到最接近：舍入到最接近，在一样接近的情况下偶数优先（Ties To Even，这是默认的舍入方式）：会将结果舍入为最接近且可以表示的值，但是当存在两个数一样接近的时候，则取其中的偶数（在二进制中是以0结尾的）。

朝+∞方向舍入： 会将结果朝正无限大的方向舍入。

朝-∞方向舍入： 会将结果朝负无限大的方向舍入。

朝0方向舍入： 会将结果朝0的方向舍入。

浮点数的运算与函数

标准运算

下述函数必须提供:

建议的函数与谓词

精度

在二进制，第一个有效数字必定是“1”，因此这个“1”并不会存储。

讨论一

单精和双精浮点数的有效数字分别是有存储的23和52个位，加上最左手边没有存储的第1个位，即是24和53个位。

log⁡224=7.22\log 2^{24}=7.22log224=7.22

log⁡253=15.95\log 2^{53}=15.95log253=15.95

由以上的计算，单精和双精浮点数可以保证7位和15位十进制有效数字。

讨论二

C++语言标准定义的浮点数的十进制精度(decimal precision)：十进制数字的位数，可被(浮点数)表示而值不发生变化[3]。C语言标准定义的浮点数的十进制精度为：十进制数字的位数q，使得任何具有q位十进制数字的浮点数可近似表示为b进制的p位数字并且能近似回十进制表示而不改变这q位十进制数字[4]

但由于相对近似误差不均匀，有的7位十进制浮点数不能保证近似转化为32比特浮点再近似转化回7位十进制浮点后保持值不变：例如8.589973e9将变成8.589974e9。这种近似误差不会超过1比特的表示能力，因此(24-1)*std::log10(2)等于6.92，下取整为6，成为std::numeric_limits::digits10以及FLT_DIG的值。std::numeric_limits::max_digits10的值为9，含义是必须9位十进制数字才能区分float的所有值；也即float的最大表示区分度。

类似的，std::numeric_limits<double>::digits10或DBL_DIG是15， std::numeric_limits<double>::max_digits10是17

例子

以下的C++程序，概略地展示了单精和双精浮点数的精度。

#include <iostream>

int main () {

    std::cout.precision(20);

    float a=123.45678901234567890;

    double b=123.45678901234567890;

    std::cout << a << std::endl;

    std::cout << b << std::endl;

    return 0;

}

// Xcode 5.1

// Output:

// 123.456787109375

// 123.45678901234568059

// Program ended with exit code: 0

全文由维基百科翻译-- 维基百科，自由的百科全书

IEEE 754标准--维基百科的更多相关文章

【算法】解析IEEE 754 标准
目录结构: contents structure [-] 浮点数的存储过程次正规数(Denormalized Number) 零(zero) 非数值(NaN) 无穷大(infinity) 除数为0. ...
python 警惕 IEEE 754标准
双精度浮点数格式,即IEEE 754标准 >>> 0.1+0.2 0.30000000000000004 >>> (0.1+0.2)==0.3 False > ...
打印一个浮点数组，会输出字符串"Hello, world“ & 浮点数的二进制表示(IEEE 754标准)
#include <stdio.h> #include<stdlib.h> int main() { float a[3] = { 1143139122437582505939 ...
基于 IEEE 754 标准的单精度浮点数计算方式（未完成）
def dec2bin(dec): if dec < 0: s = ' dec = dec * (-1) else: s = ' e = 127 dec = float(dec) r = int ...
IEEE 754标准
IEEE 754-1985 was an industry standard for representing floating-point numbers in computers, officia ...
IEEE二进制浮点数算术标准（IEEE 754）
整理自IEEE 754 IEEE二进制浮点数算术标准(IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0) ...
IEEE 754二进制浮点数算术标准
可能很多人都遇到过浮点数精度丢失的问题,下面以JavaScript为例. 1 - 0.9 = 0.09999999999999998 纳尼,不应该是0.1么,怎么变成0.099999999999999 ...
IEEE 754浮点数表示标准
二进制数的科学计数法 C++中使用的浮点数包括采用的是IEEE标准下的浮点数表示方法.我们知道在数学中可以将任何十进制的数写成以10为底的科学计数法的形式,如下其中显而易见,因为如果a比10大或者比 ...
IEEE 754舍入的问题
写在前面本文的舍入方法只适用于保留0位或1位小数,个人水平所限,暂时没有发现保留更多小数位的舍入的规律- IEEE 754的舍入模式 IEEE 754标准提供了2类,5种舍入模式,在默认情况下一般是 ...

随机推荐

【php】面向过程的文件上传过程
//执行完整的文件上传 $path = "./uploads"; //文件上传的指定目录 $upfile = $_FILES['pic']; //文件的上传信息[一维数组] $ty ...
Hadoop（八）：YARN框架简介
YARN组件图 Container是YARN框架中对应资源的抽象,封装了运行节点上的资源(内存+CPU) NodeManager负责Container状态的维护,通过心跳,把资源信息(剩余CPU.内存 ...
2017蓝桥杯日期问题（C++B组）
标题:日期问题小明正在整理一批历史文献.这些历史文献中出现了很多日期.小明知道这些日期都在1960年1月1日至2059年12月31日.令小明头疼的是,这些日期采用的格式非常不统一,有采用年/月/日的, ...
javascript入门之 ztree (九单/复选框问题)
<!DOCTYPE html> <HTML> <HEAD> <meta http-equiv="content-type" content ...
redis 正确实现分布式锁的正确方式
前言最近在自己所管理的项目中,发现redis加锁的方式不对,在高并发的情况有问题.故在网上找搜索了一把相关资料.发现好多都是互相抄袭的,很多都是有缺陷的.好多还在用redis 的 setnx命令来实 ...
openwrite使用说明
访问官网https://openwrite.cn/注册登录访问https://openwrite.cn/plugin-chrome/ 下载插件和安装插件"OpenWrite助手1.1.4& ...
[转] [知乎] 浅谈Roguelike
浅谈Roguelike 从柏林诠释说起在2008年召开的国际Roguelike开发会议上,众多的Roguelike开发者与爱好者共同制定了<柏林诠释>,规定了Roguelike游戏需要具 ...
曹工说Redis源码（6）-- redis server 主循环大体流程解析
文章导航 Redis源码系列的初衷,是帮助我们更好地理解Redis,更懂Redis,而怎么才能懂,光看是不够的,建议跟着下面的这一篇,把环境搭建起来,后续可以自己阅读源码,或者跟着我这边一起阅读.由于 ...
2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例（人体运动状态信息评级）
样本: 使用的算法: 代码: import numpy as np import pandas as pd import datetime from sklearn.impute import Sim ...
Docker-Bridge Network 01 容器间通信
本小节介绍bridge network模式下,单机上的容器网络拓扑及通信. 1.前言对于单机上的容器,Docker提供了bridge.host.none三种网络.我们首先介绍经典的bridge模式. ...

IEEE 754标准--维基百科