一条指令优化引发的血案，性能狂掉50%，clang使用-ffast-math选项后变傻了

https://www.cnblogs.com/bbqzsl/p/15510377.html

近期在做优化时，对一些函数分别在不同编译平台上进行bench测试。发现了不少问题。

现在拿其中一个问题来分享。

 1 typedef float MAFloat;

 2

 3 MAFloat sma(const MAFloat* seq, const int cnt, const int N, const int M)

 4 {

 5     const MAFloat C1 = (MAFloat)M/N;

 6     const MAFloat C2 = (MAFloat)(N-M)/N;

 7     MAFloat result = 0.f;

 8     int total = cnt;

 9

10 #pragma nounroll

11     for (int i = 0; i < total; ++i)

12     {

13         result = result * C2 + seq[i] * C1;

14     }

15

16     return result;

17 }

测试代码很简单，只一个循环，循环内只做了算术运算，汇编代码也很容易。

测试平台包括：

win10：平台，vc120，gcc10，clang11

centos8：平台，gcc8，gcc10，clang11

vc：使用选项 /arch:sse2 /O2，并且win32

gcc：使用选项 -ffast-math -O2 -m32

clang：使用选项 -ffast-math -O2 -m32

数组长度为 28884 = 7221 * 4；

cpu 是 core i5，3.5Ghz

测试结果：

win10：平台，vc120 (0.06x ms)，gcc10 (0.06x ms)，clang11 (0.09x ms)

centos8：平台，gcc8 (0.06x ms)，gcc10 (0.06x ms)，clang11 (0.09x ms)

不论在win10还是centos8平台上，clang编译的代码的性能居然比vc或gcc编译的代码性能差了50%。

现在我们来对比gcc10与clang11产出汇编代码

## gcc 

.L149:

    movss    (%edx,%eax,4), %xmm1    # xmm1 = seq[i]

    mulss    %xmm3, %xmm0    　　　　　# xmm0 = result * C2

    addl    $1, %eax    　　　　　　　　#

    mulss    %xmm2, %xmm1    　　　　　# xmm1 = seq[i] * C1　

    addss    %xmm1, %xmm0    　　　　　# result = xmm0 + xmm1

    cmpl    %ecx, %eax

    jl    .L149    　　　　　　　　　　　# next loop

## clang

LBB7_3:                                 # =>This Inner Loop Header: Depth=1

    movss    (%eax,%edx,4), %xmm4            # xmm4 = mem[0],zero,zero,zero

    mulss    %xmm1, %xmm3    　　　　　　　#

    incl    %edx

    cmpl    %ecx, %edx

    mulss    %xmm0, %xmm4

    addss    %xmm4, %xmm3

    mulss    %xmm2, %xmm3    　　　　　　　# xmm2 = 1/N;

    jl    LBB7_3

gcc生成的汇编代码一共7条指令，clang生成的汇编代码一共8条指令多出了一条mulss。

clang不知什么原因自作聪明将

result * C2 + seq[i] * C1;

优化成

(1/N) * (result * (N-M) + seq[i] * M);

即使多出一条mulss指令，性能也不至于差了50%，就像7条指令与10.5条指令的差距。

现在来分析

我的机器使用i5 3.5Ghz， 1ns可以运行3.5指令周期。

数组长度为28884，即执行循环代码28884次

运行时间为 28884 * (循环体指令周期）/ 3.5

我现在粗略地将每条指令周期看作是1，gcc生成的代码运行时间粗略地为 28884 * 7 / 3.5 = 57768ns，与测试结果在0.06ms基本相当。用同样的方法估算，clang生成的代码运行时间粗略地为 28884 * 8 / 3.5 = 66020ns。

但是不同的指令，执行不同数量的微指令(uop)，也就是延迟，mulss为4或5，addss为3，上面汇编代码的其它指令各为1。

    mulss    %xmm2, %xmm1    　　　　　# xmm1 = seq[i] * C1　

    addss    %xmm1, %xmm0    　　　　　# result = xmm0 + xmm1

在上面两条指令，addss 依赖 mulss 的结果于 %xmm1，也就是说addss 必须在mulss开始执行后延迟4或5个周期才能执行。由于cpu的乱序机制，这时候延迟的周期数内可以在其他ALU执行其它指令。所以gcc生成的汇编代码的情况可以看作没有指令周期的损失。

再来看clang生成的汇编代码

    mulss    %xmm0, %xmm4

    addss    %xmm4, %xmm3

    mulss    %xmm2, %xmm3    　　　　　　　# xmm2 = 1/N;

addss 依赖 mulss 的结果于 %xmm4，然后mulss 依赖 addss 的结果于 %xmm3，这里我们将第一个依赖等同于gcc汇编中的那个依赖，那么下一个依赖的3个周期就必须等待，一次循环一共才8条指令，两个依赖的延迟合计就8个指令周期，乱序也就没有指令可以执行，所以就硬生生多出3或4个指令周期等待。

运行时间一下子就变成了 28884 * (8+3) / 3.5 = 90778ns。

估算的结果与测试的结果基本上吻合。

有兴趣的朋友可以到godblot上测试汇编，一旦让clang使用-ffast-math选项，编译发生这一出傻事。

一条指令优化引发的血案，性能狂掉50%，clang使用-ffast-math选项后变傻了的更多相关文章

一条慢SQL引发的血案
直接切入正题吧: 通常来说,我们看到的慢查询一般还不致于导致挂站,顶多就是应用响应变慢不过这个恰好今天被我撞见了,一个慢查询把整个网站搞挂了先看看这个SQL张撒样子: # Query_time: 70 ...
转：一个Sqrt函数引发的血案
转自:http://www.cnblogs.com/pkuoliver/archive/2010/10/06/1844725.html 源码下载地址:http://diducoder.com/sotr ...
一个Sqrt函数引发的血案(转）
作者: 码农1946 来源: 博客园发布时间: 2013-10-09 11:37 阅读: 4556 次推荐: 41 原文链接 [收藏] 好吧,我承认我标题党了,不过既然你来了, ...
一个无锁消息队列引发的血案（五）——RingQueue(中) 休眠的艺术
目录 (一)起因 (二)混合自旋锁 (三)q3.h 与 RingBuffer (四)RingQueue(上) 自旋锁 (五)RingQueue(中) 休眠的艺术 (六)RingQueue(中) 休眠的 ...
【转载】一个Sqrt函数引发的血案
转自:http://www.cnblogs.com/pkuoliver/archive/2010/10/06/sotry-about-sqrt.html 源码下载地址:http://diducoder ...
一个Sqrt函数引发的血案
源码下载地址:http://diducoder.com/sotry-about-sqrt.html 好吧,我承认我标题党了,不过既然你来了,就认真看下去吧,保证你有收获. 我们平时经常会有一些数据运算 ...
一个无锁消息队列引发的血案（三）——地：q3.h 与 RingBuffer
目录 (一)起因 (二)混合自旋锁 (三)q3.h 与 RingBuffer (四)RingQueue(上) 自旋锁 (五)RingQueue(中) 休眠的艺术 (六)RingQueue(中) 休眠的 ...
一次"内存泄漏"引发的血案
本文转载自一次"内存泄漏"引发的血案导语 2017年末,手Q春节红包项目期间,为保障活动期间服务正常稳定,我对性能不佳的Ark Server进行了改造和重写.重编发布一段时间后, ...
优化Angular应用的性能
MVVM框架的性能,其实就取决于几个因素: 监控的个数数据变更检测与绑定的方式索引的性能数据的大小数据的结构我们要优化Angular项目的性能,也需要从这几个方面入手. 1. 减少监控值的个 ...

随机推荐

测试验收标准checklist
需求实现功能清单功能实现目的需求改造功能清单关联功能清单关联系统端到端全流程场景业务联系性场景业务全流程场景上下需求关联规则业务角度在流程中关注项财报.评级授信方案反洗钱面向 ...
centos查找大文件
首先到相当的目录下面,按下面方式查找 find . -type f -size +800M -print0 | xargs -0 ls -lah或者从根目录(/)开始查找find / -type f ...
YbtOJ#532-往事之树【广义SAM,线段树合并】
正题题目链接:https://www.ybtoj.com.cn/problem/532 题目大意给出$n$个点的一个$Trie$树,定义$S_x$表示节点$x$代表的字符串求$$ ...
MacOS下terminal防止ssh自动断开的方法和自动断开的原因
之前换了个工作环境,用terminal连接远程服务器的时候老是出现自动断开的情况,搞得我很是郁闷.因为之前在家的时候,并没有出现过类似情况.后来在网上找了很久,发现国外网站上有个大神说应该是有些路由器 ...
HTML选择器的权重（优先级）
选择器的优先级主要用于样式发生冲突的情况下选择器范围越小,优先级越高行内样式>id选择器>类选择器>标签选择器>通用选择器这里涉及一个权重值的问题,权重值越高,优先级越大 ...
SQL SERVER数据库权限分配
1,新建只能访问某一个表的只读用户. --添加只允许访问指定表的用户: exec sp_addlogin '用户名','密码','默认数据库名' ...
bzoj4094 && luogu3097 最优挤奶
题目大意: 给定n个点排成一排,每个点有一个点权,有m次修改,每次改变某个点的点权并将最大点独立集计入答案,输出最终的答案其中$n\le 40000\ , \ m\le 50000$ QWQ说实 ...
3DGIS开发使用的开源项目
gdal proj4 vcglib assimp libjpg libpng osg libtess2 cesiumjs glm
试题算法训练最大最小公倍数 java题解
资源限制时间限制:1.0s 内存限制:256.0MB 问题描述已知一个正整数N,问从1~N中任选出三个数,他们的最小公倍数最大可以为多少. 输入格式输入一个正整数N. 输出格式输出一个整数 ...
Java项目中常用的的五大设计原则
今天我们一起来聊聊关于设计原则相关的知识点. SOLID五大原则是什么 SRP 单一责任原则单一责任原则,从名字上我们就能比较好的去理解它.这项原则主张一个对象只专注于单个方面的逻辑,强调了职责的专 ...

一条指令优化引发的血案，性能狂掉50%，clang使用-ffast-math选项后变傻了

一条指令优化引发的血案，性能狂掉50%，clang使用-ffast-math选项后变傻了的更多相关文章

随机推荐

热门专题