代码移动:

如果一个表达式总是得到同样的结果,最好把它移动到循环外面,这样只需要计算一次。编译器有时候可以自动完成,比如说使用 -O1 优化。一个例子:

void set_row(double *a, double *b, long i, long n){
long j;
for (j = 0; j < n; j++){
a[n*i + j] = b[j];
}
}

这里n*i是重复被计算的,可以放到循环外面

long j;
int ni = n * i;
for (j = 0; j < n; j++){
a[ni + j] = b[j];
}

消除不必要的内存引用:

for(int i = 0;i < n;i++)
{
*p = *p OP data[i];
} //new
int t = *p;
for()
{
t = t OP data[i];
}
*p = t;

上面的过程中,每次循环要经历2次读1次写:

从p读取值 -> 读取data[i]进行计算 -> 写到p

但该进之后,每次循环只需要一次读

vmovesd (%rbx),%xmm();        //read from p
vmulsd (%rdx),%xmm(),%xmm(); //mul by data[]
vmovesd %xmm(),(%rbx); //store vmulsd (%rdx),%xmm(),%xmm(); //mul by data[]

处理条件分支

现代处理器普遍采用超标量设计,也就是基于流水线来进行指令的处理,也就是说,当执行当前指令时,接下来要执行的几条指令已经进入流水线的处理流程了。

对于顺序执行来说,不会有任何问题,但是对于条件分支来说,在跳转指令时可能会改变程序的走向,也就是说,之前载入的指令可能是无效的。这个时候就只能清空流水线,然后重新进行载入。为了减少清空流水线所带来的性能损失,处理器内部会采用称分支预测』的技术。

例:

当遇到if语句的时候,你事先完全不知道应该往哪边走。你可以暂停,等待直到之前的指令执行完成,然后比较结果,然后往正确的那个方向走。

但是现代计算机有很长的流水线,等待结果必定会浪费很多时间。于是有了分支预测,先假设分支方向,加入流水线,如果对了就可以继续执行下去。否则清空流水线再向正确的地方前进。

条件转移:

在有的情况下,书写合适的条件转移可以实现分支。

if(a > b)
{
int t = a;
a = b;
b = a;
}

上面的代码会进行分支预测,改:

if(a > b)
{
int tmax = a < b? b:a;
int tmin = a > b? b:a;
a = tmin;
b = tmax;
}
// a < b ? b:a;可以等效于:
tmax = b;
tmp = a;
t = a < b;
if(!t) tmax=tmp;

循环展开:

通过增加每次迭代的计算量,减少循环次数。

1.减少了循环索引计数和条件分支

2.提供了进一步利用机器特性进行的优化的机会

int ans = 0;
for(int i = 0;i < n;i += 2)
{
ans = ans OP data[i] OP data[i+1];
}

提高并行化:

1.多个累积变量

在加法和乘法功能的时候,功能单元是完全流水线化的。使其能更高效的执行

for(int i = 0;i < n;i+=2)
{
ans0 = ans0 OP data[i];
ans1 = ans1 OP data[i+1];
}

与上面相比关键路径上面的操作由 n->n/2。而且结果ans0 和 ans1不相关,流水线性能应该会提升。

2.重新结合变化

 ans = ans OP data[i] OP data[i+1];
ans = ans OP (data[i] OP data[i+1]);

可能看着没什么区别,但是data[i]*data[i+1]的计算完全不用考虑上一次循环的结果,流水线能得到充分利用


参考资料:

不周山之读薄CSAPP:http://wdxtub.com/2016/04/16/thin-csapp-0/

浅谈分支预测、流水线和条件转移:http://www.cnblogs.com/yangecnu/p/4196026.html#undefined

《深入理解计算机系统 》

CSAPP-程序优化的更多相关文章

  1. CSAPP 5 - 优化程序性能

    CSAPP 5 - 优化程序性能 1. 概述 首当其冲的,还是要编写出好的算法和数据结构,优化内部结构 其次才是编写出能让编译器 易优化的,高效的可执行代码.这点在特定的机器上可能有着特定的不同的优化 ...

  2. Java 程序优化 (读书笔记)

    --From : JAVA程序性能优化 (葛一鸣,清华大学出版社,2012/10第一版) 1. java性能调优概述 1.1 性能概述 程序性能: 执行速度,内存分配,启动时间, 负载承受能力. 性能 ...

  3. GPU 编程入门到精通(五)之 GPU 程序优化进阶

    博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识.鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程. 有志同道合的小伙 ...

  4. 大页内存(HugePages)在通用程序优化中的应用

    今天给大家介绍一种比较新奇的程序性能优化方法-大页内存(HugePages),简单来说就是通过增大操作系统页的大小来减小页表,从而避免快表缺失.这方面的资料比较贫乏,而且网上绝大多数资料都是介绍它在O ...

  5. 从设计模式的角度看Java程序优化

    一.前言 Java程序优化有很多种渠道,比如jvm优化.数据库优化等等,但都是亡羊补牢的措施,如果能在设计程序架构时利用设计模式就把程序的短板解决,就能使程序更加健壮切容易维护迭代 二.常用的设计模式 ...

  6. JDBC程序优化--提取配置信息放到属性文件中

    JDBC程序优化--提取配置信息放到属性文件中 此处仅仅优化JDBC连接部分,代码如下: public class ConnectionFactory { private static String ...

  7. 单片机C程序优化

    单片机C程序优化 对程序进行优化,通常是指优化程序代码或程序执行速度.优化代码和优化速度实际上是一个予盾的统一.一般是优化了代码的尺寸,就会带来执行时间的增加:如果优化了程序的执行速度,通常会带来代码 ...

  8. 转载:erlang程序优化点的总结

    erlang程序优化点的总结(持续更新) 转自:http://wqtn22.iteye.com/blog/1820587 转载请注明出处 注意,这里只是给出一个总结,具体性能需要根据实际环境和需要来确 ...

  9. 关于C#程序优化的五十种方法

    关于C#程序优化的五十种方法    这篇文章主要介绍了C#程序优化的五十个需要注意的地方,使用c#开发的朋友可以看下   一.用属性代替可访问的字段 1..NET数据绑定只支持数据绑定,使用属性可以获 ...

  10. GPU 编程入门到精通(四)之 GPU 程序优化

    博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识,鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程.有志同道合的小伙伴 ...

随机推荐

  1. HDFS架构

  2. Build to win

    UPDATE:看到周筠老师的评论里的链接,那版式真的非常舒服.我想想模仿模仿他的布局来看看,虽然感觉做的也不是太好.另外对博客内容稍作修改. 一.获得小黄衫的感受 很幸运能够获得"领骑衫&q ...

  3. 【iOS】swift-Binary operator '|' cannot be applied to two UIViewAutoresizing operands

    let view = UIView(frame: CGRect(x: 0, y: 0, width: 320, height: 568)) addSubview(view) view.autoresi ...

  4. hdu 4553 约会安排

    约会安排 http://acm.hdu.edu.cn/showproblem.php?pid=4553 Time Limit: 2000/1000 MS (Java/Others)    Memory ...

  5. Pandas速查手册中文版

    本文翻译自文章: Pandas Cheat Sheet - Python for Data Science ,同时添加了部分注解. 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非 ...

  6. Python内置函数(33)——any

    英文文档: any(iterable) Return True if any element of the iterable is true. If the iterable is empty, re ...

  7. Hadoop学习笔记一(HDFS架构)

    介绍 Hadoop分布式文件系统(HDFS)设计的运行环境是商用的硬件系统.他和现存的其他分布式文件系统存在很多相似点.不过HDFS和其他分布式文件系统的区别才是他的最大亮点,HDFS具有高容错的特性 ...

  8. 学习ASP.NET Core Razor 编程系列五——Asp.Net Core Razor新建模板页面

    学习ASP.NET Core Razor 编程系列目录 学习ASP.NET Core Razor 编程系列一 学习ASP.NET Core Razor 编程系列二——添加一个实体 学习ASP.NET ...

  9. NHibernate从入门到精通系列(3)——第一个NHibernate应用程序

    内容摘要 准备工作 开发流程 程序开发 一.准备工作 1.1开发环境 开发工具:VS2008以上,我使用的是VS2010 数据库:任意关系型数据库,我使用的是SQL Server 2005 Expre ...

  10. fetch简明学习

    前面的话 Fetch API 提供了一个 JavaScript接口,用于访问和操纵HTTP管道的部分,例如请求和响应.它还提供了一个全局 fetch()方法,该方法提供了一种简单,合乎逻辑的方式来跨网 ...