c/c++ 代码中使用sse指令集加速

使用SSE指令，首先要了解这一类用于进行初始化加载数据以及将暂存器的数据保存到内存相关的指令，

我们知道，大多数SSE指令是使用的xmm0到xmm8的暂存器，那么使用之前，就需要将数据从内存加载到这些暂存器。

1. load系列，用于加载数据，从内存到暂存器

__m128 _mm_load_ss (float *p)

__m128 _mm_load_ps (float *p)

__m128 _mm_load1_ps (float *p)

__m128 _mm_loadh_pi (__m128 a, __m64 *p)

__m128 _mm_loadl_pi (__m128 a, __m64 *p)

__m128 _mm_loadr_ps (float *p)

__m128 _mm_loadu_ps (float *p)

上面是从手册查询到的load系列的函数。其中，

_mm_load_ss用于scalar的加载，所以，加载一个单精度浮点数到暂存器的低字节，其它三个字节清0，（r0 := *p, r1 := r2 := r3 := 0.0）。

_mm_load_ps用于packed的加载（下面的都是用于packed的），要求p的地址是16字节对齐，否则读取的结果会出错，（r0 := p[0], r1 := p[1], r2 := p[2], r3 := p[3]）。

_mm_load1_ps表示将p地址的值，加载到暂存器的四个字节，需要多条指令完成，所以，从性能考虑，在内层循环不要使用这类指令。（r0 := r1 := r2 := r3 := *p）。

_mm_loadh_pi和_mm_loadl_pi分别用于从两个参数高底字节等组合加载。具体参考手册。

_mm_loadr_ps表示以_mm_load_ps反向的顺序加载，需要多条指令完成，当然，也要求地址是16字节对齐。（r0 := p[3], r1 := p[2], r2 := p[1], r3 := p[0]）。

_mm_loadu_ps和_mm_load_ps一样的加载，但是不要求地址是16字节对齐，对应指令为movups。

2. set系列，用于加载数据，大部分需要多条指令完成，但是可能不需要16字节对齐。

__m128 _mm_set_ss (float w)

__m128 _mm_set_ps (float z, float y, float x, float w)

__m128 _mm_set1_ps (float w)

__m128 _mm_setr_ps (float z, float y, float x, float w)

__m128 _mm_setzero_ps ()

这一系列函数主要是类似于load的操作，但是可能会调用多条指令去完成，方便的是可能不需要考虑对齐的问题。

_mm_set_ss对应于_mm_load_ss的功能，不需要字节对齐，需要多条指令。（r0 = w, r1 = r2 = r3 = 0.0）

_mm_set_ps对应于_mm_load_ps的功能，参数是四个单独的单精度浮点数，所以也不需要字节对齐，需要多条指令。（r0=w, r1 = x, r2 = y, r3 = z，注意顺序）

_mm_set1_ps对应于_mm_load1_ps的功能，不需要字节对齐，需要多条指令。（r0 = r1 = r2 = r3 = w）

_mm_setzero_ps是清0操作，只需要一条指令。（r0 = r1 = r2 = r3 = 0.0）

3. store系列，用于将计算结果等SSE暂存器的数据保存到内存中。

void _mm_store_ss (float *p, __m128 a)

void _mm_store_ps (float *p, __m128 a)

void _mm_store1_ps (float *p, __m128 a)

void _mm_storeh_pi (__m64 *p, __m128 a)

void _mm_storel_pi (__m64 *p, __m128 a)

void _mm_storer_ps (float *p, __m128 a)

void _mm_storeu_ps (float *p, __m128 a)

void _mm_stream_ps (float *p, __m128 a)

这一系列函数和load系列函数的功能对应，基本上都是一个反向的过程。

_mm_store_ss：一条指令，*p = a0

_mm_store_ps：一条指令，p[i] = a[i]。

_mm_store1_ps：多条指令，p[i] = a0。

_mm_storeh_pi，_mm_storel_pi：值保存其高位或低位。

_mm_storer_ps：反向，多条指令。

_mm_storeu_ps：一条指令，p[i] = a[i]，不要求16字节对齐。

_mm_stream_ps：直接写入内存，不改变cache的数据。

（2）算术指令

SSE提供了大量的浮点运算指令，包括加法、减法、乘法、除法、开方、最大值、最小值、近似求倒数、求开方的倒数等等，可见SSE指令的强大之处。那么在了解了上面的数据加载和数据保存的指令之后，使用这些算术指令就很容易了，下面以加法为例。

SSE中浮点加法的指令有：

__m128 _mm_add_ss (__m128 a, __m128 b)

__m128 _mm_add_ps (__m128 a, __m128 b)

其中，_mm_add_ss表示scalar执行模式，_mm_add_ps表示packed执行模式。

一般而言，使用SSE指令写代码，步骤为：使用load/set函数将数据从内存加载到SSE暂存器；使用相关SSE指令完成计算等；使用store系列函数将结果从暂存器保存到内存，供后面使用。

下面是一个完成加法的例子：

#include <intrin.h>  

int main(int argc, char* argv[])

{

    float op1[] = {1.0, 2.0, 3.0, 4.0};

    float op2[] = {1.0, 2.0, 3.0, 4.0};

    float result[];  

    __m128  a;

    __m128  b;

    __m128  c;  

    // Load

    a = _mm_loadu_ps(op1);

    b = _mm_loadu_ps(op2);  

    // Calculate

    c = _mm_add_ps(a, b);   // c = a + b  

    // Store

    _mm_storeu_ps(result, c);  

    /*      // Using the __m128 union to get the result.

    printf("0: %lf\n", c.m128_f32[0]);

    printf("1: %lf\n", c.m128_f32[1]);

    printf("2: %lf\n", c.m128_f32[2]);

    printf("3: %lf\n", c.m128_f32[3]);

    */

    printf("0: %lf\n", result[]);

    printf("1: %lf\n", result[]);

    printf("2: %lf\n", result[]);

    printf("3: %lf\n", result[]);  

    return ;

}

这个例子，前面已经写过类似的加法例子，注释中的printf部分是利用__m128这个数据类型来获取相关的值，

这个类型是一个union类型，具体定义可以参考相关头文件，但是，对于实际使用，有时候这个值是一个中间值，需要后面计算使用，就得使用store了，效率更高。

上面使用的是_mm_loadu_ps和_mm_storeu_ps，不要求字节对齐，如果使用_mm_load_ps和_mm_store_ps，会发现程序会崩溃或得不到正确结果。下面是指定字节对齐后的一种实现方法：

#include <intrin.h>  

int main(int argc, char* argv[])

{

    __declspec(align()) float op1[] = {1.0, 2.0, 3.0, 4.0};

    __declspec(align()) float op2[] = {1.0, 2.0, 3.0, 4.0};

    _MM_ALIGN16 float result[];        // A macro, same as "__declspec(align(16))"   

    __m128  a;

    __m128  b;

    __m128  c;  

    // Load

    a = _mm_load_ps(op1);

    b = _mm_load_ps(op2);  

    // Calculate

    c = _mm_add_ps(a, b);   // c = a + b  

    // Store

    _mm_store_ps(result, c);  

    /*      // Using the __m128 union to get the result.

    printf("0: %lf\n", c.m128_f32[0]);

    printf("1: %lf\n", c.m128_f32[1]);

    printf("2: %lf\n", c.m128_f32[2]);

    printf("3: %lf\n", c.m128_f32[3]);

    */

    printf("0: %lf\n", result[]);

    printf("1: %lf\n", result[]);

    printf("2: %lf\n", result[]);

    printf("3: %lf\n", result[]);  

    return ;

}

原文地址：http://blog.csdn.net/gengshenghong/article/details/7011373

原本看sse就是为给骨骼动画加速的，但是用起来感觉不快，

下面是矩阵乘以向量的代码，以及sse版

vec3 operator*(const vec3 &v) const {

        vec3 ret;

        ret[] = mat[] * v[] + mat[] * v[] + mat[] * v[] + mat[];

        ret[] = mat[] * v[] + mat[] * v[] + mat[] * v[] + mat[];

        ret[] = mat[] * v[] + mat[] * v[] + mat[] * v[] + mat[];

        return ret;

    }

    vec3 MultVec3SSE(const vec3& v) const

    {

        vec3 ret;

        __m128   res1;

        __m128   res2;

        __m128   res3;

        __m128   addres;

        /*

        _MM_ALIGN16 float addresf[4] = {mat[12],mat[13],mat[14],1};

        _MM_ALIGN16 float multf1[4] = {mat[0],mat[1],mat[2],1};

        _MM_ALIGN16 float multf2[4] = {mat[4],mat[5],mat[6],1};

        _MM_ALIGN16 float multf3[4] = {mat[8],mat[9],mat[10],1};

        _MM_ALIGN16 float mvecf1[4] = {v[0],v[0],v[0],1};

        _MM_ALIGN16 float mvecf2[4] = {v[1],v[1],v[1],1};

        _MM_ALIGN16 float mvecf3[4] = {v[2],v[2],v[2],1};

        addres = _mm_load_ps(addresf);

        */

        addres = _mm_set_ps(,mat[],mat[],mat[]);

/*

        res1 = _mm_mul_ps(_mm_load_ps(multf1),_mm_load_ps(mvecf1));

        res2 = _mm_mul_ps(_mm_load_ps(multf2),_mm_load_ps(mvecf2));

        res3 = _mm_mul_ps(_mm_load_ps(multf3),_mm_load_ps(mvecf3));  //_mm_set_ps

*/        

        res1 = _mm_mul_ps(_mm_set_ps(,mat[],mat[],mat[]),_mm_set_ps(,v[],v[],v[]));

        res2 = _mm_mul_ps(_mm_set_ps(,mat[],mat[],mat[]),_mm_set_ps(,v[],v[],v[]));

        res3 = _mm_mul_ps(_mm_set_ps(,mat[],mat[],mat[]),_mm_set_ps(,v[],v[],v[]));

        res1 = _mm_add_ps(res1,res2);

        res3 = _mm_add_ps(res1,res3);

        res3 = _mm_add_ps(res3,addres);

        float dest[];

        _mm_storeu_ps(dest,res3);

        ret.x = dest[] ;

        ret.y = dest[] ;

        ret.z = dest[] ;

        return ret;

    }

debug模式下fps只提高了个位数，release下更是跑不过非sse的。。。。。情何以堪

c/c++ 代码中使用sse指令集加速的更多相关文章

SSE指令集加速之 I420转BGR24
void yuv420_to_rgb24_sse3(uint8_t *yp, uint8_t *up, uint8_t *vp, int sy, int suv, int width, int hei ...
【转帖】超能课堂(186) CPU中的那些指令集都有什么用？
超能课堂(186)CPU中的那些指令集都有什么用? https://www.expreview.com/68615.html 不明觉厉开始的地方第一大类:基础运算类x86.x86-64及EM64T ...
AVX图像算法优化系列二: 使用AVX2指令集加速查表算法。
查表算法,无疑也是一种非常常用.有效而且快捷的算法,我们在很多算法的加速过程中都能看到他的影子,在图像处理中,尤其常用,比如我们常见的各种基于直方图的增强,可以说,在photoshop中的调整菜单里8 ...
SSE指令集学习：Compiler Intrinsic
大多数的函数是在库中,Intrinsic Function却内嵌在编译器中(built in to the compiler). 1. Intrinsic Function Intrinsic Fun ...
SSE指令集优化学习：双线性插值
对SSE的学习总算迈出了第一步,用2天时间对双线性插值的代码进行了优化,现将实现的过程梳理以下,算是对这段学习的一个总结. 1. 什么是SSE 说到SSE,首先要弄清楚的一个概念是SIMD(单指令多数 ...
【转】【SSE】基于SSE指令集的程序设计简介
基于SSE指令集的程序设计简介作者:Alex Farber 出处:http://www.codeproject.com/cpp/sseintro.asp SSE技术简介 Intel公司的单指令多数据 ...
【转】【SEE】基于SSE指令集的程序设计简介
SSE技术简介 Intel公司的单指令多数据流式扩展(SSE,Streaming SIMD Extensions)技术能够有效增强CPU浮点运算的能力.Visual Studio .NET 2003提 ...
在VS代码中编辑Python
在VS代码中编辑Python Python扩展提供了许多用于在Visual Studio代码中编辑Python源代码的功能: 自动完成和智能感知在终端中运行选择/行(REPL) 格式化重构也见L ...
DSO 优化代码中的 Schur Complement
接上一篇博客<直接法光度误差导数推导>,DSO 代码中 CoarseInitializer::trackFrame 目的是优化两帧(ref frame 和 new frame)之间的相对状 ...

随机推荐

Javascript 中ajax实现前台向后台交互
第一种情况:前台传入字符串参数后台返回json字符串.或是json数组代码如下: 前台: $.ajax({ url: "xxx/xxx.action", data: &quo ...
Android 开发自己的网络收音机1——功能要求及设计方案
最近打算利用业余时间,编写一个Android的网络收音机.因为我自己偶尔也喜欢听听广播,所以打算用业余时间编写一个网络版收音机.说起收音机,其实在工作中已经编写过一个,不过那个收音机是需要硬件支持,也 ...
git的使用总结
git使用技巧 git使用技巧 windows下git使用 git ignore file git 打tag vim编码设置 git ls显示中文乱码问题 git view history 查看某个文 ...
【Unity笔记】用代码动态修改Animator状态机的状态
通常情况下,Animator修改状态机,是在Animator定义参数(变量),状态之间建立切换的条件(箭头),然后代码中修改参数(变量),实现状态之间的切换. 而另一种情况下,不需要预先准备定义参数( ...
Putty远程SSH免密码方式链接Linxu
1.首先确保Linxu服务器安装了ssh服务,可以输入ssh命令测试. ssh [-1246AaCfgKkMNnqsTtVvXxYy] [-b bind_address] [-c cipher_spe ...
[开发笔记]-C#获取pdf文档的页数
[操作pdf文档]之C#判断pdf文档的页数: /// <summary> /// 获取pdf文档的页数 /// </summary> /// <param name=& ...
MySql生成日历表
mysql使用存储过程,创建日历表: 准备日历表: CREATE TABLE `m_dim_day` ( `ID` ) NOT NULL AUTO_INCREMENT, `DAY_ID` ) DEFA ...
android开发(44) 使用了 SoundPool 播放提示音
SoundPool 一个声音播放的辅助类,从名字可以看出,它具有 “池”的能力,它先加载声音文件到内存,以支持多次播放声音文件. 特点 SoundPool适合短小的声音文件 SoundPool适合 ...
Ubuntu16.04怎么将桌面左侧的启动器移动到屏幕底部
与其他 Linux 发行版不同,Ubuntu 多年来一直使用 Unity 做桌面环境,该环境的最突出特点就是桌面左侧有一个启动器栏(Launcher).从 16.04 版本开始,Ubuntu 提供了一 ...
SpringBoot2 【关于：Table 'XXX.hibernate_sequence' doesn't exist】
将ID生成略组改成@GeneratedValue(strategy = GenerationType.IDENTITY).

c/c++ 代码中使用sse指令集加速

c/c++ 代码中使用sse指令集加速的更多相关文章

随机推荐

热门专题