SSE笔记

1.8位加：

*(__m128i*)(dest + i * 16) = _mm_add_epi8(*(__m128i*)(srcA + i * 16), *(__m128i*)(srcB + i * 16));

16位减法

__m128i _mm_sub_epi16 (__m128i a, __m128i b);

r0 := a0 - b0
r1 := a1 - b1
...
r7 := a7 - b7

2. 加载128位数据

__m128i Src1 = _mm_loadu_si128((__m128i *)(LinePS + 0));

3. 把16个8bit数据送给 dst

__m128i _mm_setr_epi8 (char e15, char e14, char e13, char e12, char e11, char e10, char e9, char e8, char e7, char e6, char e5, char e4, char e3, char e2, char e1, char e0)

4.  Src1 的 第0/3/6/9/15 给到Blue的前6个字节    可以用于BGR  B分量提取

Blue = _mm_shuffle_epi8(Src1, _mm_setr_epi8(0, 3, 6, 9, 12, 15, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1));

5. 或运算把src2 的第 2 5 8 11 14 个字节和Blue进行或运算，即填充Blue的中间6个字节

Blue = _mm_or_si128(Blue, _mm_shuffle_epi8(Src2, _mm_setr_epi8(-1, -1, -1, -1, -1, -1, 2, 5, 8, 11, 14, -1, -1, -1, -1, -1)));

6. Blue的低8位字节放在Blue16L中，防止后面的乘积溢出

__m128i Blue16L = _mm_unpacklo_epi8(Blue, Zero);

7.移位

__m128i _mm_srai_epi32 (__m128i a, int count);

r0 := a0 >> count

r1 := a1 >> count

r2 := a2 >> count

r3 := a3 >> count

移位

__m128i _mm_sra_epi16 (__m128i a, __m128i count);

r0 := a0 >> count
r1 := a1 >> count
...
r7 := a7 >> count

8 . 两个16位合成一个 32 位

__m128i _mm_packus_epi16 (__m128i a, __m128i b);

r0 := UnsignedSaturate(a0)

r1 := UnsignedSaturate(a1)

...

r7 := UnsignedSaturate(a7)

r8 := UnsignedSaturate(b0)

r9 := UnsignedSaturate(b1)

...

r15 := UnsignedSaturate(b7)

9.    a 赋值给p
void _mm_storeu_si128 (__m128i *p, __m128i a);

10   乘法  __m128i _mm_mullo_epi32(  __m128i a, __m128i b  );

r0 := a0 * b0
r1 := a1 * b1
r2 := a2 * b2
r3 := a3 * b3

10 比较0-31bit 是否相等若相等，返回1 否则返回0

int _mm_comieq_ss (__m128 a, __m128 b)

SSE笔记的更多相关文章

SSE指令集学习：Compiler Intrinsic
大多数的函数是在库中,Intrinsic Function却内嵌在编译器中(built in to the compiler). 1. Intrinsic Function Intrinsic Fun ...
What every programmer should know about memory 笔记
What every programmer should know about memory, Part 1(笔记) 每个程序员都应该了解的内存知识[第一部分] 2.商用硬件现状现在硬件的 ...
Comet、SSE、Web Socket
来自<javascript高级程序设计第三版:作者Nicholas C. Zakas>的学习笔记(十一) Comet Comet是一种更加高级的Ajax技术("服务器推送&qu ...
Long-Polling, Websockets, SSE(Server-Sent Event), WebRTC 之间的区别
在下面的示例中,客户端指的是浏览器,服务器指的是网站服务器主机. 为了更好的理解这些知识点,你应该简单了解典型的http网站是如何工作的. 普通的http: 客户端从服务器端请求网页服务器作出相应的 ...
WebSocket学习笔记——无痛入门
WebSocket学习笔记——无痛入门标签: websocket 2014-04-09 22:05 4987人阅读评论(1) 收藏举报分类: 物联网学习笔记(37) 版权声明:本文为博主原 ...
图像转置的SSE优化（支持8位、24位、32位），提速4-6倍。
一.前言转置操作在很多算法上都有着广泛的应用,在数学上矩阵转置更有着特殊的意义.而在图像处理上,如果说图像数据本身的转置,除了显示外,本身并无特殊含义,但是在某些情况下,确能有效的提高算法效率,比如 ...
R语言与机器学习学习笔记
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自 ...
SSE图像算法优化系列四：图像转置的SSE优化（支持8位、24位、32位），提速4-6倍
一.前言转置操作在很多算法上都有着广泛的应用,在数学上矩阵转置更有着特殊的意义.而在图像处理上,如果说图像数据本身的转置,除了显示外,本身并无特殊含义,但是在某些情况下,确能有效的提高算法效率,比如 ...
SSE图像算法优化系列一：一段BGR2Y的SIMD代码解析。
一个同事在github上淘到一个基于SIMD的RGB转Y(彩色转灰度或者转明度)的代码,我抽了点时间看了下,顺便学习了一些SIMD指令,这里把学习过程中的一些理解和认识共享给大家. github上相关 ...

随机推荐

CPU排行-台式
此文已经于2017年11月1日更新!来源于极速空间实际对比: intel i3-7100(双核四线程) CPU性能远超过 AMD X4 860K(四核四线程) intel i5-7500(四核四线程 ...
close connection error java.sql.SQLRecoverableException: IO Error: Broken pipe
java.sql.SQLRecoverableException: IO Error: Broken pipe Table of Contents 1. 错误信息 2. 分析 2.1. 连接池 2.2 ...
007-Linux 查看端口
1.使用ss 查看 ss 一般用于转储套接字统计信息.它还可以显示所有类型的套接字统计信息,包括 PACKET.TCP.UDP.DCCP.RAW.Unix 域等. ss -lntpd | grep : ...
关于java面试题
java的优点: Java是一种跨平台,适合于分布式计算环境的面向对象编程语言. 具体来说,它具有如下特性: 简单性.面向对象.分布式.解释型.可靠.安全.平台无关.可移植.高性能.多线程.动态性等.
Linux日常用的命令
查看一个文件夹是的挂载路径,比如查看opt文件夹挂载在哪:df /opt root@iZ2zedo02x7n4nuc3lb4ueZ:~# df /opt Filesystem 1K-blocks Us ...
liunx基本操作命令
1. rm 删除命令 rm -i 文件名-----------询问y/N 删除文件 rm -f 文件名-----------直接删除文件 rm -r 目录 rm 文件名 rm ...
Django：（04）状态保持和验证
一.Cookie 特点 Cookie是由服务器(网站)生成的,存储在浏览器端的键值对数据(通常经过加密) 在响应请求时,服务器会把生成 Cookie数据发给浏览器,浏览器会自动保存 (前提:浏 ...
【VS开发】OpenCV2:Mat属性type，depth，step
OpenCV2:Mat属性type,depth,step 在OpenCV2中Mat类无疑使占据着核心地位的,前段时间初学OpenCV2时对Mat类有了个初步的了解,见OpenCV2:Mat初学.这几天 ...
【图像处理】H.264有四种画质级别
H.264有四种画质级别,分别是BP.EP.MP.HP,想要说明H.264 HP与H.264 MP的区别就要讲到H.264的技术发展了 H.264 视频编码技术在视频采集.后期制作等网络视频服务领域的 ...
selenium实现京东商城首页查找元素
语言:Python 京东商城想要找到某个未加载出的元素,需要将页面加载出来. 使用js实现流程: 1. 需要引入包: # 引入需要的包 import time from selenium impor ...

SSE笔记

SSE笔记的更多相关文章

随机推荐

热门专题