SSE系列内置函数中的shuffle函数
SSE 系列内置函数中的 shuffle 函数
邮箱: quarrying@qq.com
博客: http://www.cnblogs.com/quarryman/
发布时间: 2017年04月18日
版权声明: 自由分享, 保持署名-非商业用途-非衍生, 知识共享3.0协议。
水平有限, 欢迎大家批评指正!
这份博文总结了 SSE 系列内置函数中与 shuffle 有关的宏和函数。分析验证了 _mm_shuffle_epi16
存在的可能性,并利用 _mm_shuffle_epi8
实现了该函数。
下面是 SSE 系列内置函数中与 shuffle 有关的 intrinsic 函数:
// Integer shuffle, SSE
extern __m64 _mm_shuffle_pi16(__m64 _A, int _Imm);
// SP FP shuffle, SSE
extern __m128 _mm_shuffle_ps(__m128 _A, __m128 _B, unsigned int _Imm);
// DP FP shuffle, SSE2
extern __m128d _mm_shuffle_pd(__m128d _A, __m128d _B, int _Imm);
// Integer shuffle, SSE2
extern __m128i _mm_shuffle_epi32(__m128i _A, int _Imm);
extern __m128i _mm_shufflehi_epi16(__m128i _A, int _Imm);
extern __m128i _mm_shufflelo_epi16(__m128i _A, int _Imm);
// Integer shuffle, SSSE3
extern __m128i _mm_shuffle_epi8 (__m128i a, __m128i b);
extern __m64 _mm_shuffle_pi8 (__m64 a, __m64 b);
1. _mm_shuffle_pd
和 _MM_SHUFFLE2
可以使用 _MM_SHUFFLE2
来构造 _mm_shuffle_pd
中的参数 _Imm
, _MM_SHUFFLE2
是 SSE2
中定义的一个宏, 定义如下
#define _MM_SHUFFLE2(x,y) (((x)<<1) | (y))
因为 __m128d
能容纳 2 个 DP FP
(双精度浮点数) , 所以 x,y
的取值集合为 {0, 1}
, _MM_SHUFFLE2(x,y)
的最大值为
(((1)<<1) | (1)) == 3 <= 2^32 - 1
显然可以用 int
来表示立即数 _Imm
.
2. _mm_shuffle_ps
和 _MM_SHUFFLE
可以使用 _MM_SHUFFLE
来构造 _mm_shuffle_ps
中的参数 _Imm
, _MM_SHUFFLE
是 SSE
中定义的一个宏, 定义如下
#define _MM_SHUFFLE(fp3, fp2, fp1, fp0) (((fp3) << 6) | ((fp2) << 4) | \
((fp1) << 2) | ((fp0)))
因为 __m128
能容纳 4 个 SP FP
(单精度浮点数) , 所以 fp3, fp2, fp1, fp0
的取值集合为 {0, 1, 2, 3}
, _MM_SHUFFLE(fp3, fp2, fp1, fp0)
的最大值为
(((3) << 6) | ((3) << 4) | ((3) << 2) | ((3))) == 255 == 2^8 - 1 <= 2^32 - 1
显然可以用 unsigned int
来表示立即数 _Imm
.
注意: 文档和代码注释中只说到使用 _MM_SHUFFLE
来构造 _mm_shuffle_ps
中的参数 _Imm
, 实际上除了 _mm_shuffle_ps
, 上面的 _mm_shuffle_pi16
, _mm_shuffle_epi32
, _mm_shufflehi_epi16
, _mm_shufflelo_epi16
, 都可以使用 _MM_SHUFFLE
来构造 _Imm
.
3. _mm_shuffle_epi16
和 _MM_SHUFFLE8
SSE
系列内置函数中并没有定义 _mm_shuffle_epi16
, 而是定义了 _mm_shufflehi_epi16
, _mm_shufflelo_epi16
.
我们不妨定义 __m128i _mm_shuffle_epi16(__m128i _A, int _Imm);
, 且定义 _MM_SHUFFLE8
来构造第二个参数 _Imm
, 定义如下
#define _MM_SHUFFLE8(fp7, fp6, fp5, fp4, fp3, fp2, fp1, fp0)\
(((fp7) << 21) | ((fp6) << 18) | ((fp5) << 15) | ((fp4) << 12)) |\
(((fp3) << 9) | ((fp2) << 6) | ((fp1) << 3) | ((fp0)))
因为 __m128i
能容纳 8 个 16 位整型数据, 所以fp7, fp6, fp5, fp4, fp3, fp2, fp1, fp0
的取值集合为 {0, 1, 2, 3, 4, 5, 6, 7}
, 则 _MM_SHUFFLE8(fp7, fp6, fp5, fp4, fp3, fp2, fp1, fp0)
的最大值为
(((7) << 21) | ((7) << 18) | ((7) << 15) | ((7) << 12)) |
(((7) << 9) | ((7) << 6) | ((7) << 3) | ((7))) == 16777215 == 2^24 - 1 <= 2^32 - 1
所以上面定义的 _mm_shuffle_epi16
理论上是可行的, 然而 SSE 系列内置函数中却没有这个函数, 我的猜测是:
_mm_shufflehi_epi16
, _mm_shufflelo_epi16
可以使用 _MM_SHUFFLE
构造立即数 _Imm
, 而要实现 _mm_shuffle_epi16
, 还要配套实现 _MM_SHUFFLE8
, 开发人员容易弄混各种 shuffle
相关的宏和函数.实际上, 可以利用 _mm_shufflehi_epi16
和 _mm_shufflelo_epi16
来实现 _mm_shuffle_epi16
( 可能比较麻烦), 也可以利用 SSSE3 中的 _mm_shuffle_epi8
来实现 _mm_shuffle_epi16
.
3.1 代码一, 利用 _mm_shuffle_epi8
实现 _mm_shuffle_epi16
/*
博客: http://www.cnblogs.com/quarryman/
发布时间: 2017年04月18日
版权声明: 自由分享, 保持署名-非商业用途-非衍生, 知识共享3.0协议。
如有错误和建议, 欢迎发邮件或留言!
*/
#include <stdio.h>
#include <emmintrin.h>
#include <tmmintrin.h>
#define _MM_SHUFFLE8(fp7, fp6, fp5, fp4, fp3, fp2, fp1, fp0)\
(((fp7) << 21) | ((fp6) << 18) | ((fp5) << 15) | ((fp4) << 12)) | \
(((fp3) << 9) | ((fp2) << 6) | ((fp1) << 3) | ((fp0)))
__m128i _mm_shuffle_epi16(__m128i _A, int _Imm)
{
_Imm &= 0xffffff;
char m01 = (_Imm >> 0) & 0x7, m03 = (_Imm >> 3) & 0x7;
char m05 = (_Imm >> 6) & 0x7, m07 = (_Imm >> 9) & 0x7;
char m09 = (_Imm >> 12) & 0x7, m11 = (_Imm >> 15) & 0x7;
char m13 = (_Imm >> 18) & 0x7, m15 = (_Imm >> 21) & 0x7;
m01 <<= 1; m03 <<= 1; m05 <<= 1; m07 <<= 1;
m09 <<= 1; m11 <<= 1; m13 <<= 1; m15 <<= 1;
char m00 = m01 + 1, m02 = m03 + 1, m04 = m05 + 1, m06 = m07 + 1;
char m08 = m09 + 1, m10 = m11 + 1, m12 = m13 + 1, m14 = m15 + 1;
//__m128i vMask = _mm_set_epi8(m00, m01, m02, m03, m04, m05, m06, m07,
// m08, m09, m10, m11, m12, m13, m14, m15);
__m128i vMask = _mm_set_epi8(m14, m15, m12, m13, m10, m11, m08, m09,
m06, m07, m04, m05, m02, m03, m00, m01);
return _mm_shuffle_epi8(_A, vMask);
}
void icvPrintM128i_16s(const __m128i& v)
{
printf("(%d, %d, %d, %d, %d, %d, %d, %d)",
v.m128i_i16[0], v.m128i_i16[1], v.m128i_i16[2], v.m128i_i16[3],
v.m128i_i16[4], v.m128i_i16[5], v.m128i_i16[6], v.m128i_i16[7]);
}
int main()
{
__m128i val = _mm_setr_epi16(0, 1, 2, 3, 4, 5, 6, 7);
icvPrintM128i_16s(val);
val = _mm_shuffle_epi16(val, _MM_SHUFFLE8(1, 2, 3, 5, 4, 7, 6, 0));
icvPrintM128i_16s(val);
getchar();
return 0;
}
4. _mm_shuffle_epi8
注意到 _mm_shuffle_epi8
的第二个参数使用的是 __m128i
, 而不是 int
或 unsigned int
. 可以同理得到第二个参数理论上的最大值:
(((15) << 60) | ((15) << 56) | ((15) << 52) | ((15) << 48)) |
(((15) << 44) | ((15) << 40) | ((15) << 36) | ((15) << 32)) |
(((15) << 28) | ((15) << 24) | ((15) << 20) | ((15) << 16)) |
(((15) << 12) | ((15) << 8) | ((15) << 4) | ((15))) == 2**64 - 1
所以不能用 32 位整型表示, 却能用 128 位的 __m128i
表示.
SSE系列内置函数中的shuffle函数的更多相关文章
- SSE 系列内置函数中的 shuffle 函数
SSE 系列内置函数中的 shuffle 函数 邮箱: quarrying@qq.com 博客: http://www.cnblogs.com/quarryman/ 发布时间: 2017年04月18日 ...
- 手机QQ内置网页,微信内置网页中进行分享到QQ和微信的操作
微信内的网页分享: API内容详见微信开发文档 https://mp.weixin.qq.com/wiki 这里需要注意的是:调用微信API的时候修改的是微信内网页右上角三个点那里打开后,选择分享之 ...
- 微信内置浏览器中,点击下拉框出现页面乱跳转现象(iphone)
微信内置浏览器中,点击下拉框出现页面乱跳转现象(iphone) 前言: 这是小菜博客的第三篇文章.一直认为自己可以表达的东西太过简单,难以上台面,总是吝啬地不肯写.就算是写,也不知道从何开始.在同事的 ...
- Android 操作手机内置存储卡中的文件
场景:需要读取指定文件的内容,此文件是手动存储到手机内置存储卡中的,且手机上不存在SD卡. 对于android通过activity提供的openFileOutput和openFileInput可以直接 ...
- 转:jsp内置对象中page与pageContext与el内置对象pageScope与pageContext区别
原文地址:jsp内置对象中page与pageContext与el内置对象pageScope与pageContext区别 首先说明一下jsp9大内置对象 (1)HttpSession类的session对 ...
- 微信内置浏览器中的cookie很诡异呀
微信内置浏览器中的cookie很诡异呀 这是设置和删除COOKIE的代码 function set_cookie($var ,$value = '' ,$expire = 0){ $path = '/ ...
- js循环函数中的匿名函数和闭包问题(匿名函数要用循环中变量的问题)
js循环函数中的匿名函数和闭包问题(匿名函数要用循环中变量的问题) 一.总结 需要好好看下面代码 本质是因为匿名函数用到了循环中的变量,而普通方式访问的话,匿名函数的访问在循环之后,所以得到的i是循环 ...
- MySQL内置功能之事务、函数和流程控制
主要内容: 一.事务 二.函数 三.流程控制 1️⃣ 事务 一.何谓事务? 事务用于将某些操作的多个SQL作为原子性操作,一旦有某一个出现错误,即可回滚到原来的状态,从而保证数据库数据完整性. # ...
- Mysql内置功能《五》 函数
一 函数 MySQL中提供了许多内置函数,例如: 一.数学函数 ROUND(x,y) 返回参数x的四舍五入的有y位小数的值 RAND() 返回0到1内的随机值,可以通过提供一个参数(种子)使RAND( ...
随机推荐
- 使用nodejs + wecharty打造你的个人微信机器人
开源地址:https://github.com/isnl/wechat-robot 注: 从2017年6月下旬开始,使用基于web版微信接入方案存在大概率的被限制登陆的可能性. 主要表现为:无法登陆W ...
- L3.二.return
# 函数的返回值 def get_max(a,b,c): max_num=a if b > max_num: max_num = b if c > max_num: max_num = c ...
- Docker容器利用weave实现跨主机互联
Docker容器利用weave实现跨主机互联 环境: 实现目的:实现主机A中容器1与主机B中容器1的网络互联 主机A步骤: ①下载复制weave二进制执行文件(需要internet)[root@192 ...
- C++编程入门题目--No.5
题目: 输入三个整数x,y,z,请把这三个数由小到大输出. 程序分析: 我们想办法把最小的数放到x上,先将x与y进行比较,如果x>y则将x与y的值进行交换, 然后再用x与z进行比较,如果x> ...
- XML--XML作用
XML 把数据从 HTML 分离 如果你需要在 HTML 文档中显示动态数据,那么每当数据改变时将花费大量的时间来编辑 HTML. 通过 XML,数据能够存储在独立的 XML 文件中.这样你就可以专注 ...
- POJ 1905 Expanding Rods(二分)
Expanding Rods Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 20224 Accepted: 5412 Descr ...
- Arduino编程基础1.1
Arduino编程语言是建立在C/C++语言基础上的,即以C/C++语言为基础,把AVR单片机(微控制器)相关的一些寄存器参数设置等进行函数化,以利于开发者更加快速地使用.其主要使用的函数包括数字I/ ...
- weak_ptr
#include <iostream> #include <memory> using namespace std; int main(int argc, char **arg ...
- 线段树 扫描线 L - Atlantis HDU - 1542 M - City Horizon POJ - 3277 N - Paint the Wall HDU - 1543
学习博客推荐——线段树+扫描线(有关扫描线的理解) 我觉得要注意的几点 1 我的模板线段树的叶子节点存的都是 x[L]~x[L+1] 2 如果没有必要这个lazy 标志是可以不下传的 也就省了一个pu ...
- I - Coins dp
http://acm.hdu.edu.cn/showproblem.php?pid=2844 这个题目是一个多重背包转化成01背包 题意: Whuacmers拥有bi个面值为ai的硬币,现在他要用这些 ...