SSE图像算法优化系列九：灵活运用SIMD指令16倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由480ms降低到30ms）。

　　这半年多时间，基本都在折腾一些基本的优化，有很多都是十几年前的技术了，从随大流的角度来考虑，研究这些东西在很多人看来是浪费时间了，即不能赚钱，也对工作能力提升无啥帮助。可我觉得人类所谓的幸福，可以分为物质档次的享受，还有更为复杂的精神上的富有，哪怕这种富有只是存在于短暂的自我满足中也是值得的。

闲话少说， SIMD指令集，这个古老的东西，从第一代开始算起，也快有近20年的历史了，从最开始的MMX技术，到SSE，以及后来的SSE2、SSE3、SSE4、AVX以及11年以后的AVX2，逐渐的成熟和丰富，不过目前考虑通用性方面，AVX的辐射范围还是有限，大部分在优化时还是考虑使用128位的SSE指令集，我在之前的一系列文章中，也有不少文章涉及到了这个方面的优化了。

今天我们来学习下Sobel算法的优化，首先，我们给出传统的C++实现的算法代码：

int IM_Sobel(unsigned char *Src, unsigned char *Dest, int Width, int Height, int Stride)

{

    int Channel = Stride / Width;

    if ((Src == NULL) || (Dest == NULL))            return IM_STATUS_NULLREFRENCE;

    if ((Width <= ) || (Height <= ))                return IM_STATUS_INVALIDPARAMETER;

    if ((Channel != ) && (Channel != ))            return IM_STATUS_INVALIDPARAMETER;

    unsigned char *RowCopy = (unsigned char *)malloc((Width + ) *  * Channel);

    if (RowCopy == NULL)    return IM_STATUS_OUTOFMEMORY;

    unsigned char *First = RowCopy;

    unsigned char *Second = RowCopy + (Width + ) * Channel;

    unsigned char *Third = RowCopy + (Width + ) *  * Channel;

    memcpy(Second, Src, Channel);

    memcpy(Second + Channel, Src, Width * Channel);                                                    //    拷贝数据到中间位置

    memcpy(Second + (Width + ) * Channel, Src + (Width - ) * Channel, Channel);

    memcpy(First, Second, (Width + ) * Channel);                                                    //    第一行和第二行一样

    memcpy(Third, Src + Stride, Channel);                                                    //    拷贝第二行数据

    memcpy(Third + Channel, Src + Stride, Width * Channel);

    memcpy(Third + (Width + ) * Channel, Src + Stride + (Width - ) * Channel, Channel);

    for (int Y = ; Y < Height; Y++)

    {

        unsigned char *LinePS = Src + Y * Stride;

        unsigned char *LinePD = Dest + Y * Stride;

        if (Y != )

        {

            unsigned char *Temp = First; First = Second; Second = Third; Third = Temp;

        }

        if (Y == Height - )

        {

            memcpy(Third, Second, (Width + ) * Channel);

        }

        else

        {

            memcpy(Third, Src + (Y + ) * Stride, Channel);

            memcpy(Third + Channel, Src + (Y + ) * Stride, Width * Channel);                            //    由于备份了前面一行的数据，这里即使Src和Dest相同也是没有问题的

            memcpy(Third + (Width + ) * Channel, Src + (Y + ) * Stride + (Width - ) * Channel, Channel);

        }

        if (Channel == )

        {

            for (int X = ; X < Width; X++)

            {

                int GX = First[X] - First[X + ] + (Second[X] - Second[X + ]) *  + Third[X] - Third[X + ];

                int GY = First[X] + First[X + ] + (First[X + ] - Third[X + ]) *  - Third[X] - Third[X + ];

                LinePD[X] = IM_ClampToByte(sqrtf(GX * GX + GY * GY + 0.0F));

            }

        }

        else

        {

            for (int X = ; X < Width * ; X++)

            {

                int GX = First[X] - First[X + ] + (Second[X] - Second[X + ]) *  + Third[X] - Third[X + ];

                int GY = First[X] + First[X + ] + (First[X + ] - Third[X + ]) *  - Third[X] - Third[X + ];

                LinePD[X] = IM_ClampToByte(sqrtf(GX * GX + GY * GY + 0.0F));

            }

        }

    }

    free(RowCopy);

    return IM_STATUS_OK;

}

　　代码很短，但是这段代码很经典，第一，这个代码支持In-Place操作，也就是Src和Dest可以是同一块内存，第二，这个代码本质就支持边缘。网络上很多参考代码都是只处理中间有效的区域。具体的实现细节我不愿意多述，自己看。

　　那么Sobel的核心就是计算X方向的梯度GX和Y方向的梯度GY，最后有一个耗时的操作是求GX*GX+GY*GY的平方。

上面这段代码，在不打开编译器的SSE优化和快速浮点计算的情况，直接使用FPU，对4000*3000的彩色图约需要480ms，当开启SSE后，大概时间为220ms ，因此系统编译器的SSE优化也很厉害，反编译后可以看到汇编里这样的部分：

59AD12F8  movd        xmm0,ecx

59AD12FC  cvtdq2ps    xmm0,xmm0

59AD12FF  sqrtss      xmm0,xmm0

59AD1303  cvttss2si   ecx,xmm0

　　可见他是调用的单浮点数的sqrt优化。

　由于该Sobel的过程最后是把数据用图像的方式记录下来，因此，IM_ClampToByte(sqrtf(GX * GX + GY * GY + 0.0F))可以用查表的方式来实现。简单改成如下的版本，避免了浮点计算。

int IM_SobelTable(unsigned char *Src, unsigned char *Dest, int Width, int Height, int Stride)

{

    int Channel = Stride / Width;

    if ((Src == NULL) || (Dest == NULL))            return IM_STATUS_NULLREFRENCE;

    if ((Width <= ) || (Height <= ))                return IM_STATUS_INVALIDPARAMETER;

    if ((Channel != ) && (Channel != ))            return IM_STATUS_INVALIDPARAMETER;

    unsigned char *RowCopy = (unsigned char *)malloc((Width + ) *  * Channel);

    if (RowCopy == NULL)    return IM_STATUS_OUTOFMEMORY;

    unsigned char *First = RowCopy;

    unsigned char *Second = RowCopy + (Width + ) * Channel;

    unsigned char *Third = RowCopy + (Width + ) *  * Channel;

    memcpy(Second, Src, Channel);

    memcpy(Second + Channel, Src, Width * Channel);                                                    //    拷贝数据到中间位置

    memcpy(Second + (Width + ) * Channel, Src + (Width - ) * Channel, Channel);

    memcpy(First, Second, (Width + ) * Channel);                                                    //    第一行和第二行一样

    memcpy(Third, Src + Stride, Channel);                                                    //    拷贝第二行数据

    memcpy(Third + Channel, Src + Stride, Width * Channel);

    memcpy(Third + (Width + ) * Channel, Src + Stride + (Width - ) * Channel, Channel);

    int BlockSize = , Block = (Width * Channel) / BlockSize;

    unsigned char Table[];

    for (int Y = ; Y < ; Y++)        Table[Y] = (sqrtf(Y + 0.0f) + 0.5f);

    for (int Y = ; Y < Height; Y++)

    {

        unsigned char *LinePS = Src + Y * Stride;

        unsigned char *LinePD = Dest + Y * Stride;

        if (Y != )

        {

            unsigned char *Temp = First; First = Second; Second = Third; Third = Temp;

        }

        if (Y == Height - )

        {

            memcpy(Third, Second, (Width + ) * Channel);

        }

        else

        {

            memcpy(Third, Src + (Y + ) * Stride, Channel);

            memcpy(Third + Channel, Src + (Y + ) * Stride, Width * Channel);                            //    由于备份了前面一行的数据，这里即使Src和Dest相同也是没有问题的

            memcpy(Third + (Width + ) * Channel, Src + (Y + ) * Stride + (Width - ) * Channel, Channel);

        }

        if (Channel == )

        {

            for (int X = ; X < Width; X++)

            {

                int GX = First[X] - First[X + ] + (Second[X] - Second[X + ]) *  + Third[X] - Third[X + ];

                int GY = First[X] + First[X + ] + (First[X + ] - Third[X + ]) *  - Third[X] - Third[X + ];

                LinePD[X] = Table[IM_Min(GX * GX + GY * GY, )];

            }

        }

        else

        {

            for (int X = ; X < Width * ; X++)

            {

                int GX = First[X] - First[X + ] + (Second[X] - Second[X + ]) *  + Third[X] - Third[X + ];

                int GY = First[X] + First[X + ] + (First[X + ] - Third[X + ]) *  - Third[X] - Third[X + ];

                LinePD[X] = Table[IM_Min(GX * GX + GY * GY, )];

            }

        }

    }

    free(RowCopy);

    return IM_STATUS_OK;

}

　　对4000*3000的彩色图约需要180ms，比系统的SSE优化快了40ms，而这个过程完全无浮点计算，因此，可以知道计算GX和GY的耗时在本例中也占据了相当大的部分。

　　这样的过程最适合于SSE处理了。

　　我们分析之。

　　第一来看一看这两句：

  int GX = First[X] - First[X + ] + (Second[X] - Second[X + ]) *  + Third[X] - Third[X + ];

  int GY = First[X] + First[X + ] + (First[X + ] - Third[X + ]) *  - Third[X] - Third[X + ];

里面涉及到了8个不同的像素，考虑计算的特性和数据的范围，在内部计算时这个int可以用short代替，也就是要把加载的字节图像数据转换为short类型先，这样SSE优化方式为用8个SSE变量分别记录8个连续的像素风量的颜色值，每个颜色值用16位数据表达。

　　这可以使用_mm_unpacklo_epi8配合_mm_loadl_epi64实现：

    __m128i FirstP0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(First + X)), Zero);

    __m128i FirstP1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(First + X + )), Zero);

    __m128i FirstP2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(First + X + )), Zero);

    __m128i SecondP0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(Second + X)), Zero);

    __m128i SecondP2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(Second + X + )), Zero);

    __m128i ThirdP0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(Third + X)), Zero);

    __m128i ThirdP1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(Third + X + )), Zero);

    __m128i ThirdP2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(Third + X + )), Zero);

　　接着就是搬积木了，用SSE的指令代替普通的C的函数指令实现GX和GY的计算。

    __m128i GX16 = _mm_abs_epi16(_mm_add_epi16(_mm_add_epi16(_mm_sub_epi16(FirstP0, FirstP2), _mm_slli_epi16(_mm_sub_epi16(SecondP0, SecondP2), )), _mm_sub_epi16(ThirdP0, ThirdP2)));

    __m128i GY16 = _mm_abs_epi16(_mm_sub_epi16(_mm_add_epi16(_mm_add_epi16(FirstP0, FirstP2), _mm_slli_epi16(_mm_sub_epi16(FirstP1, ThirdP1), )), _mm_add_epi16(ThirdP0, ThirdP2)));

　　找个时候的GX16和GY16里保存的是8个16位的中间结果，由于SSE只提供了浮点数的sqrt操作，我们必须将它们转换为浮点数，那么这个转换的第一步就必须是先将它们转换为int的整形数，这样，就必须一个拆成2个，即：

    __m128i GX32L = _mm_unpacklo_epi16(GX16, Zero);

    __m128i GX32H = _mm_unpackhi_epi16(GX16, Zero);

    __m128i GY32L = _mm_unpacklo_epi16(GY16, Zero);

    __m128i GY32H = _mm_unpackhi_epi16(GY16, Zero);

　　接着又是搬积木了：

    __m128i ResultL = _mm_cvtps_epi32(_mm_sqrt_ps(_mm_cvtepi32_ps(_mm_add_epi32(_mm_mullo_epi32(GX32L, GX32L), _mm_mullo_epi32(GY32L, GY32L)))));

    __m128i ResultH = _mm_cvtps_epi32(_mm_sqrt_ps(_mm_cvtepi32_ps(_mm_add_epi32(_mm_mullo_epi32(GX32H, GX32H), _mm_mullo_epi32(GY32H, GY32H)))));

　　整形转换为浮点数，最后计算完之后又要将浮点数转换为整形数。

　　最后一步，得到8个int型的结果，这个结果有要转换为字节类型的，并且这些数据有可能会超出字节所能表达的范围，所以就需要用到SSE自带的抗饱和向下打包函数了，如下所示：

_mm_storel_epi64((__m128i *)(LinePD + X), _mm_packus_epi16(_mm_packus_epi32(ResultL, ResultH), Zero));

　　Ok，一切搞定了，还有一些细节处理自己慢慢补充吧。

　　运行，哇，只要37ms了，速度快了N倍，可结果似乎和其他方式实现的不一样啊，怎么回事。

　　我也是找了半天都没有找到问题所在，后来一步一步的测试，最终问题定位在16位转换为32位整形那里去了。

　　通常，我们都是对像素的字节数据进行向上扩展，他们都是正数，所以用unpack之类的配合zero把高8位或高16位的数据填充为0就可以了，但是在本例中，GX16或者GY16很有可能是负数，而负数的最高位是符号位，如果都填充为0，则变为正数了，明显改变原始的数据了，所以得到了错误的结果。

　　那如何解决问题呢，对于本例，很简单，因为后面只有一个平方操作，因此，对GX先取绝对值是不会改变计算的结果的，这样就不会出现负的数据了，修改之后，果然结果正确。

　　还可以继续优化，我们来看最后的计算GX*GX+GY*GY的过程，我们知道，SSE3提供了一个_mm_madd_epi16指令，其作用为：

r0 := (a0 * b0) + (a1 * b1)

r1 := (a2 * b2) + (a3 * b3)

r2 := (a4 * b4) + (a5 * b5)

r3 := (a6 * b6) + (a7 * b7)

如果我们能把GX和GY的数据拼接成另外两个数据：

　　　　GXYL = GX0　　GY0　　GX1　　GY1　　GX2　　GY2　　GX3　　GY3

　　　　GXYH = GX4　　GY4　　GX5　　GY5　　GX6　　GY6　　GX7　　GY7

　　那么调用_mm_madd_epi16(GXYL ，GXYL )和_mm_madd_epi16(GXYH ，GXYH )不就是能得到和之前一样的结果了吗，而这个拼接SSE已经有现成的函数了即：

__m128i GXYL = _mm_unpacklo_epi16(GX16, GY16);

__m128i GXYH = _mm_unpackhi_epi16(GX16, GY16);

　　这样就把原来需要的10个指令变为了4个指令，代码简洁了并且速度也更快了。

　　尝试如此修改，整个的计算过程时间减少到了32ms左右。

　　另外，还有一个可以优化的地方就是借用 _mm_maddubs_epi16 函数实现像素之间的加减乘除和扩展。

　　这个函数的作用如下：

r0 := SATURATE_16((a0 * b0) + (a1 * b1))

r1 := SATURATE_16((a2 * b2) + (a3 * b3))

...

r7 := SATURATE_16((a14 * b14) + (a15 * b15))

　　他的第一个参数是16个无符号的字节数据，第二个参数是16个有符号的char数据。

　　配合unpack使用类似上面的技术就可以一次性处理16个字节的像素简加减了，这样做整个过程大概能再加速2ms，达到最终的30ms。

　　源代码地址：http://files.cnblogs.com/files/Imageshop/Sobel.rar （其中的SSE代码请按照本文的思路自行整理。）

　　http://files.cnblogs.com/files/Imageshop/SSE_Optimization_Demo.rar，这里是一个我全部用SSE优化的图像处理的Demo，有兴趣的朋友可以看看。

　　欢迎点赞和打赏。

SSE图像算法优化系列九：灵活运用SIMD指令16倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由480ms降低到30ms）。的更多相关文章

SSE再学习：灵活运用SIMD指令6倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由180ms降低到30ms）。
这半年多时间,基本都在折腾一些基本的优化,有很多都是十几年前的技术了,从随大流的角度来考虑,研究这些东西在很多人看来是浪费时间了,即不能赚钱,也对工作能力提升无啥帮助.可我觉得人类所谓的幸福,可以分为 ...
SSE图像算法优化系列二十五:二值图像的Euclidean distance map（EDM)特征图计算及其优化。
Euclidean distance map(EDM)这个概念可能听过的人也很少,其主要是用在二值图像中,作为一个很有效的中间处理手段存在.一般的处理都是将灰度图处理成二值图或者一个二值图处理成另外一 ...
SSE图像算法优化系列二十二：优化龚元浩博士的曲率滤波算法，达到约1000 MPixels/Sec的单次迭代速度
2015年龚博士的曲率滤波算法刚出来的时候,在图像处理界也曾引起不小的轰动,特别是其所说的算法的简洁性,以及算法的效果.执行效率等方面较其他算法均有一定的优势,我在该算法刚出来时也曾经有关注,不过 ...
SSE图像算法优化系列二十：一种快速简单而又有效的低照度图像恢复算法。
又有很久没有动笔了,主要是最近没研究什么东西,而且现在主流的趋势都是研究深度学习去了,但自己没这方面的需求,同时也就很少有动力再去看传统算法,今天一个人在家,还是抽空分享一个简单的算法吧. 前段日子在 ...
SSE图像算法优化系列十：简单的一个肤色检测算法的SSE优化。
在很多场合需要高效率的肤色检测代码,本人常用的一个C++版本的代码如下所示: void IM_GetRoughSkinRegion(unsigned char *Src, unsigned char ...
SSE图像算法优化系列十三：超高速BoxBlur算法的实现和优化（Opencv的速度的五倍）
在SSE图像算法优化系列五:超高速指数模糊算法的实现和优化(10000*10000在100ms左右实现) 一文中,我曾经说过优化后的ExpBlur比BoxBlur还要快,那个时候我比较的BoxBlur ...
SSE图像算法优化系列十五：YUV/XYZ和RGB空间相互转化的极速实现（此后老板不用再担心算法转到其他空间通道的耗时了）。
在颜色空间系列1: RGB和CIEXYZ颜色空间的转换及相关优化和颜色空间系列3: RGB和YUV颜色空间的转换及优化算法两篇文章中我们给出了两种不同的颜色空间的相互转换之间的快速算法的实现代码,但是 ...
SSE图像算法优化系列二十三: 基于value-and-criterion structure 系列滤波器（如Kuwahara，MLV，MCV滤波器）的优化。
基于value-and-criterion structure方式的实现的滤波器在原理上其实比较简单,感觉下面论文中得一段话已经描述的比较清晰了,直接贴英文吧,感觉翻译过来反而失去了原始的韵味了. T ...
SSE图像算法优化系列十四：局部均方差及局部平方差算法的优化。
关于局部均方差有着较为广泛的应用,在我博客的基于局部均方差相关信息的图像去噪及其在实时磨皮美容算法中的应用及使用局部标准差实现图像的局部对比度增强算法中都有谈及,即可以用于去噪也可以用来增强图像,但是 ...

随机推荐

python线程池ThreadPoolExecutor与进程池ProcessPoolExecutor
python中ThreadPoolExecutor(线程池)与ProcessPoolExecutor(进程池)都是concurrent.futures模块下的,主线程(或进程)中可以获取某一个线程(进 ...
webapp用户身份认证方案 JSON WEB TOKEN 实现
webapp用户身份认证方案 JSON WEB TOKEN 实现Deme示例,Java版本项目依赖于下面jar包: nimbus-jose-jwt-4.13.1.jar (一款开源的成熟的JSON ...
爬虫之xpath用法
导包用: from lxml import etree
DDoS攻击与防御（1）
分布式拒绝服务攻击的精髓是,利用分布式的客户端,向服务提供者发起大量看似合法的请求,消耗或长期占用大量资源,从而达到拒绝服务的目的.从不同的角度看,分布式拒绝服务攻击的方法有不同的分类标准.依据消耗目 ...
ZOJ 1610 Count the Colors 【线段树】
<题目链接> 题目大意: 在[0,8000]这个区间内,不断进行一些操作,将其中的一些区间染成特定颜色,如果区间重复的话,后面染的色块会覆盖前面染的色块,问最终[0,8000]这个区间内每 ...
numpy 用于图像处理
1. 转换为灰度图灰度图的数据可以看成是二维数组,元素取值为0 ~ 255,其中,0为黑色,255为白色.从0到255逐渐由暗色变为亮色. 灰度图转换(ITU-R 601-2亮度变换): L = R ...
浅谈solr
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http Get操 ...
Java常用的九种排序方法及代码实现
package com.algorithm.Demo; import java.util.ArrayList; import java.util.Arrays; import java.util.Li ...
聊聊微服务熔断降级Hystrix
在现在的微服务使用的过程中,经常会遇到依赖的服务不可用,那么如果依赖的服务不可用的话,会导致把自己的服务也会拖死,那么就产生了熔断,熔断顾名思义就是当服务处于不可用的时候采取半开关的状态,达到一定数量 ...
CISCO ACL配置(目前)
什么是ACL? 访问控制列表简称为ACL,访问控制列表使用包过滤技术,在路由器上读取第三层及第四层包头中的信息如源地址,目的地址,源端口,目的端口等,根据预先定义好的规则对包进行过滤,从而达到访问控制 ...

SSE图像算法优化系列九：灵活运用SIMD指令16倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由480ms降低到30ms）。

SSE图像算法优化系列九：灵活运用SIMD指令16倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由480ms降低到30ms）。的更多相关文章

随机推荐

热门专题