视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440

接上一个例程OpenGL10-骨骼动画原理篇(2),对骨骼动画的基本原理做了介绍,接下来

要对之前做的工作做一个分析和优化,骨骼动画要做大量的数学计算,当一个模型的顶点

与骨骼的数量都很多的情况下,会消耗大量的cpu时间,接下来要做的事情就是对程序进行

优化,从上面的计算过程,可以得出,有两个地方的计算量比较大,首先是矩阵和顶点相乘

,其次是每一帧要插值新的骨骼出来,相对定点计算来讲,骨骼的插值计算量应该算是较小

的,一个人物模型少则1000个顶点,多则几千个顶点。因此我们优化就从定点的计算开始

  当然,我们有三种方案,甚至更多(我只用其中的两个)。

  一:使用CPU优化

  二:使用Shader(glsl)优化

  三:使用cuda或者OpenCL进行优化

  先来看第一种,说道cpu优化,大家可能想到两件事情,一是从算法角度出发去优化算法,

二是使用使用更好的CPU指令进行优化,没错,我们就是要这样做,矩阵相乘的算法优化的空

间可能已经不大,但是我们采用SIMD指令集和对浮点运算做优化空间还是很大的。

  SIMD:

    (Single Instruction Multiple Data,单指令多数据流)能够复制多个操作数,并把它们打包

在大型寄存器的一组指令集,例:3DNow!、SSE。以同步方式,在同一时间内执行同一条指令。以

浮点计算来说,基本上可以到达四倍的加速比。因此采用SIMD可以大幅度的提高性能。cup上使用SIMD

指令:

  

  1. __m128 sse_mul_ps(__m128 v, __m128 const m[])
  2. {
  3. __m128 i0 = m[];
  4. __m128 i1 = m[];
  5. __m128 i2 = m[];
  6. __m128 i3 = m[];
  7.  
  8. __m128 m0 = _mm_mul_ps(v, i0);
  9. __m128 m1 = _mm_mul_ps(v, i1);
  10. __m128 m2 = _mm_mul_ps(v, i2);
  11. __m128 m3 = _mm_mul_ps(v, i3);
  12.  
  13. __m128 u0 = _mm_unpacklo_ps(m0, m1);
  14. __m128 u1 = _mm_unpackhi_ps(m0, m1);
  15. __m128 a0 = _mm_add_ps(u0, u1);
  16.  
  17. __m128 u2 = _mm_unpacklo_ps(m2, m3);
  18. __m128 u3 = _mm_unpackhi_ps(m2, m3);
  19. __m128 a1 = _mm_add_ps(u2, u3);
  20.  
  21. __m128 f0 = _mm_movelh_ps(a0, a1);
  22. __m128 f1 = _mm_movehl_ps(a1, a0);
  23. __m128 f2 = _mm_add_ps(f0, f1);
  24.  
  25. return f2;
  26. }

  采用Shader优化,将矩阵与顶点的计算工作放到丁点Shader中完成,这样做以后,cpu机会完全

的解放出来,计算量可以忽略不计。然而这种方案也有些弊端,我们知道shader中,不能像cpu中编写

c++代码那种去动态的申请空间,所有的工作必须提前分配好。看下面的shader实现代码:

  1. //! 必须提前分配足够大的空间
  2. uniform mat4 boneMatrices[];
  3.  
  4. attribute vec4 weights;
  5. attribute vec4 matrixIndices;
  6. attribute vec4 numBones;
  7.  
  8. void main( void )
  9. {
  10. vec4 index = matrixIndices;
  11. vec4 weight = weights;
  12.  
  13. vec4 position = vec4( 0.0, 0.0, 0.0, 0.0 );
  14.  
  15. for( float i = 0.0; i < numBones.x; i += 1.0 )
  16. {
  17. position = position + weight.x * (boneMatrices[int(index.x)] * gl_Vertex);
  18. index = index.yzwx;
  19. weight = weight.yzwx;
  20. }
  21. gl_Position = gl_ModelViewProjectionMatrix * position;
  22. }

  这里不再针对shader做特别介绍,后面将补冲shader相关的例程

  将矩阵数据传递给shader

  1. //! 使用shader计算顶点的位置
  2. glUseProgramObjectARB( _programObj );
  3. glUniformMatrix4fvARB( _boneMatrices_0, , false, frame._bone[].data());
  4. glUniformMatrix4fvARB( _boneMatrices_1, , false, frame._bone[].data());

将每一个定点的权重,矩阵的索引,以及矩阵的个数给shader:

  1. //! 传递权重
  2. fWeights[] = g_quadVertices[i * + x].weights[];
  3. fWeights[] = g_quadVertices[i * + x].weights[];
  4. glVertexAttrib4fvARB(_weights, fWeights );
  5.  
  6. //! 传递索引
  7. fMatrixIndices[] = g_quadVertices[i * + x].matrixIndices[];
  8. fMatrixIndices[] = g_quadVertices[i * + x].matrixIndices[];
  9. glVertexAttrib4fvARB(_matrixIndices, fMatrixIndices );
  10.  
  11. //! 传递数量
  12. fNumBones[] = g_quadVertices[i * + x].numBones;
  13. glVertexAttrib4fvARB(_numBones, fNumBones );

  虽然有这样的缺点,但我们是可以避免的,采用的方式就是:根据动画的骨骼的数量,权重的数量去动态的

产生shader代码然后进行编译执行,这是一个解决方案,当然我们还有另外一个解决方式,就是首先预先分配

一些方案,例如当骨头数量小于32个的时候,我们调用一个shader,当在64一下的时候调用另外一个,在多一

点就调用128的 shader,....

  第三种方案,对你的显卡有很高的要求,必须支持OpenCL或者cuda,才可以去使用他,当然OpenCL或者

cuda可以直接的访问OpenGL的数据,效率上来说与shader相当(我还没有进行这样的实现),有兴趣的可以进行

尝试。

  CPU优化版本代码下载(稍后上传,敬请关注)

  Shader优化版本代码下载(稍后上传,敬请关注)

 

OpenGL10-骨骼动画原理篇(3)-Shader版本代码已经上传的更多相关文章

  1. Unity3D 骨骼动画原理学习笔记

    最近研究了一下游戏中模型的骨骼动画的原理,做一个学习笔记,便于大家共同学习探讨. ps:最近改bug改的要死要活,博客写的吭哧吭哧的~ 首先列出学习参考的前人的文章,本文较多的参考了其中的表述: 1. ...

  2. OpenGL10-骨骼动画原理篇(2)

    接上一篇的内容,上一篇,简单的介绍了,骨骼动画的原理,给出来一个 简单的例程,这一例程将给展示一个最初级的人物动画,具备多细节内容 以人走路为例子,当人走路的从一个站立开始,到迈出一步,这个过程是 一 ...

  3. OpenGL10-骨骼动画原理篇(1)

    视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440 本例程展示如何建立骨骼动画,有些人叫蒙皮动画 定义如下: 当前 ...

  4. 跟bWAPP学WEB安全(PHP代码)--终结篇:文件目录遍历、文件上传、SSRF、CSRF、XXE、文件包含

    前言 过年过的很不顺,家里领导和我本人接连生病,年前腊月29才都治好出院,大年初六家里的拉布拉多爱犬又因为细小医治无效离开了,没能过年回家,花了好多钱,狗狗还离世了.所以也就没什么心思更新博客.今天初 ...

  5. UEditor编辑器两个版本任意文件上传漏洞分析

    0x01 前言 UEditor是由百度WEB前端研发部开发的所见即所得的开源富文本编辑器,具有轻量.可定制.用户体验优秀等特点 ,被广大WEB应用程序所使用:本次爆出的高危漏洞属于.NET版本,其它的 ...

  6. [转]UEditor编辑器两个版本任意文件上传漏洞分析

    0x01 前言 UEditor是由百度WEB前端研发部开发的所见即所得的开源富文本编辑器,具有轻量.可定制.用户体验优秀等特点 ,被广大WEB应用程序所使用:本次爆出的高危漏洞属于.NET版本,其它的 ...

  7. [原创] linux 下上传 datapoint数据到yeelink 【golang版本】同时上传2个数据点

    /* Create by sndnvaps<sndnvaps@gmail.com> * data: 2015-04-12* upload 2 datapoint to yeelink.ne ...

  8. 分布式版本控制系统Git-----2.上传至远程仓库之基础版

    好,之前已经将文档下载下来了,但是我感觉还是将自己之前截的图放出来比较好,自己整理的,但是总不能放桌面上,时间久了也会忘得,索性放到博客上吧,也便于其他人查看,简直是百利而无一害啊.哈哈.来吧. 注意 ...

  9. JDFS:一款分布式文件管理实用程序第一篇(线程池、epoll、上传、下载)

    一 前言 截止目前,笔者在博客园上面已经发表了3篇关于网络下载的文章,这三篇博客实现了基于socket的http多线程远程断点下载实用程序.笔者打算在此基础上开发出一款分布式文件管理实用程序,截止目前 ...

随机推荐

  1. java Object解析

    java Object是所有对象的根父类,所有对象都直接或间接集成自该类. java 的Object类也比较简单,有equals(Object).toString().finalize() java方 ...

  2. 5款替代微软Visio的开源免费软件(转)

    5款替代微软Visio的开源免费软件 提到流程图和图表设计,自然会想到微软出品的Office Visio,它是一款强大的流程图设计工具.Visio并不在Office标准套装中,需要额外付费购买,这可能 ...

  3. java分层

    一.为什么要分层. 以前的我们,写代码的时候,都在main()方法中,出现了错误,就慢慢调试,这样浪费了我们很长的时间,而我们程序员的时间是非常宝贵的 但是当我们使用分层架构的时候,就可以清晰明确的知 ...

  4. springmvc 开涛 注解式控制器

    版本 定义处理器类 处理器映射适配器 备注 支持的注解 2.5前 controller       2.5 注解 DefaultAnnotationHandlerMapping AnnotationM ...

  5. EF添加Msysql实体异常:表“TableDetails”中列“IsPrimaryKey”的值为 DBNull。 ---> System.InvalidCastException: 指定的转换无效。

    尝试一下以下步骤: 1.关闭VS项目, 以管理员权限来打开: 1.执行语句 set global optimizer_switch='derived_merge=OFF'; set optimizer ...

  6. WPF 图片抗锯齿,尤其是小图片更为严重

    WPF 图片抗锯齿,尤其是小图片更为严重 UseLayoutRounding="True" 搞定,就是这么给力,分享给大家

  7. [Xamarin]我的Xamarin填坑之旅(一)

    一想到明天是星期五,不对,是今天,心里就很激动,毕竟明天没课.激动之余,来写一篇博客,记录一下最近踏坑Xamarin开发校园助手APP的一些事儿.也许更像是一篇流水账. 在扯Xamarin之前,有必要 ...

  8. Zimbra无需登录RCE漏洞利用

    2019年3月13号,一名国外的安全研究员在他的博客上公布了zimbra RCE漏洞相关信息,但其中并未提到一些漏洞利用细节. 经过一段时间努力,根据网上各位大牛的分析和我自己的理解,在此我将整个漏洞 ...

  9. Python(多线程threading模块)

    day27 参考:http://www.cnblogs.com/yuanchenqi/articles/5733873.html CPU像一本书,你不阅读的时候,你室友马上阅读,你准备阅读的时候,你室 ...

  10. FunDA(7)- Reactive Streams to fs2 Pull Streams

    Reactive-Stream不只是简单的push-model-stream, 它还带有“拖式”(pull-model)性质.这是因为在Iteratee模式里虽然理论上由Enumerator负责主动推 ...