Tile based Rendering 二 tbr and tbdr 优化建议tiled based deferred rendering

http://www.seas.upenn.edu/~pcozzi/OpenGLInsights/OpenGLInsights-TileBasedArchitectures.pdf

tbr 和tbdr是gpu的一种架构硬件层面的事情和deferred shading是两回事

有关blend的开销

immediate模式要走相对较慢的 memory read-modify-write framebuffer

tile based模式就在on chip tile buffer上用专门的硬件做了基本没有开销而如果在shader里面写会占shader吞吐量

所以这段的建议就是如果做透明的话推荐用blend 而不在shader里做

而透明与不透明相比透明（无论哪种方式alpha blend, alpha test, alpha to coverage）总会导致对于透明物体后面的fragment来讲hidden surface removal 和earlyz 失效

==============

===================

tbr multisampling对带宽的影响情况是这样的

multisamp的瓶颈是带宽， 4x为例访问framebuffer的带宽变为之前的4倍（一个pixel 4个sample）

如果是tbt这部分都在tile buffer上做做完一次送到framebuffer （resolved 之后相当于一个pixel1个sample）

开销包含以下两部分

1.tile buffer上的大小需要4倍，厂商在开ms的情况下，减小tile size 为了省下buffer大小，这对性能有些许冲击，half size不会导致half performace

如果程序的瓶颈是shading吞吐量 tile buffer size减小只会对性能有很很轻微的影响（比几乎无影响高一点 minor impact也就是除非程序瓶颈就是在这里了

2 第二种类型的开销在immediate mode下也是同样存在的会增加大概10%的fragments（数量）的计算具体数量取决于场景

不只是cover center的 frag参与只要cover sample的 frags都会算在内

==============

介于profile 不那么准确好用了

建议开发初期确定复杂度预算 trigngles ，textures ，shader complexity等等，这个我有做

来避免 geometry 超过一个最高的量引发的切分性能会大幅下降

它最后说这段很诡异应该是举了个反例：你在draw 后面加glclear ，那个draw可能不会被提交引擎这边给优化掉了之类吧

要确保命令按预期执行应该是这意思

=========================================

总结 performance的核心是测试测试测试因为硬件 driver都是不同的

对于tb GPU

1. clear color , depth ,stencil在每帧开始的时候

2.For each framebuffer, bind it once during the frame, and submit all the commands for the frame before unbinding it or using the results.

这步是在避免framebuffer的bind

3.latency for gpu query

4.保证多边形数量在合理范围，避免那次跳崖式下跌

5.有了隐藏面消除不需要对opaquel从前向后排序（powerVR），不是tb的gpu需要这样做，考虑用z pre pass

6.多利用cheap的multisample

7.移动平台performance和电量消耗取平衡两者都要兼顾

=================

tbr 透明要不要cpu排序？？（要排， opaque不排是因为被剔掉了

对于这种情况是不是完全隐藏面消除就失效了一个不透明场景前面蒙上一层透明面片

我估计这是对一个tile来讲的场景不要大块很多透明透明后面不要太多东西省掉的是透明后面frag的计算

这段括号里的理解是不对的粒度肯定不是tile是pixel 分两个passtrans就不会使opaque的hsr失效后面有论证

===============

基本方法:1 减少状态切换

2 texture 压缩

3.减少drawcalls

4.降低shader复杂度

各种差异性导致优化需要持续profiling 并试验

所以我们不应该记一些方法而是要知道每种特性如何影响性能

（这两点深切赞同）

锁低帧可以延长电量

在达到目标帧率之后还可以持续优化以减少电量消耗

移动平台 performance and power consumption

带宽--移动数据费电

immediate mode下pixel需要 read depth/stencil write depth/stencil(opt) write color 这里消耗带宽

tbr可以省电把数据放在计算器旁边（on-chip）最后往framebuffer放一次

GPU的tbr就是为了省带宽进而省电

depth/stencil test和blend都是在tile上做

tbdr的gpu 会用专门的硬件单元收集到所有的vertex 的信息用相应的数据结构包含vertex position ,vertex output, triangle indices, fragment state等

这部分叫做frame data/polygon lists/parameter buffer

这部分是有开销的如果曲面细分导致vertex过多这部分开销就会抵消掉tbdr的优势

tbdr mode 在每一帧构造的是上文提到的frame data（所有vertex）信息而不是frame buffer 在性能调优的时候需要铭记这一点

drawcall越多这部分数据就越大

（看到一个黑科技using half the depth range on alternate frames to avoid clearing the depth buffer 这个应该是immediate 模式下为了避免清depth的一种方法分开用

避免写这两块buffer都到了这种程度说明开销很高了）

tbdr要clear 避免tile buffer copy回 framebuffer 和从framebuffer copy数据去tilebuffer

Tile based Rendering 二 tbr and tbdr 优化建议tiled based deferred rendering的更多相关文章

Tile based Rendering //后面一段是手机优化建议
https://www.imgtec.com/blog/a-look-at-the-powervr-graphics-architecture-tile-based-rendering/ 一种硬件结构 ...
移动GPU渲染原理的流派——IMR、TBR及TBDR
移动GPU渲染原理的流派--IMR.TBR及TBDR 移动GPU相对桌面级的GPU仅仅能算是未长大的小孩子,尽管小孩子在某些场合也能比成人更有优势(比方杂技.柔术之类的表演).但在力量上还是有先天的区 ...
Firemonkey 原生二维码扫描优化
之前用了ZXing的Delphi版本,运行自带的例子,速度非常慢,与安卓版本的相比查了很多,因此打算使用集成jar的方法,但是总觉得美中不足. 经过一番研究,基本上解决了问题. 主要有两方面的优化: ...
百度APP移动端网络深度优化实践分享(二)：网络连接优化篇
本文由百度技术团队“蔡锐”原创发表于“百度App技术”公众号,原题为<百度App网络深度优化系列<二>连接优化>,感谢原作者的无私分享. 一.前言在<百度APP移动端网 ...
（转载）Android项目实战（二十八）：使用Zxing实现二维码及优化实例
Android项目实战(二十八):使用Zxing实现二维码及优化实例作者:听着music睡字体:[增加减小] 类型:转载时间:2016-11-21我要评论这篇文章主要介绍了Android项目 ...
SQL Server性能调优--优化建议（二）
序言优化建议库表的合理设计对项目后期的响应时间和吞吐量起到至关重要的地位,它直接影响到了业务所需处理的sql语句的复杂程度,为提高数据库的性能,更多的把逻辑主外键.级联删除.减少check约束.给 ...
MySQL性能优化方法二：表结构优化
原文链接:http://isky000.com/database/mysql-perfornamce-tuning-schema 很多人都将数据库设计范式作为数据库表结构设计“圣经”,认为只要按照 ...
Tile-Based Deferred Rendering
目前所有的移动设备都使用的是 Tile-Based Deferred Rendering(TBDR) 的渲染架构.TBDR 的基本流程是这样的,当提交渲染命令的时候,GPU 不会立刻进行渲染,而是一帧 ...
unity优化建议
使用Profiler工具分析内存占用情况 System.ExecutableAndDlls:系统可执行程序和DLL,是只读的内存,用来执行所有的脚本和DLL引用.不同平台和不同硬件得到的值会不一样,可 ...

随机推荐

C#发送Post请求，带参数，不带参数，指定参数
1.不带参数发送Post请求 /// <summary> /// 指定Post地址使用Get 方式获取全部字符串 /// </summary> /// <param na ...
canvas 进入游戏点击时苹果手机为什么会闪
canvas 进入游戏点击时苹果手机为什么会闪 ?? 大神门谁有解决办法???
禁止网页右键和复制，ctrl+a都不行。取消页面默认事件【全】。
document.oncontextmenu=new Function("event.returnValue=false");document.onselectstart=new ...
OpenStack 认证服务 KeyStone连接和用户管理（五）
一) 创建环境变量链接keyston vim adminrc export OS_USERNAME=admin export OS_PASSWORD=redhat export OS_PROJECT_ ...
react native项目增加devtools工具
第一步:安装react devtools工具在当前项目中打开命令行,添加react devtools工具,因为运行的工具有九十几M,下载时需要时间,请耐心等待 yarn add react-devt ...
Codeforces 1082 C. Multi-Subject Competition-有点意思 (Educational Codeforces Round 55 (Rated for Div. 2))
C. Multi-Subject Competition time limit per test 2 seconds memory limit per test 256 megabytes input ...
Flask实战第51天：cms添加轮播图后端代码逻辑完成
首先,我们需要给轮播图设计一张表,因为轮播图前端要展示,CMS要管理,所以我们在apps下新建个models.py 编辑apps.models.py from exts import db from ...
JZYZOJ 1382 光棍组织状压dp
http://172.20.6.3/Problem_Show.asp?id=1382 水得过分了,本来以为要用lzx学长的写法写,抱着试试看的想法写了个特暴力的dp+dfs,过了,真是... ...
【图论】Popular Cows
[POJ2186]Popular Cows Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 34752 Accepted: ...
BZOJ 4802 欧拉函数（Pollard_Rho）
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=4802 [题目大意] 已知N,求phi(N),N<=10^18 [题解] 我们用P ...

Tile based Rendering 二 tbr and tbdr 优化建议tiled based deferred rendering

Tile based Rendering 二 tbr and tbdr 优化建议tiled based deferred rendering的更多相关文章

随机推荐

热门专题