https://www.imgtec.com/blog/a-look-at-the-powervr-graphics-architecture-tile-based-rendering/

一种硬件结构

color target 分成tile

减小带宽

提前(fs)用depth做隐藏面消除 earlyz一个意思

减小cache missing 一行短了。。

所以early失效的都不可以 fs 改depth那些操作

比如fs里面discard (mask or alpha test) alpha to coverage

会不走onchip depth而访存拿depth

要clear 不然就少一次往tilebuffer上存上帧内容的操作

========================================

http://aras-p.info/texts/files/FastMobileShaders_siggraph2011.pdf

这段优化策略是2011年的 很多东西变了 比如ETC2 比如

tiled deferred       PowerVR

Tiled                    Mali, Andreno

Immediate           Tegra

1) TBDR: Render everything in tiles, shade only visible pixels

2) Tiled: Render everything in tiles

3) Classic: Render everything

因为分tile  sample的时候cache missing会比一张大的frame buffer下降

这样mipmap就没那么那么(对性能的影响) 要紧了  但也是好的 (对表现的影响 走样)

贴图资源分平台压缩

PVRTC for PowerVR; DXT for Tegra; ATC for Adreno

ETC2 for Android ogles3.0

TBDR:ipad2

msaa cheaper than immediate

2-4ms 4xmsaa

aniso 3ms

aniso=2

关了mipmap ipad2 2-3ms下降

tegra 跪了

TBDR不存在每个draw call的gpu时间了,这样拿不到GPU时间 不利于做优化

Andero和Tegra还有

一帧的VB太大会被切  导致效率下降(一次处理不了分两次) 1000 thound vertex ipd2

=====================================

减小overdraw  of alpha blend

PerfHUD profiler ES

============================

优化示例 tegra

天空盒后画

opaque 从前往后(不太现实 需要polygon粒度的排序排序)

近的大的物体按这个方式排序 远的按照material分 合并批次减少renderstate切换

(太有才了,我之前只考虑到这两点是矛盾的 没有想到可以分远近使用这两种策略)

主角先画  敌人在场景之后画(被遮挡)

因为reject occlude geo在tegra2上cost1ms*(vs)  我们可以设置trigger zone 这里关掉skybox 这样vs也去了

排序opaque带来 15ms提升

------

shader优化

shader指标  cycles/pixel 有静态分析工具 见别的帖子

light in lookup texture--LUT

by  tex2d(N.L,N.H) (我之前用过一张beckmann的)

----------

texture 压缩 硬件支持的格式 直接sample了

工具

IOS+PowerVR

unity profiler

Apple Instruments

PowerVR 他家有一套工具 见官网PVRUniSCo shader analyzer 可以看cycle

Android +Tegra

nv PerfHUD ES

每个drawcall的gpu时间

shader cycle

2x2 texture, null view rectangle 这两个排除很好用

虽然作者很喜欢这个,感觉这个东西需要开发工具箱那种实体设备 不太方便的样子

Mali

Andreno 都有他们家自己的工具

抓帧

shader 分析,live editing(这个功能我很喜欢)

我用Snapdragon比较多

最近renderdoc 也出了android版本 还算好用

============================================

shader优化 浮点数精度

float/half/fixed 对应highp/mediump/lowp

不要相信直觉

lowp  8bit  -2.0--+2.0

存颜色 归一化的vector 不要缩放拆解 lowp

mediump 16bit  uv, 2d vector 不需要高精度的量

highp  24-32bit 看平台

世界坐标,标量,大贴图UV 对精度要求比较高的offset之类

这个精度的事情分平台 有的显卡对精度比较敏感  总之 看操作手册

===============================

Likewise, do not pack 2 UVs into one float4/vec4 varying for PowerVR

float4 uv -----uv.xy ux.zw, povwerVR里面不要这样用

变量和插值

变量开销分平台 看手册

andreno对shader comple没那么敏感

==============

下面一个例子是ios优化

glFInish wait 这个可以看gpu时间 profiler 看cpu wait了多久

后处理 bloom和热扭曲 花了10ms+

浮点数精度 合并热扭曲和bloom 减少一次blit

优化了10ms (这个我也会 我减了两次blit在ppv2 也是10ms+)

它有个到处都用的fire wall shader

判断ALU bound 还是Texture bound

ALU bound

浮点数精度 逐顶点计算 lookup light tex

用工具分析shader PVRUniSCo

减小顶点数量 导致scene split了 3ms(Apple’s Instruments show this)

粒子优化 减小overdraw 简化shader

省出来的budget给了msaa和aniso

======================

tbdr

• Hidden Surface Removal

– For opaque only

– Don’t keep alpha-test enabled all the time(少用,用的时候才开)

– Don’t keep “discard” keyword in shader source, even if it’s not used(没用的discard去掉)

• Group opaque drawcalls together

• Sort on state, not distance

============================

枭龙优化建议

Qualcomm Snapdragon Rendering Tips

• Traditional handling of overdraw (via depth test)

– Cull as much as you can on CPU, to avoid both CPU and GPU cost

– Sort on distance (front to back) to maximize early z-rejection

• The Adreno SIMD is wide

– Check your ALU utilization in the Adreno Profiler and optimize

– Minimize temp register usage

– Use long shaders with a lot of ALU instructions

– Avoid dependent texture fetches (or cover the latency with a lot of ALUs)

==================

FBO和tile 切换很费需要frame buffer存到 memory

Expensive to switch Frame Buffer Object on Tile-based GPUs

– Saves the current FBO to RAM

– Reloads the new FBO from RAM

带宽高

Framebuffer Resolve/Restore

• Clear ALL FBO attachments after new frame/rendertarget

– Clear after eglSwapBuffers / glBindFramebuffer

– Avoids reloading FBO from RAM

– NOTE: Do NOT do unnecessary clears on non-tile-based GPUs (e.g. NVIDIA)

• Discard unused attachments before new frame/rendertarget

– Discard before eglSwapBuffers / glBindFramebuffer

– Avoids saving unused FBO attachments to RAM

– glDiscardFramebufferEXT / glInvalidateFramebuffer

这些都是为了防止 从memory读写framebuffer

=============================================================

https://de45xmedrsdbp.cloudfront.net/Resources/files/GDC2014_Next_Generation_Mobile_Rendering-2033767592.pdf

Tile based Rendering //后面一段是手机优化建议的更多相关文章

  1. Tile based Rendering 二 tbr and tbdr 优化建议tiled based deferred rendering

    http://www.seas.upenn.edu/~pcozzi/OpenGLInsights/OpenGLInsights-TileBasedArchitectures.pdf tbr 和tbdr ...

  2. OpenGL Insights 阅读有感 - Tile Based架构下的性能调校 翻译

    Performance Tunning for Tile-Based Architecture Tile-Based架构下的性能调校 by Bruce Merry GameKnife译 译序 在大概1 ...

  3. 【OpenCV】【计算机图形学】DIBR: Depth Image Based Rendering/ 3D image warping 中的实现细节

    最近在学习DIBR并尝试实现.感觉网上相关资料比较少,大多还是爬虫,决定自己写一个. DIBR就是depth image based rendering问题.输入一个视角下的图像和深度图,要求你输出另 ...

  4. 华为Mate8手机优化技巧

    我的华为Mate8手机手机存储(手机内存)32G, 运行内存3G,2016年买的手机,两样数值都偏小,导致使用手机的时候经常卡顿,一天来回清理垃圾.清理内存很多次,要运行微信.QQ等占用运行内存较多的 ...

  5. Physically Based Rendering

    Microfacet Models for Refraction through Rough Surfaces 这篇论文...名字被我忘记了 找了好久...之前存电脑里的 ggx beckmann 找 ...

  6. PBR:基于物理的渲染(Physically Based Rendering)+理论相关

    一: 关于能量守恒 出射光线的能量永远不能超过入射光线的能量(发光面除外).如图示我们可以看到,随着粗糙度的上升镜面反射区域的会增加,但是镜面反射的亮度却会下降.如果不管反射轮廓的大小而让每个像素的镜 ...

  7. 安卓手机优化 ROOT自启动管理 + 电量管理

    一.KingRoot + 净化大师 KingRoot 主要完成ROOT 和 自启动软件的管理 这里禁止的自启动管理 对于有些软件是不太管用 比如美团 手机百度等 净化大师 主要完成 高电量的软件优化 ...

  8. 回滚线段树+bitset优化01背包——cf981E

    /*首先考虑如何计算一个点的可能凑出的值,这就是一个01可行性背包问题那么再拓展到一段区间[1..n]的点上,每个query都可以看做是一段区间上的点[l,r]加上一个体积为x的物品,转换到01背包上 ...

  9. 一段sql的优化

    优化前代码 select * ,ROW_NUMBER() OVER(order by WrongCount desc) as rowId from(select Quba_IDint,Quba_Num ...

随机推荐

  1. [PAT] 1144 The Missing Number(20 分)

    1144 The Missing Number(20 分) Given N integers, you are supposed to find the smallest positive integ ...

  2. http-server:一个简单的零配置命令行的http服务器

    首先简介一下http-server: http-server是一个简单的零配置命令行http服务器,他对于生产使用来说足够强大,他是简单和可删节足以用于测试,足够简单易用,而且可用于本地开发 1.首先 ...

  3. 微信openid和UnionID (多公众号如何判断是否是同一人)

    以下内容源于网络,因为非博客园信息,有想收藏,只能直接复制粘贴了,还希望原稿人员理解. 微信公众平台更新,为开发者提供UnionID机制 经开发者反馈,由于同一公司下多个公众号之间需要用户帐号互通,微 ...

  4. SecureCrt的操持连接办法

    保持连接: options -> global options -> General -> Default Session,点击Edit default settings按钮,在Te ...

  5. electron调用C#应用程序实现串口通信

    最近转入零售行业开发了一系列产品,包含便利店收银软件.会员系统.供应链系统.为了追赶潮流,收银软件使用了electron平台开发,界面效果.开发效率确实不错:但是涉及到串口通讯时遇到了麻烦,elect ...

  6. PTA L2-002 链表去重 团体程序设计天梯赛-练习集

    L2-002 链表去重(25 分)   给定一个带整数键值的链表 L,你需要把其中绝对值重复的键值结点删掉.即对每个键值 K,只有第一个绝对值等于 K 的结点被保留.同时,所有被删除的结点须被保存在另 ...

  7. 如何在eclipse 中安装 spring IDE

    1.先 确定 当前的eclipse 的版本:(步骤如下) 2.下载spring ide(请确定好ecplice 的版本号) http://spring.io/tools/sts/all 最后:  安装 ...

  8. 洛谷P1392 取数 [堆]

    题目传送门 取数 题目描述 在一个n行m列的数阵中,你须在每一行取一个数(共n个数),并将它们相加得到一个和.对于给定的数阵,请你输出和前k小的取数方法. 输入输出格式 输入格式: 第一行,三个数n, ...

  9. 腾讯QQ的聊天记录中的图片记录造假

    前不久和朋友在群里聊天时,突然出现了一个BUG,就是一个群友发了A图片,但在我这边显示得却是B图片.当时就猜测,腾讯为了节省流量或者手机资源的原因,给每一张图片弄了个唯一ID,遇到相同ID的就直接从本 ...

  10. 【BZOJ 2803】【POI 2012】Prefixuffix

    http://www.lydsy.com/JudgeOnline/problem.php?id=2803 核心思想是利用单调性. 因为长度为L的前缀和后缀循环同构是AB和BA的形式,我们设\(f(i) ...