0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

搭载 PowerVR GPU IP 芯片的新功能介绍

Dbwd_Imgtec ? 来源:Imagination Tech ? 作者:Imagination Tech ? 2022-10-17 14:57 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日前,游戏和VR应用性能优化平台 UWA 宣布新的 GPU Counter 功能更新:增加了对 PowerVR 品牌 GPU 芯片的支持。针对 PowerVR GPUCounter,UWA提供了 GPU 负载、GPU 着色、GPU 带宽、GPU 图元 4 个模块的分析。 最新的 UWA SDK 2.4.4 已发布,下载最新版 SDK,并使用搭载 PowerVR GPU IP 芯片的设备进行测试,即可在GOT Online Overview的GPU模块下查看到对应的数据,掌握GPU压力和性能消耗情况。

以下针对PowerVR GPU Counter,围绕UWA所提供的GPU 负载、GPU着色、GPU带宽、GPU图元4个模块的分析进行详细说明。

1、GPU负载

GPU Counter下的GPU负载包含Non Fragment Utilization和Fragment Utilization两个性能指标,分别代表非片段处理占整体GPU处理耗时百分比和片段处理开销占整体GPU处理开销百分比。

91e6c744-4dc6-11ed-a3b6-dac502259ad0.png

在GPU上运行的工作负载由作业管理器统一协调,该任务管理器负责将工作负载调度到GPU内部的各个处理单元上,它将两个FIFO工作队列,称为作业插槽。其中,一个插槽用于非片段工作负载,另一个插槽则用于片段着色工作负载。 当出现GPU瓶颈时,正常情况下Non Fragment Utilization和Fragment Utilization至少有一个是接近100%,如果两者都低于100%,则有可能是Non Fragment和Fragment之间存在数据依赖关系。

当Non Fragment Utilization过高时,开发者可以从顶点数、复杂的Compute Shader的使用情况以及Geometry Shader、Tessellation Shader等角度着手进行优化。当Fragment Utilization过高时,则可以考虑项目中是否存在是否存在片段数目过多、片段Shader过于复杂。

2、GPU着色

包含Overdraw和Cycles/Pixel两个指标。

921a7ec2-4dc6-11ed-a3b6-dac502259ad0.png

Overdraw(过度绘制)

该项表示项目运行过程中,单帧中整个屏幕被填充的倍数。倍数越高,则GPU的压力越大。在游戏运行过程中,场景中半透明物体的重合会使得同一个像素点在一帧中会被绘制多次,造成Overdraw过高的情况。如下图所示,UI和粒子特效层叠导致容易出现Overdraw。 92493866-4dc6-11ed-a3b6-dac502259ad0.png

Cycles/Pixel

表示平均每个像素耗费的GPU时钟周期。一般来说,Shader复杂度会极大地影响GPUCycles占用的情况。当画面的Shader复杂度过高时,GPU需要消耗大量的时钟周期对Shader进行运算,容易造成GPU耗时变高,造成卡顿。

因此,通过查看GPU着色模块,就可以快速定位高Overdraw和高Cycles的场景,判断这个场景的GPU压力较高是Overdraw还是Shader复杂度过高造成的,进行有针对性的优化。

3、GPU带宽

CPU一样,GPU带宽也是芯片耗电的重要指标。当GPU持续进行高负载外部读写时,掉电就会过快。

UWA的GPU带宽模块统计了测试过程中单帧的读写带宽总量,通过查看GPU带宽模块,可以快速定位测试过程中带宽较高的场景和原因,并进行进一步测试优化。 93496c0e-4dc6-11ed-a3b6-dac502259ad0.png

4、GPU图元处理 渲染面是产生GPU压力的重要因素之一,我们可以通过 Overview 模式里的 Triangle 指标来查看和分析哪些画面的渲染面较多。

9361d974-4dc6-11ed-a3b6-dac502259ad0.png

渲染面过多,一方面可能是模型过于复杂,一般可以通过 LOD、HLOD 等常用技术来简化远距离的模型,在不影响画质的情况下显著降低渲染面;另一方面,可能是地形、大建筑物等大面积模型没有进行适当的拆分,导致进入视域体的面片可能不多,但提交GPU的渲染面依然很多。 对于第二种情况,我们可以通过新功能“GPU图元”来进行初步的判断。

939e87fc-4dc6-11ed-a3b6-dac502259ad0.png

总图元数:提交到GPU端的图元总数,该数值基本等同于引擎端统计的渲染面片总数。 可见图元数:在GPU端通过各种裁剪之后,留下的参与渲染的三角面。 可见图元不包括:因为在视域体外而被裁剪的三角面,因为朝向而被裁剪的三角面。因此,在3D场景中,比较理想的情况下,可见图元的数量应该接近或高于 50%(对于大部分模型,有一半三角面会因为朝向被裁剪)。如果某些角度下,可见图元的比例非常低,则很可能存在上文提到的第二种情况,从而可以针对性地检查和优化场景中,这个角度下,被提交到GPU的大面积模型。

93baad4c-4dc6-11ed-a3b6-dac502259ad0.png

GPU图元处理数量过多会对设备的带宽和能耗造成较大的影响,应尽量在程序端完成剔除,并减小送往GPU的图元数。

需要注意的是,基于架构不同,同一参数在不同品牌芯片上的推荐值也会存在差异,不同设备间横向对比的意义不大,更推荐大家在相同的设备上进行纵向对比。同时,由于同品牌芯片的架构之间也会存在差异,UWA目前仅支持部分芯片的GPU Counter数据采集,具体支持设备列表可通过下图或登录UWA官网对“Mali/Power VR/Adreno GPUCounter支持设备”列表进行查询:

93e76d64-4dc6-11ed-a3b6-dac502259ad0.png ? 以上就是这次关于搭载 PowerVR GPU IP 芯片的新功能介绍了,希望会对开发者们在 GPU 优化上和项目的整体性能监控上有所帮助。  

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    460

    文章

    52624

    浏览量

    442790
  • 模块
    +关注

    关注

    7

    文章

    2790

    浏览量

    50723
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131724
  • SDK
    SDK
    +关注

    关注

    3

    文章

    1079

    浏览量

    49435

原文标题:UWA平台支持PowerVR芯片,新增四大GPU模块分析

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【VisionFive 2单板计算机试用体验】1、开箱初体验(刷系统+静态IP设置+GPU跑分测评)

    文件:注意:balenaEtcher这个软件表面上可以选择bz2文件,但是在软件内解压的话会卡在73%的进度。所以,bz2文件要先解压,再用balenaEtcher烧录镜像到TF卡。 开机设置静态IP
    发表于 07-09 21:50

    MT6765_MTK6765安卓核心板_Helio P35处理器简介/芯片功能资料

    MT6765是一款兼具高效能与多功能的智能芯片,采用主频高达2.3GHz的八核ARM Cortex-A53处理器,结合台积电12纳米FinFET制程工艺,提供出色的性能和低能耗表现。芯片内置频率达
    的头像 发表于 07-01 20:17 ?509次阅读
    MT6765_MTK6765安卓核心板_Helio P35处理器简介/<b class='flag-5'>芯片</b><b class='flag-5'>功能</b>资料

    【HarmonyOS 5】应用更新功能详解

    与迭代需求的优选方案。这类弹窗主要用于向用户推送新版本更新通知,而在引导用户完成更新操作的实现层面,HarmonyOS 提供了完善的应用市场能力支撑,例如本文所介绍的 updateManager(更新功能
    发表于 06-22 18:44

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知
    发表于 06-18 19:31

    IP6825+IP5306充电宝:重新定义便携电源的无线充电体验

    本文主要介绍了两种充电宝方案:IP6825和IP5306。IP6825是创新解决方案,通过高效充放电和磁吸无线充电将充电宝的便捷性和功能性提
    的头像 发表于 05-19 08:56 ?495次阅读
    <b class='flag-5'>IP6825+IP</b>5306充电宝:重新定义便携电源的无线充电体验

    如何理解芯片设计中的IP

    本文主要介绍如何理解芯片设计中的IP芯片设计中,IP(知识产权核心,Intellectual Property Core)是指在
    的头像 发表于 02-08 10:43 ?1134次阅读

    ASIC和GPU的原理和优势

    ? 本文介绍了ASIC和GPU两种能够用于AI计算的半导体芯片各自的原理和优势。 ASIC和GPU是什么 ASIC和GPU,都是用于计算
    的头像 发表于 01-06 13:58 ?1877次阅读
    ASIC和<b class='flag-5'>GPU</b>的原理和优势

    芯原发布新一代Vitality架构GPU IP系列

    芯原股份近日宣布,正式推出全新Vitality架构的图形处理器(GPU)IP系列。这一新一代GPU架构以其卓越的计算性能和广泛的应用领域,吸引了业界的广泛关注。 Vitality GPU
    的头像 发表于 12-24 10:55 ?985次阅读

    Amazon Q Business新功能发布,助力企业提效

    近日,在备受瞩目的2024年亚马逊云科技re:Invent全球大会上,一款旨在提升企业内部工作效率的强大工具——Amazon Q Business,迎来了全新功能的发布。 Amazon Q
    的头像 发表于 12-24 10:42 ?528次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    。 2. 操作系统支持:CST Studio Suite在不同操作系统上持续测试,可在支持的操作系统上使用GPU计算,具体参考相关文档。 3. 许可证:GPU计算功能通过CST Studio Suite
    发表于 12-16 14:25

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    着色器(Pixel shader)是图形流水线中算力相当强大的功能单元,因为它可以为每个片段执行复杂的计算,从而为最终渲染的图像添加细节和视觉效果。 DirectX API推动 GPU 演进
    发表于 11-03 12:55

    基于GPU器件行为的创新分布式功能安全机制为智能驾驶保驾护航

    在锁步和重复校验两种常见的功能安全机制之外,全球领先的GPU IP厂商Imagination带来一种全新的、高性价比的分布式功能安全机制。
    的头像 发表于 10-11 13:14 ?679次阅读
    基于<b class='flag-5'>GPU</b>器件行为的创新分布式<b class='flag-5'>功能</b>安全机制为智能驾驶保驾护航

    Zigbee 3.0的新功能

    电子发烧友网站提供《Zigbee 3.0的新功能.pdf》资料免费下载
    发表于 09-26 10:45 ?4次下载
    Zigbee 3.0的<b class='flag-5'>新功能</b>

    名单公布!【书籍评测活动NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

    社会资源和资本力量关注算力芯片的发展,希望我们的国家能够更独立自主地设计制造高性能算力芯片。 内容简介: 本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和
    发表于 09-02 10:09

    HSW-IP5356功能介绍

    英集芯的IP5356M是一款功能强大的移动电源SOC,它集成了多种快充协议和电源管理功能,展现了卓越的兼容性和高效性。IP5356M支持高压SCP、双向PD3.0等快充协议,能为各种移
    发表于 08-09 14:48 ?1次下载