0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何透过数字直剖本质评估AI芯片的真实性能?

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 作者:地平线HorizonRobot ? 2021-05-03 18:11 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

特斯拉 Hardware 3.0 的效率之谜

特斯拉在其推出的 Hardware 3.0 自动驾驶平台中,采用自研芯片替代了Nvidia Drive PX2,其理论算力直线提升了 3 倍,而以 MAPS 方式来评估,其真实 AI 性能更是惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。

那么,Hardware 的效率提升应该如何认识呢?在“算力至上”的今天,如何透过数字直剖本质评估 AI 芯片的真实性能?

算力攀升,为什么却看不到实用性?

随着芯片制程技术的演进,摩尔定律的发展却逐渐进入瓶颈期,这与当下计算 AI 计算需求量爆发式的增长显得格格不入。追求纯算力突破并不可持续,同时算力也并不代表汽车智能芯片“真实性能”,芯片计算效率也同样需要关注。于是,软硬结合、算法加持的 AI 芯片接过了跑赢新场景的接力棒。

当前,行业普遍以“TOPS”为单位来评估AI的理论峰值算力。尽管在目前主流的AI芯片性能基准测试( MLPerf )下很多顶级厂商频繁刷新榜单记录,但在实际场景下的算力有效利用率却差强人意。

2b80db88-9572-11eb-8b86-12bb97331649.png

人们逐渐认识到,AI 芯片理论峰值算力并不一定能在实际运行中完全释放。例如,一款拥有理论峰值算力为 16 TOPS 的芯片,在计算不同模型时甚至会有接近 80% 的差异。此外,在卷积神经网络任务实测中,从 2014 年到 2019 年,最好的神经网络计算效率相差了 100 倍,相当于计算效率每 9 个月翻一倍,远快于每 18 个月翻倍的摩尔定律。因此在模型算法演进速度远快于芯片性能提升的速度的现在,不仅需要算力更高的芯片,也需要更合理的性能评估方法帮助用户选择适合的 AI 芯片。

对这些 AI 时代出现的新变化,以地平线为代表的 AI 芯片企业认为,单纯依赖于 PPA 芯片设计指标,很容易陷入算力至上的“误区”,但算力并不是完全反应芯片性能唯一评估标准。因此,地平线提出了 MAPS(Mean Accuracy-guaranteed Processing Speed)概念和评估方法,以此作为检验 AI 性能的真正标准。通俗来说,就是在特定的 AI 应用领域,看芯片处理 AI 任务的速度和精度,即“多快”和“多准”。

MAPS 动态评估芯片真实 AI 性能

随着 AI 算法的不断演进,几乎每 10-14 个月,相同的计算精度计算量可以下降一半。这种提升与算法设计的精妙程度息息相关,但算法的快速演进也对计算架构提出巨大的挑战,尤其是对传统通用的并行架构而言,例如亟需高效AI专用处理器的自动驾驶场景。

MAPS 其实是在物理算力的基础上,通过对大量模型的测试,综合各个模型的速度(正比与物理算力*实际利用率)和准确率得到的最佳方案的量化结果。它更聚焦于使用户能够通过可视化的图表直观的感知 AI 芯片真实算力。正如对于汽车来说,马力(单位: HP)不如百公里加速时间(单位:秒)更真实反映整车动力性能;算力(单位: TOPS)并不反映汽车智能芯片实际性能,而每秒准确识别帧率 MAPS(单位: FPS)才是更真实的性能指标。

2bb9df64-9572-11eb-8b86-12bb97331649.png

MAPS=最佳模型多边形面积/(精度上界—精度下界),其中横轴反应帧率,纵轴反应精度

此外,在自动驾驶中应该如何对速度和精度做取舍呢?现实生活中我们经常遇到一些极端的案例,例如当汽车遭遇小孩子横穿马路的突发状况时,如果自动驾驶识别延时过高,会刹车不及时;如果精度不够,则会造成无法识别。在很多类似的场景中,我们往往面临既要“快”,又要兼顾“准”的境况。而在 MAPS 评估方法下,我们可以清晰看到帧率和精度之间的动态关系,这也是其对实际场景的重要价值之一。

更高级别自动驾驶需要多少“FPS”?

软件定义的汽车的趋势下,未来汽车正逐步成为四个轮子上的超级计算机。可以清晰预见的是,电动车卖点不是车,而是「智能」,这是一个堪比计算机诞生级别的创新。

特斯拉在 Hardware 3.0 中,采用其自研 AI 芯片 FSD Chip 替代了 Hardware 2.5 中的 Nvidia Drive PX2,算力从 24 TOPS 提升到了 72 TOPS,但运行同样模型的精度却惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。除了绝对算力的提升,额外提升则来自于利用率的提升。同时特斯拉也宣布针对 Hardware 3.0 重写自动驾驶软件,从而在 2020 年 10 月推出了 FSD beta,这是唯一不受场地限制、大规模测试的自动驾驶方案。

特斯拉革命性技术的重构与 MAPS背后体现的理念有相通之处:提升物理算力(HW 3.0 提升 3 倍)、提升利用率(提升近 2 倍),找到最佳的速度和准确率提升(重写自动驾驶软件),使得特斯拉从简单场景的 NOA 一步步突破到不受限的自动驾驶。而地平线在芯片设计之中一直贯彻 MAPS 背后的技术理念,关注提升物理算力的同时关注利用率的提升,并且不断把算法发展趋势,使得软硬件可以协同共振,发挥最高效能。

为了助力汽车厂商突破“特斯拉困境”,实现高级别自动驾驶的落地。地平线即将推出的征程 5 MAPS 整体跑分高达 3020 FPS,其中 MAPS@COCO (检测任务COCO MAPS) 跑分可高达 116,而 Nvidia Xavier MAPS@COCO 为 41 FPS (GPU&DLA@32W mode ),如此高的性能将助力车厂加速实现自动驾驶方案的落地。

驱动新基建数字底座,需要有算力也要有效率。自成立以来,地平线便致力于兼备算力与效率的高性能芯片。未来,地平线将推出性能更强大的征程6,其不仅在功耗、面积优化的基础上,同时在MAPS上继续提升一个数量级,助力全行业共同努力进一步大幅提升自动驾驶的安全性。

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6385

    浏览量

    129530
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282482
  • 自动驾驶
    +关注

    关注

    790

    文章

    14396

    浏览量

    171460

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    、请在收到书籍后2个星期内提交不少于2篇试读报告要求300字以上图文并茂。 4、试读报告发表在电子发烧友论坛>>社区活动专版标题名称必须包含 【「AI芯片:科技探索与AGI愿景
    发表于 07-28 13:54

    Splashtop 成功入选 TrustRadius Trusted Seller 榜单,以透明与真实引领远程连接

    近日,全球权威技术评测平台TrustRadius基于企业产品信息真实性、用户反馈响应效率及商业道德实践等维度,正式公布「TrustedSeller」榜单。Splashtop凭借其在产品信息透明度
    的头像 发表于 05-14 17:36 ?518次阅读
    Splashtop 成功入选 TrustRadius Trusted Seller 榜单,以透明与<b class='flag-5'>真实</b>引领远程连接

    是德科技推出AI数据中心构建器以验证和优化网络架构和主机设计

    ·?通过模拟真实工作负载验证AI基础设施的性能 ·?通过评估新算法、组件或协议提高AI训练的性能
    的头像 发表于 04-10 08:50 ?329次阅读

    江西万年芯通过数字化转型成熟度星级评估

    2星级评估证书”。这一评估结果不仅是对企业数字化转型阶段性成果的认可,也标志着万年芯在智能化改造和数字化转型的道路上迈出了坚实的一步。数字
    的头像 发表于 02-19 15:35 ?593次阅读
    江西万年芯通<b class='flag-5'>过数字</b>化转型成熟度星级<b class='flag-5'>评估</b>

    数字电路仿真实

    电子发烧友网站提供《数字电路仿真实现.pdf》资料免费下载
    发表于 01-21 09:24 ?2次下载
    <b class='flag-5'>数字电路仿真实</b>现

    AI跑分超8000,天玑9400凭实力碾压一众旗舰芯片

    苏黎世AI Benchmark榜单冠军,以称霸行业的AI性能,加速智能手机的智能体化进程。 AI Benchmark自2018年推出以来,一
    的头像 发表于 01-10 12:40 ?1144次阅读
    <b class='flag-5'>AI</b>跑分超8000,天玑9400凭实力碾压一众旗舰<b class='flag-5'>芯片</b>

    MPU的性能评估方法

    MPU(Microprocessor Unit,微处理器单元)的性能评估是确保其在实际应用中能够满足需求的重要环节。以下是一些常用的MPU性能评估方法: 一、基准测试(Benchmar
    的头像 发表于 01-08 09:39 ?921次阅读

    赛昉联合国芯推出高性能AI MCU芯片,实现RISC-V+AI新应用

    近日,赛昉科技与苏州国芯科技有限公司(以下简称“国芯科技”)合作研发的高性能AIMCU芯片产品CCR7002已成功通过了内部性能和功能测试,实现了RISC-V+AI技术的新应用。赛昉科
    的头像 发表于 11-27 11:46 ?1174次阅读
    赛昉联合国芯推出高<b class='flag-5'>性能</b><b class='flag-5'>AI</b> MCU<b class='flag-5'>芯片</b>,实现RISC-V+<b class='flag-5'>AI</b>新应用

    ADS1299如何保证数据真实性

    %时,调整为6倍增益。 后面的AD转换是接近实时的转换,在调整增益时,如何保障记录到的调整数据接近真实的连接,即保证数据真实性
    发表于 11-26 06:16

    国芯科技:高性能AI MCU芯片CCR7002内部测试成功

    近日,国芯科技宣布了一项重要研发成果。11月24日,公司正式公告,其高性能AI MCU芯片新产品CCR7002在公司内部测试中取得了圆满成功。这一成果标志着国芯科技在AI
    的头像 发表于 11-25 14:45 ?1017次阅读

    多通道负载测试和性能评估

    情况下的性能。这种测试通常用于评估系统的最大处理能力,以及确定系统在何种负载下开始出现性能下降。多通道负载测试可以模拟真实的用户行为,包括用户的请求、响应和数据处理等。 在进行多通道负
    发表于 11-11 16:44

    如何评估AI大模型的效果

    评估AI大模型的效果是一个复杂且多维度的过程,涉及多个方面的考量。以下是一些关键的评估方法和步骤: 一、基准测试(Benchmarking) 使用标准数据集和任务来评估模型的
    的头像 发表于 10-23 15:21 ?3435次阅读

    光学透过率测量仪的技术原理和应用场景

    :在建筑行业中,光学透过率测量仪被用于测试建筑材料(如窗户、天窗和其他透明部件)的透明度,以确保它们符合质量和性能标准。这对于需要控制光线进入量的建筑物尤为重要,如展览馆、图书馆等。此外,它还
    发表于 10-16 14:38

    天玑9400权威测试AI性能跑分第一,领跑行业

    的技术,一在端侧AI领域稳步前进,持续拓展AI能力及生态系统。NPU性能称霸,以最强端侧AI构筑“智能体化”坚实基底首先看天玑9400的
    的头像 发表于 10-14 14:57 ?1017次阅读
    天玑9400权威测试<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跑分第一,领跑行业

    过数字隔离器将SPI转换为GPIO

    电子发烧友网站提供《通过数字隔离器将SPI转换为GPIO.pdf》资料免费下载
    发表于 09-21 10:20 ?0次下载
    通<b class='flag-5'>过数字</b>隔离器将SPI转换为GPIO