0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型压缩技术,加速AI大模型在终端侧的应用

Carol Li ? 来源:电子发烧友网 ? 作者:李弯弯 ? 2023-04-24 01:26 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)当前,全球众多科技企业都在积极研究AI大模型,然而因为参数规模太大,要想实现AI大模型在边/端侧部署,需要用到模型压缩技术。当前谷歌、微软、腾讯等厂商在该领域均有布局,加速AI技术智能终端的融合。

为什么需要模型压缩技术

模型压缩是一种缩小训练后的神经网络的技术,目的是保证模型预测效果的前提下,尽可能地降低模型的大小。模型压缩之后,所需要的计算资源变小,有利于在移动端部署。

有一个很形象的例子,深度学习变脸业务,假设在模型优化前,原始模型处理每个视频要30秒,那么一张GPU卡一分钟只能处理2个视频。假设APP的使用峰值是1000人同时使用,那么这家公司至少要有500张GPU卡才能满足需求。

如果模型压缩技术能让模型变小许多,使得每个视频处理只需要10秒,那么这个客户可能只需要150张卡就能满足业务需求。每年的成本可以从原来的3000万控制在1000万左右,省下的2000万,就是模型压缩技术的价值。

量化、网络剪枝和知识蒸馏

模型压缩的方法主要有量化、网络剪枝、知识蒸馏。量化的意思是,将浮点计算转成低比特定点计算,模型由大量的浮点型权重组成,如果能用float32替代原有的float64表示,模型就近乎减小一倍,量化也是最容易实现的一种压缩方式。

传统意义上的量化即为将连续信号转换为离散信号,在神经网络的量化中,即将浮点数float32→int8,int4,int2等,量化其本质就是低精度,常规精度一般使用FP32存储模型权重,低精度则表示FP16,或INT8等数值格式,不过目前低精度往往指的是INT8。

模型压缩,使得原本只能在云端运行大模型,也能够部署在终端设备上。比如,近年来很流行的基础模型 Stable Diffusion ,它是一个非常出色的从文本到图像的生成式 AI 模型,能够基于任何文本输入,在数十秒内创作出逼真图像。Stable Diffusion 的参数超过 10 亿,此前主要限于在云端运行。

高通 AI Research 利用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化,首次实现了在Android智能手机上部署 Stable Diffusion,其中就用到了模型压缩技术量化的方法。

据介绍,高通的全栈 AI 研究指跨应用、神经网络模型、算法、软件和硬件进行优化。针对 Stable Diffusion,他们从 Hugging Face 的 FP32 1-5 版本开源模型入手,通过量化、编译和硬件加速进行优化,使其能在搭载第二代骁龙 8 移动平台的手机上运行。

为了把模型从 FP32 压缩为 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的训练后量化。自适应舍入 (AdaRound) 等先进的高通 AIMET 量化技术能够在更低精度水平保持模型准确性,无需进行重新训练。

这些技术能够应用于构成 Stable Diffusion 的所有组件模型,即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让模型适合于在终端上运行至关重要。

网络剪枝,是指除神经网络中冗余的通道、神经元节点等。深度学习模型可以看作是一个复杂树状结构,如果能减去一些对结果没什么影响的旁枝,就可以实现模型的减小。

模型的构成是由许多浮点型的神经元相连接,每一层根据神经元的权重将信息向下传递。但是有一些神经元的权重非常小,这类神经元对整个模型加载的信息影响微乎其微。如果可以把这些权重较小的神经元删减掉,既减少了模型大小,也不会对模型的效果带来大的影响。

每一层把数值小的神经元去掉,但是剪枝粒度维持到多大也是有讲究的,比如可以把每层最小的5个减掉,也可能只剪3个,或者每层有每层不同的策略。剪多了,模型精度影响会比较大,剪少了没有效果。所以这里面需要大量的尝试和迭代。

知识蒸馏,是指将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。一般而言,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。

因此,可以利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩。

小结

当下,AI大模型发展如火如荼,然而因为参数规模太大,不仅仅是训练,大模型的部署推理,也需要倚赖丰富的计算资源。如果想要大模型能够在边/终端侧实现部署,这其中就需要用到模型压缩技术,如高通使用量化的方法,让Stable Diffusion能够在手机上运行。




声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35748

    浏览量

    282386
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    抛弃8GB内存,端AI模型加速内存升级

    电子发烧友网报道(文/黄晶晶)端AI模型的到来存储市场产生了最直接的反应。年初我们对旗舰智能手机的存储容量统计中,16GB内存+51
    的头像 发表于 11-03 00:02 ?5926次阅读
    抛弃8GB内存,端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>内存升级

    华为CANN与智谱GLM端模型完成适配

    已于7月28日正式开源其新一代基座模型GLM-4.5,其GLM端模型已完成与CANN的适配。这标志着国产大模型与计算架构端云协同方向实现
    的头像 发表于 08-11 11:00 ?1299次阅读

    LLaVA、RWKV、Qwen3... 移远端AI模型解决方案实现多维度跃迁

    AI以破竹之势席卷千行百业,大模型技术正以惊人的速度迭代演进,重塑着智能世界的底层逻辑。作为全球AIoT行业的引领者,移远通信通过持续迭代和探索,
    的头像 发表于 06-23 19:07 ?512次阅读
    LLaVA、RWKV、Qwen3... 移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案实现多维度跃迁

    首创开源架构,天玑AI开发套件让端AI模型接入得心应手

    ,联发科带来了全面升级的天玑AI开发套件2.0,模型库规模、架构开放程度、前沿端AI技术支持
    发表于 04-13 19:52

    AI模型端侧部署正当时:移远端AI模型解决方案,激活场景智能新范式

    AI技术飞速发展的当下,AI模型的应用正从云端向端加速
    发表于 03-27 11:26 ?292次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>端侧部署正当时:移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案,激活场景智能新范式

    AI模型端侧部署正当时:移远端AI模型解决方案,激活场景智能新范式

    AI技术飞速发展的当下,AI模型的应用正从云端向端加速
    的头像 发表于 03-26 19:05 ?556次阅读
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>端侧部署正当时:移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解决方案,激活场景智能新范式

    高通推动终端AI释放全新价值

    通过蒸馏技术将百亿参数模型压缩至端设备可运行的创新,让AI推理成本大幅下降,为终端
    的头像 发表于 03-21 09:28 ?617次阅读
    高通推动<b class='flag-5'>终端</b><b class='flag-5'>侧</b><b class='flag-5'>AI</b>释放全新价值

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    DeepSeek大模型受行业热捧,加速AI应用迭代

    趋势反映出DeepSeek大模型AI领域的强大影响力。通过接入DeepSeek,这些机构能够获取更先进的AI技术支持,从而提升其产品的智能
    的头像 发表于 02-14 14:14 ?685次阅读

    移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速AI落地

    。 ? 目前,该模型正在多款智能终端上进行深入测试与优化。移远通信将凭借其卓越的工程化能力,加速AI
    发表于 02-13 11:32 ?280次阅读
    移远通信边缘计算模组成功运行DeepSeek<b class='flag-5'>模型</b>,以领先的工程能力<b class='flag-5'>加速</b>端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>落地

    移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速AI落地

    。目前,该模型正在多款智能终端上进行深入测试与优化。移远通信将凭借其卓越的工程化能力,加速AI技术
    的头像 发表于 02-12 19:03 ?502次阅读
    移远通信边缘计算模组成功运行DeepSeek<b class='flag-5'>模型</b>,以领先的工程能力<b class='flag-5'>加速</b>端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>落地

    广和通Fibocom AI Stack:加速AI部署新纪元

    近日,广和通正式推出了Fibocom AI Stack,这一创新解决方案旨在赋能千行百业的端应用,推动AI技术的广泛商用。 Fibocom AI
    的头像 发表于 01-13 11:32 ?1191次阅读

    智谱推出四个全新端模型 携英特尔按下AI普及加速

    随着AI的发展,端AI模型越来越受到广大客户及厂商的关注,业界领先的大模型公司智谱于近日推出了四个全新的端
    的头像 发表于 12-02 17:13 ?653次阅读
    智谱推出四个全新端<b class='flag-5'>侧</b><b class='flag-5'>模型</b> 携英特尔按下<b class='flag-5'>AI</b>普及<b class='flag-5'>加速</b>键

    把握关键节点,美格智能持续推动端AI规模化拓展

    将成为和系统同样重要的存在,如果说电路是连接身体的“血管”,那么AI就将成为终端的智慧“大脑”。加速演进大模型加速走向端
    的头像 发表于 11-26 01:00 ?594次阅读
    把握关键节点,美格智能持续推动端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>规模化拓展

    把握关键节点,美格智能持续推动端AI规模化拓展

    将成为和系统同样重要的存在,如果说电路是连接身体的“血管”,那么AI就将成为终端的智慧“大脑”。 ?加速演进,大模型加速走向端
    的头像 发表于 11-25 16:45 ?844次阅读
    把握关键节点,美格智能持续推动端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>规模化拓展