0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于正交与缩放变换的大模型量化方法

智能感知与物联网技术研究所 ? 来源:智能感知与物联网技术研 ? 2025-03-04 11:10 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文标题: OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting

论文链接

https://arxiv.org/abs/2501.13987

论文单位:

后摩智能、南京大学、东南大学

1.序言

近年来,大规模语言模型(Large Language Models, LLMs)在自然语言处理领域取得了革命性进展。以 GPT 系列、LLaMA 等为代表的模型,通过千亿级参数的复杂结构展现出强大的语义理解和生成能力。

然而,大量的内存和计算需求使 LLMs 面临重大的部署挑战,推理时的计算延迟和能耗更使其难以在资源受限的边缘设备或实时系统中应用。在此背景下,后训练量化(Post-Training QuantizatPion, PTQ)技术已成为一种广泛采用关键解决方案。

PTQ 通过将模型参数从 32 位浮点数压缩至更低位宽,可在保持模型性能的同时显著降低存储需求和计算复杂度。但传统量化方法面临两个根本性挑战:

1. 分布不匹配:LLM 的权重与激活值通常具有非对称、重尾分布特征以及通道间方差差异,这些特性会扩大量化范围,导致大部分数据的可用量化比特降低,进而影响模型性能。

2. 校准数据限制:PTQ 通常依赖少量校准数据(如 1,000 个样本)优化量化参数,传统损失函数(如交叉熵)容易在小样本下过拟合,损害模型的零样本泛化能力。

现有研究主要通过线性变换方法改善数据分布,例如 SmoothQuant 通过通道间方差迁移平衡权重与激活的量化难度,Quarot 采用旋转矩阵抑制异常值。

然而这些方法存在明显局限:一方面,其变换策略依赖启发式设计,缺乏对量化空间利用效率的系统性评估;另一方面,现有方法多聚焦局部优化,未能在全局量化空间维度实现分布对齐。

这些问题导致现有量化方法在低比特场景(如 W4A4KV4)下性能损失显著,严重制约了 LLMs 低比特推理的实用化进程。

本文提出 OSTQuant(Orthogonal and Scaling Transformation-based Quantization)框架,通过三个核心创新突破上述瓶颈:

1. 建立量化空间利用率(Quantization Space Utilization Rate, QSUR)作为评估可量化性的有效指标,为量化方法设计提供理论指导;

2. 设计多个正交-缩放等效变换对,在保持模型功能等价性的同时优化全局数据分布来提高 QSUR 和量化性能;

3. 引入 KL-Top 损失函数,从模型中捕获更丰富的语义信息,同时减轻标签噪声的影响。

实验表明,OSTQuant 在 weight-only、weight-activation 和 weight-activation-kvcache 量化模式中都展示了优越的性能。在 W4A16 量化时,该方法实现了超过 99.5% 的精度保持率,而在更激进的 W4A4KV4 设置中,它至少保持了模型原始性能的 96%,为 LLMs 的高效部署提供了新的技术路径。

2b9929ec-f732-11ef-9310-92fbcf53809c.png

▲用不同的方法对一批二维数据 X~N (?,Σ) 进行变换。特征值 λ1 和 λ2 表示特征值分解后沿主轴分布的扩展。(a)表示原始分布,(b)、(c)和(d)分别说明了基于 Smooth-base、Rotate-base 和我们基于 OST 的方法对 QSUR 的影响。椭圆内的量化点数量越高,表示分布的量化空间利用率越大。

2.相关工作

2.1 LLM 后训练量化

后训练量化(PTQ)因其高效性已成为 LLMs 优化的主流技术,现有方法主要分为仅权重量化和权重 - 激活量化两类。

仅权重量化:这类方法旨在降低内存使用,通过特定策略优化权重量化。GPTQ 运用基于 Hessian 的误差补偿技术,通过最小化量化误差来实现高压缩率;AWQ 和 OWQ 则着重解决激活异常值对权重量化的影响,以此提升量化性能;QuIP 和 QuIP #借助随机 Hadamard 矩阵进行非相干处理,并对权重应用向量量化,在低精度量化下仍能取得较好效果。

权重 - 激活量化:此方法旨在通过同时量化权重和激活(包括 KV Cache)来加速 LLM 推理。然而,激活量化面临着异常值主导量化范围的问题,导致大多数值的有效比特数减少,进而产生显著误差。

ZeroQuant 提出了一种对硬件友好的细粒度量化方案;SmoothQuant 通过数学变换将量化难度从激活转移到权重;OmniQuant 进一步通过训练量化参数和变换系数来提升性能;I-LLM 利用全平滑块重建和全整数算子实现了仅整数的量化和推理。

最近,QuaRot 借助随机旋转矩阵实现了 4 比特的权重和激活量化,SpinQuant 则通过学习旋转矩阵对 4 比特量化进行优化 。

2.2 黎曼优化

在优化旋转矩阵时,需遵循正交归一性约束,这等价于在 Stiefel 流形(包含所有正交矩阵)上进行黎曼优化。

Cayley SGD 依赖 Cayley 变换的迭代逼近,仅通过矩阵乘法就能有效优化任意损失函数下的旋转矩阵;RAOM 将 ADAM、ADAGRAD 和 AMSGRAD 等优化方法拓展到黎曼优化领域;Geoopt 支持基本的黎曼随机梯度下降(SGD)和自适应优化算法,便于与模型无缝集成进行全面优化。

这些技术为处理旋转矩阵的特殊性质提供了有效手段,在大语言模型量化研究中发挥着重要作用。

3.本文方法

3.1 量化空间利用率(QSUR)

尽管使用线性变换来减轻量化损失的 PTQ 取得了重大进展,但这些方法缺乏评估量化难度或不同转换有效性的量化指标。 我们引入了一种新的指标,量化空间利用率(QSUR),它定量化描述了权重或激活分布对可用的量化空间的有效利用程度。QSUR 为现有方法的优势和局限性提供了关键见解,并为开发更有效的方法奠定了基础,如 OSTQuant。量化空间利用率(QSUR)的核心目标是通过数学方法量化数据分布与量化空间的适配程度。其定义公式为: 其中:

:数据分布占据的超体积,由协方差矩阵 决定;

:量化超立方体体积,由数据各维度的最大值与最小值定义。

关键推导步骤

1. 协方差矩阵分解:对于数据分布 ,通过特征值分解 (为正交矩阵,),数据分布体积可表示为:

2bba5f4a-f732-11ef-9310-92fbcf53809c.png

其中, 为卡方分布的临界值, 为置信水平(通常取 0.99)。

2. 量化超立方体体积计算:量化范围由数据沿主轴的极值点决定,即:

2bc77cd4-f732-11ef-9310-92fbcf53809c.png

由此可得:

2bd56fe2-f732-11ef-9310-92fbcf53809c.png

3.简化后的 QSUR 表达式:忽略均值 的影响后,QSUR 简化为:

2be2971c-f732-11ef-9310-92fbcf53809c.png

这表明 QSUR 与特征值的均衡性正相关。当所有特征值相等(即数据呈球型分布)时,QSUR 达到最大值。

最优变换矩阵的数学构造

可进一步证明,当正交矩阵 满足:(其中 为任意标量)时,QSUR 达到理论最大值:

2bf85976-f732-11ef-9310-92fbcf53809c.png

▲QSUR 与模型量化精度呈正相关

3.2 正交-缩放等效变换

OSTQuant 的核心是通过正交变换(Orthogonal Transformation)与缩放变换(Scaling Transformation)的联合优化,实现权值和激活值分布的全局调整,以此来提高量化性能。

2c0d4480-f732-11ef-9310-92fbcf53809c.png

▲OSTQuant 的总体流程图。顶部部分说明了全局正交变换 以及两个缩放变换 和 如何在每个块内协作,以调整整个网络的分布,同时保持计算不变性。底部部分突出显示了应用于 FFN 和自注意力层的四个等效变换对。

由正交变换和缩放变换组成的可学习等效变换对表示如下:

2c205eb2-f732-11ef-9310-92fbcf53809c.png

其中,正交矩阵 满足 ,负责旋转数据的主轴方向,对角缩放矩阵 动态调整各通道尺度。这种设计从几何视角重构数据分布——通过旋转消除方向上的分布偏斜,再通过缩放均衡各维度的数值范围,最终使数据在量化空间中呈现均匀填充的球型分布。 等效变换对具有诸多优势, 和 均为可学习参数,对角矩阵求逆计算简单,能实现高效前向传递,正交矩阵可使用支持在 Stiefel 流形上优化的基于梯度的优化器(如 RiemannAdam)进行优化,从而充分利用一阶梯度信息进行端到端学习。 在忽略量化影响时,前向过程在数学上与原始模型等价,保证了激活和权重的一致性,同时降低过拟合风险;优化后, 和 均可直接合并到现有权重中,部署时不引入额外计算开销和参数,确保推理高效。

OSTQuant通过权重异常值最小化初始化(Weight Outlier Minimization Initialization, WOMI)进一步提升初始量化效果。

该方法基于权重协方差矩阵的特征分解,结合哈达玛矩阵的均匀分布特性,生成初始正交变换矩阵,有效减少权重通道间的方差差异。如图所示,WOMI 相比随机哈达玛变换,能将权重量化的相对 L1 误差降低近 50%。

2c32fe50-f732-11ef-9310-92fbcf53809c.png

▲Impact of WOMI transform and Hadamard transform on LLaMA-2-7B weight (weightof Query projection in Layer 0) quantization.

此外,OSTQuant 还同时进行块间学习和块内学习。在块间学习中,正交变换通过全局矩阵 作用于嵌入层与所有残差路径并引入两个对角缩放矩阵 和 来平滑通道差异,这些变换可融入相应权重矩阵,有效学习分布变化对模型精度的影响,减轻量化误差。

在块内学习中,在每个 transformer 块的多头自注意力层引入两个等价变换对,对 Value projection()和 Out projection()进行跨层变换,为每个注意力头学习旋转变换 和缩放变换 ,针对不同注意力头独立优化,适配其独特的分布模式,以提高 Value cache 和 Out projection 的 QSUR。

在 Rotary Positional Encoding(ROPE)操作后,输出 Query 和 Key 可自然进行等价缩放变换(),还对 Query 和 Key 的应用额外的 Hadamard 变换 ,进一步提升 Key Cache 的量化效率。对于 FFN 模块,上下投影层(Up/Down Projection)的激活函数(如 SiLU)通过尺度因子 与 调整,其数学形式为:

2c44aa9c-f732-11ef-9310-92fbcf53809c.png

3.3 KL-TOP 损失函数

虽然 LLM 通常在大量数据集上进行训练,但OSTQuant 优化使用小得多的校准数据集进行。在这种有限的数据环境中,直接应用原始交叉熵(CE)损失可能会导致模型过度拟合。

使用 KL 散度优化可以在量化前后对齐预测分布,以减少过拟合风险。但大语言模型词汇量往往数以万计,全精度模型的预测结果呈严重长尾分布,直接应用 KL 散度进行优化,损失可能被低概率的无信息类别主导,为训练过程引入噪声。


OSTQuant 提出 KL-Top 损失函数。该损失仅计算预测概率最高的前 个类别的 KL 散度,避免低概率噪声对梯度更新的干扰。具体而言,对于全精度模型与量化模型的输出分布 和 ,首先通过 筛选保留主要语义信息,再计算加权 KL 损失:

2c503d94-f732-11ef-9310-92fbcf53809c.png

实验表明,当 时,KL-Top 损失在保留模型零样本能力的同时,显著缓解了过拟合现象。

4.评估结果

4.1 量化精度对比

在 LLaMA 系列模型的广泛测试中,OSTQuant 全面超越现有方法:

W4A16KV16:OSTQuant 超越了先前方法,在 zero-shot 任务中保持了至少 99.5% 的浮点(FP)精度。与 GPTQ 和 AWQ 等其他纯权重量化方法相比,OSTQuant 进一步缩小了与 FP 模型的差距。在最具挑战性的 LLaMA-3-8B 模型中,OSTQuant 在 zero-shot 评估中仅实现了 0.29 点的性能下降。

W4A4KV4:在极具挑战性的 4-4-4 设置中,我们的方法也保留了显著的性能增益。

2c668306-f732-11ef-9310-92fbcf53809c.png

4.2 推理效率与内存节省

OSTQuant 在 NVIDIA 3090 GPU 和 A6000 GPU 上的实测结果显示:

推理加速:LLaMA-30B 的预填充(Prefill)阶段速度提升 3.4 倍,解码(Decoding)吞吐量达 30.49 tokens/sec。

内存压缩:LLaMA-3-70B 全 4bit 量化后显存占用仅 38.41GB,可在单卡 A6000 上流畅运行。

2c7a895a-f732-11ef-9310-92fbcf53809c.png

▲NVIDIA 3090 GPU 测试结果

2c87ff22-f732-11ef-9310-92fbcf53809c.png

▲ A6000 GPU 测试结果

4.3 训练效率优势

相比基于块重建的方法(如 OmniQuant),OSTQuant 凭借少量可学习参数(仅正交与缩放矩阵),将 7B 模型的优化时间从 1.6 小时缩短至 0.3 小时,加速比达 5.3 倍。

2c951fcc-f732-11ef-9310-92fbcf53809c.png

5.结论

在本文中,我们介绍了 OSTQuant,这是一种全新的后训练量化方法,旨在提高大语言模型(LLMs)的效率。OSTQuant 的核心是量化空间利用率(QSUR),这是我们提出的一种新指标,通过测量数据在量化空间内的空间利用率,有效评估变换后数据的可量化性。

QSUR 辅以数学推导,为在整个量化空间中优化单个数据分布提供了理论指导。基于这一见解,OSTQuant 采用了由正交变换和缩放变换组成的可学习等价变换对,来优化权重和激活的分布。

此外,我们引入了 KL-Top 损失函数,即使在通常用于后训练量化(PTQ)的有限校准数据情况下,该函数也能在优化过程中减少噪声,同时保留更丰富的语义信息。

在各种大语言模型和基准测试上进行的大量实验表明,OSTQuant 优于现有的量化方法。这些结果凸显了在量化空间中优化数据分布的有效性,也强调了 OSTQuant 在推进大语言模型量化方面的潜力,使得这些模型在资源受限的环境中部署时更高效、更实用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    563

    浏览量

    10836
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16271
  • 大模型
    +关注

    关注

    2

    文章

    3191

    浏览量

    4147

原文标题:ICLR 2025 | SOTA性能!OSTQuant:基于正交与缩放变换的大模型量化方法

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一种基于量化DCT域音频水印新算法

    本帖最后由 luna 于 2011-3-3 14:38 编辑 提出一种新的基于量化DCT域的音频水印算法,根据DC分量和AC分量在水印的鲁棒性和不可听性中起着不同的影响来设计水印算法,使水印
    发表于 03-03 00:31

    数字量化的两种方法

    高质量信号重构的要求。为解决这两者之间的矛盾,一种新的数字储频方法——幅相量化法应运而生。与传统的单幅度或相位量化储频方式不同,基于幅相
    发表于 06-17 06:09

    给大家介绍一种软件修正方法

    本文介绍一种三轴正交型传感器正交性的软件修正方法
    发表于 05-07 06:53

    分享款不错的一种基于FPGA高性能H.264变换量化结构设计

    分享款不错的一种基于FPGA高性能H.264变换量化结构设计
    发表于 05-08 07:56

    一种优化的鞋样图像矢量化方法

    针对制鞋业中鞋样的录入问题,提出了一种实现从图像格式到图形格式转化的图像矢量化方法。并且形成的图形文件可根据不同鞋业CAD 软件的要求而存储成相应的格式。该方法
    发表于 08-13 15:24 ?18次下载

    一种估计JPEG双重压缩原始量化步长的新方法

    该文提出了一种双重压缩后JPEG 图像的原始量化步长的估计方法。该方法根据两次量化步长之间的大小关系分3
    发表于 11-20 15:34 ?18次下载

    正交与均匀试验设计

    正交与均匀试验设计,正交与均匀试验设计正交试验设计是因子设计中流行最广泛的方法,均匀设计是一种新的因子设计,和
    发表于 03-19 08:18 ?0次下载

    一种改进的小波变换图像压缩方法

     针对传统小波变换过程复杂的缺点和S PIH T 算法编码过程重复运算、存储量大的问题,提出了一种改进的小波变换图像压缩方法。该方法首先对纹
    发表于 08-10 11:49 ?23次下载

    一种新的GMSK正交调制信号产生方法

    提出了一种称为直接分解法的 GMSK 正交调制信号产生方法. 将单个脉冲的高斯滤波器响应的积分相位轨迹分成暂态部分和稳态部分, 并详细分析了这两部分的组成规律. 暂态部分只与相邻
    发表于 06-21 10:51 ?35次下载
    <b class='flag-5'>一种</b>新的GMSK<b class='flag-5'>正交</b>调制信号产生<b class='flag-5'>方法</b>

    一种实时交互的浮雕纹理模型构建方法

    为了快速生成带浮雕纹理的三维模型,提出一种实时交互的浮雕纹理模型构建方法方法分两步:第步,将
    发表于 11-29 16:51 ?0次下载
    <b class='flag-5'>一种</b>实时交互的浮雕纹理<b class='flag-5'>模型</b>构建<b class='flag-5'>方法</b>

    一种新的离散正交矩Charlier图像分析

    Mukundan在2001年提出一种基于离散Tchebichef多项式的离散正交矩。随后,Yap 提出另一种基于Krawtchouk多项式的离散正交矩。离散
    发表于 11-30 11:21 ?4次下载

    正交变换与置信域的量测方差估计

    状态估计实际应用中,量测方差获取和权重设置存在定的困难。伴随状态估计运算量越来越繁重,现有量测方差估计算法的收敛性无法得到保证。为此提出了一种基于正交变换与置信域的量测方差估计和权重设置算法。利用
    发表于 03-20 10:47 ?0次下载

    一种基于几何分析的正交圆轨道星座设计方法

    ,是一种较为粗略的覆盖区域划分方法,未能充分利用两星座的几何性质。对此,根据极轨星座卫星的运动特性和覆盖特性,分析其在不满足连续覆盖要求的域中所产生覆盖空隙的特点,并结合赤道轨道星座卫星的特点,提出
    发表于 03-19 11:45 ?15次下载
    <b class='flag-5'>一种</b>基于几何分析的<b class='flag-5'>正交</b>圆轨道星座设计<b class='flag-5'>方法</b>

    深度学习模型量化方法

    深度学习模型量化一种重要的模型量化技术,旨在通过减少网络参数的比特宽度来减小模型大小和加速推
    的头像 发表于 07-15 11:01 ?1160次阅读
    深度学习<b class='flag-5'>模型</b><b class='flag-5'>量化</b><b class='flag-5'>方法</b>

    一种信息引导的量化后LLM微调新算法IR-QLoRA

    进行量化+LoRA的路线为例,有研究表明,现有方法会导致量化的LLM严重退化,甚至无法从LoRA微调中受益。 为了解决这问题,来自苏黎世联邦理工学院、北京航空航天大学和字节跳动的研究
    的头像 发表于 11-19 17:16 ?880次阅读
    <b class='flag-5'>一种</b>信息引导的<b class='flag-5'>量化</b>后LLM微调新算法IR-QLoRA