0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中低精度计算产生高准确度结果的解决方案

zhKF_jqr_AI ? 2018-03-29 16:16 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

有人认为,用低精度训练机器学习模型会限制训练的精度,事实真的如此吗?本文中,斯坦福大学的DAWN人工智能研究院介绍了一种名为bit recentering的技术,它可以用低精度的计算实现高准确度的解决方案。以下是论智对原文的编译,文末附原论文地址。

低精度计算在机器学习中已经吸引了大量关注。一些公司甚至已经开始研发能够原生支持并加速低精度操作的硬件了,比如微软的脑波计划(Project Brainwave)和谷歌的TPU。虽然使用低精度计算对系统来说有很多好处,但是低精度方法仍然主要用于推理,而非训练。此前,低精度训练算法面临着一个基本困境(fundamental tradeoff):当使用较少的位进行计算时,舍弃误差就会增加,这就限制了训练的准确度。根据传统观点,这种制约限制了研究人员在系统中部署低精度训练算法的能力,但是这种限制能否改变?是否有可能设计一种使用低精度却不会限制准确度的算法呢?

答案是肯定的。在某些情况下我们可以从低精度训练中获得高准确度的解决方案,在这里我们使用了一种新的随机梯度下降方法,称为高准确度低精度(HALP)法。HALP比之前的算法表现更好,因为它减少了两个限制低精度随机梯度下降准确度的噪声源:梯度方差和舍弃误差。

为了减少梯度方差带来的噪音,HALP使用常见的SVRG(stochastic variance-reduced gradient)技术。SVRG能定期使用完全梯度来减少随机梯度下降中使用的梯度样本的方差。

为了降低量化数字带来的噪声,HALP使用了名为“bit centering”的新技术,它背后的原理是,当我们接近最优点时,梯度渐变的幅度变小。也就是说携带的信息变少,于是我们能对其进行压缩。通过动态地重新调整低精度数字,我们可以在算法收敛时降低量化噪声。

将这两种技术结合,HALP能够以和全精度SVRG同样的线性收敛率生成任意准确地解决方案,同时在低精度迭代时使用的是固定位数。这个结果颠覆了有关低精度训练算法的传统观点。

为什么低精度的随机梯度下降有所限制?

首先先交代一下背景:我们想要解决以下这个训练问题:

这是用来训练许多机器学习模型(包括深度神经网络)的经典实证问题:让风险最小化。解决这个问题的标准方法之一是随机梯度下降,它是一种通过运行接近最佳值的迭代算法。

在每次迭代时,it是从{1,..., N}中随机挑选的一个指数,我们虽然想运行这样的算法,但是要保证迭代wt是低精度的。也就是说,我们希望它们使用较少位的定点运算(通常为8位或16位)。但是,当直接对随机梯度下降更新规则而进行这项操作时,我们遇到了问题:问题的解决方案w可能无法再选中的定点表示中显示出来。例如,如果一个8位的定点表示,可以储存{-128,-127,…,127}之间的整数,正确的解决方法是w*=100.5,那么我们与解决方案的距离不可能小于0.5,因为我们不能表示非整数。除此之外,将梯度转换为定点导致的舍弃误差可能会减慢收敛速度,这也影响了低精度SGD的准确性。

Bit Centering

当我们运行随机梯度下降时,在某种意义上,我们世纪正对一堆梯度样本进行平均(或总结)。Bit Centering背后的关键思想是随着梯度渐变逐渐变小,我们可以用同样的位数、以较小的误差对它们求平均值。想要知道为什么,想像一下,你想对[-100, 100]之间的数字求平均值,然后和[-1, 1]的平均值作比较。在前一个集合中,我们需要选择一个定点表示,它可以覆盖整个集合(例如{-128,-127,…,127})。而在第二个集合中,我们选择的定点要覆盖[-1, 1],例如{-128/127,-127/127,..., 126/127,127/127}。这就意味着在固定位数情况下,第二种情况中的相邻可表示数字之间的差值比第一种情况更小,因此舍弃误差也更低。

这个关键的想法让我们得到了启发。为了在[-1, 1]中求出比[-100, 100]中更少误差的平均数,我们需要用一个不同的定点表示,即我们应该不断更新低精度表示:随着梯度渐变得越小,我们应该用位数更小的定点数字,覆盖更小的范围。

但是我们该如何更新表示呢?我们要覆盖的范围到底多大?如果目标是带有参数μ的强凸,那么不管我们何时在某一点w采取完整的梯度渐变是,都可以用以下公式限制最佳位置

这种不等式为最终的解决方案提供了一系列可能的定位,所以无论何时计算完整梯度,我们都可以重新居中并缩放低精度表示以覆盖此范围。下图说明了这一过程。

低精度计算产生高准确度结果的解决方案

HALP

HALP是运行SVRG并在每个时期都使用具有完全梯度的bit centering更新低精度表示的算法。原论文有对这一方法的具体描述,在这里我们只简单做些介绍。首先,我们证明了,对于强凸的Lipschitz光滑函数,只要我们使用的位数b满足

其中κ是该问题的条件数字,那么为了适当设置尺寸和时间长度,HALP将以线性速度收敛到任意准确度的解。更显然的是,0<γ<1,

其中wk+1表示第K次迭代后的值。下表表现了这一变化过程

低精度计算产生高准确度结果的解决方案

图表通过对具有100个特征和1000个样本的合成数据集进行线性回归,来评估HALP。将它与全精度梯度下降、SVRG、低精度的梯度下降和低精度的SVRG进行比较。需要注意的是,尽管只有8位(受到浮点错误的限制),HALP仍能收敛到精度非常高的结果上。在这种情况下,HALP可以比全精度SVRG收敛到更高精度的结果中,因为HALP较少使用浮点运算,因此对浮点的非准确性不敏感。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135083

原文标题:斯坦福DAWN实验室实现用低精度计算产生高准确度结果

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于CAPSENSE?每个 Vref 电压的准确度的疑问求解

    我认为CAPSENSE?在感应电容时使用 Vref 电压值。 根据组件数据表,Vref 电压值根据 VDDA 设置而变化。 PSoC? 4 电容式感应 ( CAPSENSE? ) 您能否告诉我们每个 Vref 电压(从 1.2V 到 2.743V)的准确度
    发表于 07-15 07:35

    电工仪表准确度等级详解

    一、准确度等级的定义 以下是“JJF1001-2011通用计量术语”对准确度准确度等级的相关定义: 1、测量准确度 measurement accuracy,sccuracy
    的头像 发表于 05-19 10:20 ?1524次阅读
    电工仪表<b class='flag-5'>准确度</b>等级详解

    直线测量仪的精度如何评估?

    进行测试,通过测量结果与标准值的对比,评估测量仪的精度。这种方法直接且有效,但需要高精度的标准件作为参考。 2.与其他高精度仪器对比:将直线
    发表于 04-21 16:26

    校准后,记忆示波器显示频率和幅度是否准确

    和幅度是否漂移。 四、校准后仍不准确的可能原因及解决方案 [td]问题可能原因解决方案 频率测量误差校准源频率不稳定或示波器时基误差。更换高精度校准源,重新校准时基。 幅度测量误差探头
    发表于 04-16 14:56

    旋转式测径仪的测量精度和分辨率受哪些因素影响?

    ,其精度同样对测量精度和分辨率产生影响。高精度的转换器能够减少信号转换过程中的误差,确保测量结果准确
    发表于 04-15 14:20

    利用隔离式精密信号链保持数据采集的准确度

    数字时代改变了解决问题的范式,将智能引入边缘可以应对全新的复杂挑战。数据采集(DAQ)系统成为了边缘智能的核心。在数据采集领域,准确度和可靠性至关重要。为确保达到准确度和完整性,隔离式精密信号链的重要性不容忽视。
    的头像 发表于 03-17 14:43 ?826次阅读

    直线测量仪如何测量钛合金钢管的全长直线

    注意测量环境、测量精度、操作规范以及数据处理等方面的问题,以确保测量结果准确性和可靠性。 网站名称:保定市蓝鹏测控科技有限公司 可根据客户需求提供解决方案,定制产品。 可以给我在线留
    发表于 03-10 14:52

    浅谈晶振的频率准确度和频率稳定

    在选购或者使用晶振时,我们经常会听到频率准确度和频率稳定这两个概念。虽然两者都与晶振的频率变化相关,但它们的关注重点不同。
    的头像 发表于 02-25 18:07 ?1178次阅读
    浅谈晶振的频率<b class='flag-5'>准确度</b>和频率稳定<b class='flag-5'>度</b>

    准确度信号链解决方案快速实现七位半DMM

    在对准确度有很高要求的行业里,七位半或更高分辨率的数字万用表(DMM)会被使用,这些DMM采用由分立元器件搭建的多斜率积分ADC。这些ADC虽然可以提供合理准确度的测量结果,但对于大多数工程师来说
    的头像 发表于 12-03 10:55 ?1258次阅读

    如何实现七位半或更高准确度的DMM

    许多仪器仪表应用要求准确度,例如数字万用表(DMM)、三相标准表、现场仪表校准器、准确度DAQ系统、电子秤/实验室天平、地震物探仪以及自动测试设备(ATE)中的源表(SMU)/功率
    的头像 发表于 11-28 11:50 ?1108次阅读
    如何实现七位半或更高<b class='flag-5'>准确度</b>的DMM

    AFE4404可否用于运动时心率检测?准确度如何?

    AFE4404可否用于运动时心率检测?准确度如何?
    发表于 11-19 08:26

    数字压力表的准确度如何?是否适用于精密测量?

    在工业和科研领域,压力的测量工作至关重要,而数字压力表因其直观的数字显示和高精度的特性,成为了这些领域不可或缺的测量工具。那么,数字压力表的准确度到底如何,它是否能满足精细测量的需求呢?
    的头像 发表于 11-07 13:58 ?790次阅读
    数字压力表的<b class='flag-5'>准确度</b>如何?是否适用于精密测量?

    光电轴角编码器 准确度等级5级是多少

    光电轴角编码器的准确度等级是衡量其测量精度的一个重要指标。对于准确度等级为5级的光电轴角编码器,其相关的计量特性通常包括分度误差、测角重复性和零位误差等。 一、分度误差 分度误差是编码器每两个相邻
    的头像 发表于 10-12 09:50 ?957次阅读

    深度剖析在线长度测量仪:机器视觉引领高精度测量新时代

    系统具备强大的计算能力,可以对原始数据进行预处理、计算和分析,并将计算结果以图形、表格或数值等形式输出给用户。 二、主要特点 高精度:在线长度测量仪通常采用高
    发表于 10-10 16:51

    噪声测量仪器精度应达到几级以上

    精度依次降低。 0型声级计的准确度是±0.4分贝,是实验室标准声级计。 1型声级计的准确度是±0.7分贝,一般在实验室或声学条件可以严格控制的现场使用。 2型声级计的准确度是±1分贝,
    的头像 发表于 10-09 15:09 ?1929次阅读