0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

10个机器学习中常用的距离度量方法

颖脉Imgtec ? 2022-11-03 10:35 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Jonte Dancker

来源:DeepHub IMBA


距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。

距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨慎。但在做出决定之前,我们需要了解距离测量是如何工作的,以及我们可以从哪些测量中进行选择。

本文将简要介绍常用的距离度量方法、它们的工作原理、如何用Python计算它们以及何时使用它们。这样可以加深知识和理解,提高机器学习算法和结果。fdf794a0-5937-11ed-b116-dac502259ad0.png在更深入地研究不同的距离测量之前,我们先要有一个关于它们如何工作以及如何选择合适的测量的大致概念。距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。然后可以使用该距离来确定特征之间的相似性, 距离越小特征越相似。

对于距离的度量,我们可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型。特征可能有不同的数据类型(例如,真实值、布尔值、分类值),数据可能是多维的或由地理空间数据组成。


几何距离测量1、欧氏距离 Euclidean distance欧氏距离度量两个实值向量之间的最短距离。由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量和许多应用程序的默认距离度量。fe14fd38-5937-11ed-b116-dac502259ad0.png欧氏距离也可称为l2范数,其计算方法为:fe38b61a-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.euclidean(vector_1, vector_2)欧氏距离有两个主要缺点。首先,距离测量不适用于比2D或3D空间更高维度的数据。第二,如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜。2、曼哈顿距离 Manhattan distance曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的。这种距离度量通常用于离散和二元属性,这样可以获得真实的路径。fe497ab8-5937-11ed-b116-dac502259ad0.png曼哈顿距离以l1范数为基础,计算公式为:fe5b34a6-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.cityblock(vector_1, vector_2)曼哈顿的距离有两个主要的缺点。它不如高维空间中的欧氏距离直观,它也没有显示可能的最短路径。虽然这可能没有问题,但我们应该意识到这并不是最短的距离。3、切比雪夫距离 Chebyshev distance切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离。它通常用于仓库物流中,其中最长的路径决定了从一个点到另一个点所需的时间。fe65d6d6-5937-11ed-b116-dac502259ad0.png切比雪夫距离由l -无穷范数计算:fe75cc3a-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.chebyshev(vector_1, vector_2)

切比雪夫距离只有非常特定的用例,因此很少使用。

4、闵可夫斯基距离 Minkowski distance闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例,同时提供高灵活性。我们可以选择 p 值来找到最合适的距离度量。fe7ee90a-5937-11ed-b116-dac502259ad0.png闵可夫斯基距离的计算方法为:fe9bec6c-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.minkowski(vector_1, vector_2, p)

由于闵可夫斯基距离表示不同的距离度量,它就有与它们相同的主要缺点,例如在高维空间的问题和对特征单位的依赖。此外,p值的灵活性也可能是一个缺点,因为它可能降低计算效率,因为找到正确的p值需要进行多次计算。

5、余弦相似度和距离 Cosine similarity余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。余弦相似度通常用于与数据大小无关紧要的高维,例如,推荐系统或文本分析。feac9fd0-5937-11ed-b116-dac502259ad0.png余弦相似度可以介于-1(相反方向)和1(相同方向)之间,计算方法为:febb1ccc-5937-11ed-b116-dac502259ad0.png余弦相似度常用于范围在0到1之间的正空间中。余弦距离就是用1减去余弦相似度,位于0(相似值)和1(不同值)之间。Python代码如下from scipy.spatial import distance distance.cosine(vector_1, vector_2)

余弦距离的主要缺点是它不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异。

6、半正矢距离 Haversine distance半正矢距离测量的是球面上两点之间的最短距离。因此常用于导航,其中经度和纬度和曲率对计算都有影响。fecaeb8e-5937-11ed-b116-dac502259ad0.png半正矢距离的公式如下:fee112c4-5937-11ed-b116-dac502259ad0.png其中r为球面半径,φ和λ为经度和纬度。Python代码如下from sklearn.metrics.pairwise import haversine_distances haversine_distances([vector_1, vector_2])

半正矢距离的主要缺点是假设是一个球体,而这种情况很少出现。

7、汉明距离汉明距离衡量两个二进制向量或字符串之间的差异。feec7542-5937-11ed-b116-dac502259ad0.png对向量按元素进行比较,并对差异的数量进行平均。如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1。Python代码如下from scipy.spatial import distance distance.hamming(vector_1, vector_2)

汉明距离有两个主要缺点。距离测量只能比较相同长度的向量,它不能给出差异的大小。所以当差异的大小很重要时,不建议使用汉明距离。


统计距离测量统计距离测量可用于假设检验、拟合优度检验、分类任务或异常值检测。8、杰卡德指数和距离 Jaccard IndexJaccard指数用于确定两个样本集之间的相似性。它反映了与整个数据集相比存在多少一对一匹配。Jaccard指数通常用于二进制数据比如图像识别的深度学习模型的预测与标记数据进行比较,或者根据单词的重叠来比较文档中的文本模式。fefb9f2c-5937-11ed-b116-dac502259ad0.pngJaccard距离的计算方法为:ff13c034-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.jaccard(vector_1, vector_2)

Jaccard指数和距离的主要缺点是,它受到数据规模的强烈影响,即每个项目的权重与数据集的规模成反比。

9、Sorensen-Dice指数S?rensen-Dice指数类似于Jaccard指数,它可以衡量的是样本集的相似性和多样性。该指数更直观,因为它计算重叠的百分比。S?rensen-Dice索引常用于图像分割和文本相似度分析。ff201f5a-5937-11ed-b116-dac502259ad0.png计算公式如下:ff31b65c-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.dice(vector_1, vector_2)

它的主要缺点也是受数据集大小的影响很大。

10、动态时间规整 Dynamic Time Warping动态时间规整是测量两个不同长度时间序列之间距离的一种重要方法。可以用于所有时间序列数据的用例,如语音识别或异常检测。ff444e70-5937-11ed-b116-dac502259ad0.png为什么我们需要一个为时间序列进行距离测量的度量呢?如果时间序列长度不同或失真,则上述面说到的其他距离测量无法确定良好的相似性。比如欧几里得距离计算每个时间步长的两个时间序列之间的距离。但是如果两个时间序列的形状相同但在时间上发生了偏移,那么尽管时间序列非常相似,但欧几里得距离会表现出很大的差异。动态时间规整通过使用多对一或一对多映射来最小化两个时间序列之间的总距离来避免这个问题。当搜索最佳对齐时,这会产生更直观的相似性度量。通过动态规划找到一条弯曲的路径最小化距离,该路径必须满足以下条件:边界条件:弯曲路径在两个时间序列的起始点和结束点开始和结束单调性条件:保持点的时间顺序,避免时间倒流连续条件:路径转换限制在相邻的时间点上,避免时间跳跃整经窗口条件(可选):允许的点落入给定宽度的整经窗口坡度条件(可选):限制弯曲路径坡度,避免极端运动我们可以使用 Python 中的 fastdtw 包:from scipy.spatial.distance import euclidean from fastdtw import fastdtw ?distance, path = fastdtw(timeseries_1, timeseries_2, dist=euclidean)

动态时间规整的一个主要缺点是与其他距离测量方法相比,它的计算工作量相对较高。


总结在这篇文章中,简要介绍了十种常用的距离测量方法。本文中已经展示了它们是如何工作的,如何在Python中实现它们,以及经常使用它们解决什么问题。如果你认为我错过了一个重要的距离测量,请留言告诉我。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134889
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瑞芯微RK平台开发必备的20常用命令,帮您效率翻倍

    本文将系统地梳理飞凌嵌入式RK平台主控产品在开发过程中常用的命令,助力更多开发者快速掌握RK系列芯片的开发方法
    的头像 发表于 04-16 15:36 ?847次阅读
    瑞芯微RK平台开发必备的20<b class='flag-5'>个</b><b class='flag-5'>常用</b>命令,帮您效率翻倍

    棱镜——机器视觉系统中常见的重要配件

    棱镜——机器视觉系统中常见的重要配件
    的头像 发表于 01-15 17:36 ?570次阅读
    棱镜——<b class='flag-5'>机器</b>视觉系统<b class='flag-5'>中常</b>见的重要配件

    人工神经网络的原理和多种神经网络架构方法

    所拟合的数学模型的形式受到大脑中神经元的连接和行为的启发,最初是为了研究大脑功能而设计的。然而,数据科学中常用的神经网络作为大脑模型已经过时,现在它们只是能够在某些应用中提供最先进性能的机器学习模型。近年来,由于
    的头像 发表于 01-09 10:24 ?1303次阅读
    人工神经网络的原理和多种神经网络架构<b class='flag-5'>方法</b>

    传统机器学习方法和应用指导

    用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 ?1256次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 ?486次阅读

    什么是机器学习?通过机器学习方法能解决哪些问题?

    来源:Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的
    的头像 发表于 11-16 01:07 ?1010次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>能解决哪些问题?

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习机器
    的头像 发表于 11-15 09:19 ?1324次阅读

    eda中常用的数据处理方法

    探索性数据分析(EDA)是一种统计方法,用于使用统计图表、图形和计算来发现数据中的模式、趋势和异常值。在进行EDA时,数据处理是至关重要的,因为它可以帮助我们更好地理解数据集,为进一步的分析和建模
    的头像 发表于 11-13 10:57 ?961次阅读

    机器人没有度量信息如何导航

    机器人能否像人类一样利用有限的度量和空间信息进行导航呢?目前,大多数机器人的导航系统依赖于详细的几何地图和精确的度量定位。然而,人类通常可以凭借着抽象的、不准确的环境表示(例如手绘草图
    的头像 发表于 11-13 10:51 ?931次阅读
    <b class='flag-5'>机器</b>人没有<b class='flag-5'>度量</b>信息如何导航

    具身智能与机器学习的关系

    具身智能(Embodied Intelligence)和机器学习(Machine Learning)是人工智能领域的两重要概念,它们之间存在着密切的关系。 1. 具身智能的定义 具身智能是指智能体
    的头像 发表于 10-27 10:33 ?1112次阅读

    人工智能、机器学习和深度学习存在什么区别

    人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术,但其中一很大的子集是机器学习——让算法从数据中学习
    发表于 10-24 17:22 ?3047次阅读
    人工智能、<b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>存在什么区别

    【「时间序列与机器学习」阅读体验】时间序列的信息提取

    重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务。 特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征,从而提高机器学习
    发表于 08-17 21:12

    华为设备中常用的RIP命令及其应用

    RIP(Routing Information Protocol,路由信息协议)是一种应用广泛的距离矢量路由协议,尤其适用于中小型网络。本文将详细介绍在华为设备中常用的RIP命令及其应用,以帮助网络管理员和工程师更好地理解和配置RIP协议。
    的头像 发表于 08-12 18:10 ?1600次阅读

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    收到《时间序列与机器学习》一书,彩色印刷,公式代码清晰,非常精美。感谢作者,感谢电子发烧友提供了一让我学习时间序列及应用的机会! 前言第一段描述了编写背景: 由此可知,这是一本关于时
    发表于 08-11 17:55

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    。 ●第5章“时间序列的相似度与聚类”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两或多个时间序列在形状和模式上的相似程度;聚类算法,如K-Means、D
    发表于 08-07 23:03