0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

K-MEANS聚类算法概述及工作原理

NVIDIA英伟达 ? 来源:NVIDIA英伟达 ? 作者:NVIDIA英伟达 ? 2022-06-06 11:53 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

K-means 是一种聚类算法,且对于数据科学家而言,是简单且热门的无监督式机器学习(ML)算法之一。

什么是 K-MEANS?

无监督式学习算法尝试在无标记数据集中“学习”模式,发现相似性或规律。常见的无监督式任务包括聚类和关联。K-means 等聚类算法试图通过分组对象来发现数据集中的相似性,与不同集群间的对象相似性相比,同一集群中对象之间的相似性更高。使用最小距离、数据点密度、图形或各种统计分布等标准将其分组为集群。

K-means 通过最小化几何点之间的平均距离将相似数据点分组成集群。为此,它以迭代方式将数据集分为非重叠子组(或集群)的固定数量 (K),其中每个数据点均属于集群中心均值最近的集群。

为何选择 K-MEANS?

K-means 是一种聚类算法,部署后可用于发现数据中尚未明确标记的组。目前,它已广泛应用于各种商业应用,包括:

客户分割:可以对客户进行分组,以便更好地定制产品。

文本、文档或搜索结果聚类:分组以查找文本中的主题。

图像分组或图像压缩:图像或颜色相似的组。

异常检测:从集群中找出不相似的地方或异常值

半监督式学习:将集群与一组较小的已标记数据和监督式机器学习相结合,以获得更有价值的结果。

K-MEANS 的工作原理

K-means 算法能够识别数据集中一定数量的中心,而中心属于特定集群所有数据点的算术平均值。然后,算法将每个数据点分配给最近的集群,因为其尝试保持尽可能小的集群(K-means 中的“means”是指计算数据平均值或查找中心的任务)。同时,K-means 尝试保持其他集群尽可能不同。

在实践中,其工作原理如下:

K-means 算法首先将所有坐标初始化为“K”集群中心。(K 值是一个输入变量,位置也可以作为输入变量。)

每经过一次算法,每个点都会分配给其最近的集群中心。

然后,集群中心会被更新为在该经过中分配给其的所有点的“中心”。这是通过重新计算集群中心作为各自集群中点的平均值来实现的。

算法会重复执行,直到上次迭代的集群中心发生最小变化。

如果集群呈现一致的球形形状,说明 K-means 在捕获结构和进行数据推理方面非常有效。但是,如果集群呈现更复杂的几何形状,那就说明算法在数据聚类方面做得不好。K-means 的另一个缺点是,该算法不允许彼此距离较远的数据点共享同一集群,而不管它们是否属于该集群。K-means 本身不会从数据中了解到集群数量,而是必须预先定义信息。最后,当集群之间出现重叠时,K-means 无法确定如何分配重叠位置的数据点。

适用于数据科学家的 K-MEANS

由于其内在的简单性以及在无监督机器学习操作中的普及,K-means 在数据科学家中大受青睐。尽管该算法存在局限性,但其在数据挖掘操作中的适用性允许数据科学家利用该算法从业务数据中衍生出各种推理,实现更准确的数据驱动决策。它被广泛认为是数据科学家最具商业重要性的算法之一。

使用 GPU 加速聚类

聚类在各种应用程序中发挥着关键作用,但由于数据量不断增加,其正面临着计算挑战。解决计算难题的极具前景的解决方案之一,即使用 GPU 进行并行计算。

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。GPU 具有大规模并行性,并且显存访问带宽优势显著,因此十分适用于加速数据密集型分析。

GPU 加速的端到端数据科学

基于 CUDA 构建的 RAPIDS 开源软件库套件使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

RAPIDS cuML 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 K-means、XGBoost 等主流算法。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性是通过 Apache Arrow 这样的库实现的。这可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 支持在许多热门数据科学库之间共享设备内存。这样可将数据保留在 GPU 上,并省去了来回复制主机内存的高昂成本。

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11099

    浏览量

    217758
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106658
  • 算法
    +关注

    关注

    23

    文章

    4716

    浏览量

    95765
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134901

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    光伏建筑一体化BIPV:透射率与光伏发电效率的应用研究

    关键变量,通过仿真评估采光充足度(sDA)、眩光空间自主率(sGA)和光伏发电效率(EP_e)并寻找帕累托最优解。最后采用K-means算法对结果进行分析。Fl
    的头像 发表于 07-22 09:52 ?961次阅读
    光伏建筑一体化BIPV:透射率与光伏发电效率的应用研究

    微动开关的工作原理

    微动开关的工作原理
    的头像 发表于 04-17 09:00 ?1387次阅读

    开关电源的基本工作原理

    开关电源的工作原理 图1-1-a 是串联式开关电源的最简单工作原理图,图1-1-a 中 Ui 是开关电源的工作电压,即:直流输入电压;K 是控制开关,R 是负载。当控制开关
    发表于 03-10 17:01

    九种常见换热器的工作原理概述

    接触式换热器,也叫混合式换热器,是冷热流体进行直接接触并换热的设备。通常情况下,直接接触的两种流体是气体和汽化压力较低的液体; ?蓄能式换热器的工作原理,是利用固体物质的导热特性,具体而言,热介质先将固体物质加热到一定温
    的头像 发表于 02-13 11:11 ?1535次阅读
    九种常见换热器的<b class='flag-5'>工作原理</b><b class='flag-5'>概述</b>

    数据降维工具介绍——SpatialPCA

    现有常用的空间转录组降维方法,如主成分分析(principal component analysis,PCA)、非负矩阵分解(non-negative matrix factorization
    的头像 发表于 02-07 11:19 ?672次阅读
    数据降维<b class='flag-5'>聚</b><b class='flag-5'>类</b>工具介绍——SpatialPCA

    晶振的工作原理概述

    类似电容的结构。当外界施加电压时,由于石英晶体的压电效应,它会发生微小的形变,反之,当晶体受到外力作用发生形变时,又会在其表面产生电荷,这种相互转换的特性构成了晶振工作的基础。 晶振的工作原理基于压电谐振现象
    的头像 发表于 02-05 14:08 ?676次阅读

    K型热电偶的工作原理

    K型热电偶的工作原理基于热电效应,也称为塞贝克效应。以下是对其工作原理的介绍: 一、组成结构 K型热电偶由两种不同的金属材料制成,通常是镍铬合金(作为正极)和镍硅合金(作为负极)。这两
    的头像 发表于 01-14 09:34 ?2378次阅读

    DSR算法工作原理 影响DSR的主要因素

    达目的地的路由,并且能够适应网络拓扑的变化。 DSR算法工作原理: 路由发现(Route Discovery) : 当源节点需要发送数据到一个目的地,但是没有可用的路由时,它会启动路由发现过程。 源
    的头像 发表于 12-06 17:10 ?2352次阅读

    防爆电机是什么?它的工作原理是什么?

    的介绍和工作原理: 防爆电机的定义和分类 防爆电机是一种在易燃易爆环境中使用的电动机,其设计和制造遵循严格的安全标准。防爆电机的分类主要有以下几种: a) 按防爆等级分类:防爆电机按照防爆等级分为I、II和III
    的头像 发表于 10-25 09:43 ?1750次阅读

    辅助电源的工作原理

     辅助电源的工作原理主要涉及在主电源发生故障或不稳定时,自动切换到备用电源,以保证设备的持续供电。以下是关于辅助电源工作原理的详细解释:
    的头像 发表于 10-21 14:56 ?1359次阅读

    锌银电池的工作原理

    锌银电池的工作原理主要基于锌和银两种金属之间的氧化还原反应。以下是锌银电池工作原理的详细解释:
    的头像 发表于 10-03 14:59 ?3822次阅读

    人员轨迹分析算法有哪些?

    时段等。这些信息可以对城市规划、交通管理、公共安全等方面具有重要的指导意义。而为了实现人员轨迹分析,我们需要使用一些专门的算法和技术。 下面是几种常用的人员轨迹分析算法: 1. 基于密度的
    的头像 发表于 09-26 10:42 ?976次阅读

    交流放大器的工作原理是什么

    交流放大器的工作原理主要涉及对交流信号的放大过程,同时保持信号的波形和频率不变。以下是交流放大器工作原理的介绍: 一、概述 交流放大器是一种电子电路,用于放大交流信号的幅度,同时保持信号的波形和频率
    的头像 发表于 09-26 09:17 ?1483次阅读

    触摸开关弹簧的工作原理是什么

    触摸开关弹簧的工作原理涉及到机械工程、电子工程和材料科学等多个领域。 触摸开关弹簧的工作原理概述 1. 机械结构 触摸开关通常由以下几个部分组成: 弹簧 :提供必要的弹性力,使开关在未被触摸时保持在
    的头像 发表于 09-11 14:58 ?5627次阅读

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    。 ●第5章“时间序列的相似度与”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;
    发表于 08-07 23:03