0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘常用算法

工程师 ? 来源:网络整理 ? 作者:h1654155205.5246 ? 2019-04-10 16:32 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据挖掘常用算法

1、朴素贝叶斯

朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。

2、逻辑回归(logisticregression)

逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法onlinegradientdescent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。

3、最近邻算法——KNN

KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;

如何选择一个最佳的K值,这取决于数据。一般情况下,在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过各种启发式技术来获取,比如,交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。

近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值,K近邻保证错误率不会超过贝叶斯理论误差率。

4、决策树

可以处理特征间的交互关系并且是非参数化的,因此不必担心异常值或者数据是否线性可分(举个例子,决策树能轻松处理好类别A在某个特征维度x的末端,类别B在中间,然后类别A又出现在特征维度x前端的情况)。它的缺点之一就是不支持在线学习,于是在新样本到来后,决策树需要全部重建。另一个缺点就是容易出现过拟合,但这也就是诸如随机森林RF(或提升树boostedtree)之类的集成方法的切入点。另外,随机森林经常在很多分类问题上表现很好(通常比支持向量机好一些),它训练快速并且可调,同时无须担心要像支持向量机那样调一大堆参数,所以在以前一直很受欢迎。

5、Adaboosting

Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。Adaboost是一种典型的boosting算法。

6、SVM支持向量机

高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24752
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    用树莓派挖掘5种顶级加密货币!

    挖掘的最佳加密货币可通过CPU或硬盘挖掘获得。这些加密货币采用“抗ASIC”算法,树莓派能够处理并解决这些算法。我将为您介绍适合在树莓派上挖掘
    的头像 发表于 07-21 16:34 ?264次阅读
    用树莓派<b class='flag-5'>挖掘</b>5种顶级加密货币!

    物联网感知数据挖掘:赋能万物智联的核心引擎

    背后,数据挖掘与分析技术正成为解锁设备潜能、驱动产业变革的关键钥匙。 一、从数据到洞察:六大核心价值维度 1. 价值转化器:解锁设备数据的商业密码 工业传感器产生的振动频谱、智能电表的
    的头像 发表于 06-17 16:22 ?250次阅读

    达梦数据常用管理SQL命令详解

    达梦数据常用管理SQL命令详解
    的头像 发表于 06-17 15:12 ?766次阅读
    达梦<b class='flag-5'>数据</b>库<b class='flag-5'>常用</b>管理SQL命令详解

    单片机常用算法源码下载!

    单片机常用算法源码下载!
    发表于 06-10 20:44

    三一挖掘机一键启动开关易坏的原因及更换注意事项

    三一挖掘机一键启动开关易坏的原因虽然三一挖掘机的一键启动系统设计旨在提高便利性和安全性,但在实际使用中,可能会出现一些问题导致开关易坏。这些问题可能包括:频繁使用:挖掘机在施工过程中频繁启动和关闭
    发表于 03-12 09:29

    易华录智慧交管大模型实现交通数据价值的深度挖掘与应用

    易华录将多年积累的数据治理经验与DeepSeek卓越的推理能力深度融合,实现了交通数据价值的深度挖掘与应用。“DeepSeek+小易”智能引擎双驱动,让交通管控更智能、更高效,让每一位交警真切感
    的头像 发表于 03-08 13:48 ?1119次阅读

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+内容简介

    。本书力求从算法、芯片设计、软件开发等多个角度解读基础算法电路的设计,涵盖了溢出保护、有符号运算、浮点运算、位宽确定等运算电路基础知识,以及除法器、信号发生器、滤波器、小数分频器等常用基本算法
    发表于 11-21 17:14

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+介绍基础硬件算法模块

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块。 随着逆全球化趋势的出现,过去的研发
    发表于 11-21 17:05

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+一本介绍基础硬件算法模块实现的好书

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块,本书的内容比较对本人胃口。 我们先来
    发表于 11-20 13:42

    aes算法在移动应用中的应用场景

    传输敏感数据,如个人信息、账户密码、交易记录等。AES算法能够对这些数据进行加密,确保在传输过程中不被窃取或篡改。例如,在移动支付应用中,AES算法
    的头像 发表于 11-14 15:14 ?944次阅读

    aes算法数据传输中的应用

    随着信息技术的飞速发展,数据安全已成为一个日益重要的议题。AES(高级加密标准)算法作为一种广泛使用的对称加密技术,因其高效性和安全性,在数据传输领域扮演着至关重要的角色。 1. AES算法
    的头像 发表于 11-14 15:09 ?1234次阅读

    鲁棒性算法数据处理中的应用

    一、鲁棒性算法的基本概念 鲁棒性算法是指在面对数据中的异常值、噪声和不确定性时,仍能保持稳定性能的算法。这类算法的核心思想是提高
    的头像 发表于 11-11 10:22 ?1914次阅读

    名单公布!【书籍评测活动NO.46】从算法到电路 | 数字芯片算法的电路实现

    、浮点运算、位宽确定等运算电路基础知识,以及除法器、信号发生器、滤波器、小数分频器等常用基本算法电路的Matlab建模和RTL设计,可帮助数字IC设计者掌握常用算法设计思路、工具和流程
    发表于 10-09 13:43

    常用的ADC滤波算法有哪些

    ADC(模数转换器)滤波算法在信号处理中起着至关重要的作用,它们能够帮助我们提取出有用的信号,同时滤除噪声和干扰。以下是常用的ADC滤波算法详解,这些算法各具特色,适用于不同的应用场景
    的头像 发表于 10-08 14:35 ?1226次阅读

    人员轨迹分析算法有哪些?

    时段等。这些信息可以对城市规划、交通管理、公共安全等方面具有重要的指导意义。而为了实现人员轨迹分析,我们需要使用一些专门的算法和技术。 下面是几种常用的人员轨迹分析算法: 1. 基于密度的聚类
    的头像 发表于 09-26 10:42 ?975次阅读