0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统机器学习方法和应用指导

上海生物芯片 ? 来源:上海生物芯片 ? 2024-12-30 09:16 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。

01

传统机器学习

传统机器学习,一般指不基于神经网络的算法,适合用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比,传统方法在给定问题上的开发和测试速度更快。开发深度神经网络的架构并进行训练是一项耗时且计算成本高昂的任务,而传统的支持向量机(SVM)和随机森林等模型则相对简单。此外,在深度神经网络中估计特征重要性(即每个特征对预测的贡献程度)或模型预测的置信度仍然不是一件容易的事。即使使用深度学习模型,通常仍应训练一个传统方法,与基于神经网络的模型进行比较。

传统方法通常期望数据集中的每个样本具有相同数量的特征,但是生物学检测数据很难满足这个需求。举例说明,当使用蛋白质、RNA的表达水平矩阵时,每个样本表达的蛋白质、RNA数量不同。为了使用传统方法处理这些数据,可以通过简单的技术(如填充和窗口化)将数据调整为相同的大小。“填充”意味着将每个样本添加额外的零值,直到它与数据集中最大的样本大小相同。相比之下,窗口化将每个样本缩短到给定的大小(例如,使用在所有样品中均表达的蛋白质、RNA)。

5ed086d2-c36d-11ef-9310-92fbcf53809c.png

表1. 传统机器学习方法比较

02

回归模型

对于回归问题,岭回归(带有正则化项的线性回归)通常是开发模型的良好起点。因为它可以为给定任务提供快速且易于理解的基准。当希望减少模型依赖的特征数时,比如筛选生物标志物研究时,其他线性回归变体如LASSO回归和弹性网络回归也是值得考虑的。数据中特征之间的关系通常是非线性的,因此在这种情况下使用如支持向量机(SVM)的模型通常是更合适的选择。SVM是一种强大的回归和分类模型,它使用核函数将不可分的问题转换为更容易解决的可分问题。根据使用的核函数,SVM可以用于线性回归和非线性回归。一个开发模型的好方法是训练一个线性SVM和一个带有径向基函数核的SVM(一种通用的非线性SVM),以量化非线性模型是否能带来任何增益。非线性方法可以提供更强大的模型,但代价是难以解释哪些特征在影响模型。

03

分类模型

许多常用的回归模型也用于分类。对于分类任务,训练一个线性SVM和一个带有径向基函数核的SVM也是一个好的默认起点。另一种可以尝试的方法是k近邻分类(KNN)。作为最简单的分类方法之一,KNN提供了与其他更复杂的模型(如SVM)进行比较的有用基线性能指标。另一类强大的非线性方法是基于集成的模型,如随机森林和XGBoost。这两种方法都是强大的非线性模型,具有提供特征重要性估计和通常需要最少超参数调优的优点。由于特征重要性值的分配和决策树结构,这些模型可分析哪些特征对预测贡献最大,这对于生物学理解至关重要。

无论是分类还是回归,许多可用的模型都有令人眼花缭乱的变体。试图预测特定方法是否适合特定问题可能会有误导性,因此采取经验性的试错方法来找到最佳模型是明智的选择。选择最佳方法的一个好策略是训练和优化上述多种方法,并选择在验证集上表现最好的模型,最后再在独立的测试集上比较它们的性能。

04

聚类模型和降维

聚类算法在生物学中广泛应用。k-means是一种强大的通用聚类方法,像许多其他聚类算法一样,需要将聚类的数量设置为超参数。DBSCAN是一种替代方法,不需要预先定义聚类的数量,但需要设置其他超参数。在聚类之前进行降维也可以提高具有大量特征的数据集的性能。

降维技术用于将具有大量属性(或维度)的数据转换为低维形式,同时尽可能保留数据点之间的不同关系。例如,相似的数据点(如两个同源蛋白序列)在低维形式中也应保持相似,而不相似的数据点(如不相关的蛋白序列)应保持不相似。通常选择两维或三维,以便在坐标轴上可视化数据,尽管在机器学习中使用更多维度也有其用途。这些技术包括数据的线性和非线性变换。生物学中常见的例子包括主成分分析(PCA)、均匀流形逼近和投影(UMAP)以及t分布随机邻域嵌入(t-SNE)。

5f95bb50-c36d-11ef-9310-92fbcf53809c.png

图1. 各种传统机器学习模型

本文详细介绍了传统机器学习方法和应用指导,下一篇文章将介绍深度神经网络算法模型,敬请期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104053
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134844

原文标题:生物学家的机器学习指南(三)

文章出处:【微信号:SBCNECB,微信公众号:上海生物芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ARM入门学习方法分享

    。 以下是一些入门学习方法的分享: 一、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一种精简指令集计算机(RISC
    发表于 07-23 10:21

    扫地机器人EMC整改:传统方法VS新技术的高效解决方案

    南柯电子|扫地机器人EMC整改:传统方法VS新技术的高效解决方案
    的头像 发表于 06-10 11:00 ?362次阅读
    扫地<b class='flag-5'>机器</b>人EMC整改:<b class='flag-5'>传统</b><b class='flag-5'>方法</b>VS新技术的高效解决方案

    第一章 W55MH32 高性能以太网单片机的学习方法概述

    本章介绍W55MH32的学习方法,建议先了解硬件资源,按基础篇、入门篇循序渐进学习。参考两份手册,提供例程资料,还给出官网、github 等学习资料查找渠道。让我们一起踏上W55MH32高性能以太网单片机的
    的头像 发表于 05-26 09:07 ?157次阅读
    第一章 W55MH32 高性能以太网单片机的<b class='flag-5'>学习方法</b>概述

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 ?742次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    一种无刷直流电机霍耳信号与定子绕组关系自学习方法

    的关系。提出了一种无刷直流电机霍耳信号与定子绕组关系自学习方法,该方法通过不同的绕组通电组合将电机转子依次转到6个不同的位置并记录对应的霍耳信号,然后得出霍耳信号与定子绕组的对应关系。所提出的方法快速
    发表于 03-25 15:15

    DeepSeek与Kimi揭示o1秘密,思维链学习方法显成效

    据消息,OpenAI近日发布了一项重要研究报告。报告指出,DeepSeek和Kimi两家机构通过独立研究,成功利用思维链学习方法,在数学解题与编程挑战中显著提升了模型的综合表现。 Kimi的研究员
    的头像 发表于 02-18 15:13 ?506次阅读

    什么是机器学习?通过机器学习方法能解决哪些问题?

    来源:Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的
    的头像 发表于 11-16 01:07 ?1007次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>能解决哪些问题?

    NPU与机器学习算法的关系

    紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)项目中提出,旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率,特别是在处理大规模数据集和复杂神经网络模型时。与
    的头像 发表于 11-15 09:19 ?1320次阅读

    LLM和传统机器学习的区别

    在人工智能领域,LLM(Large Language Models,大型语言模型)和传统机器学习是两种不同的技术路径,它们在处理数据、模型结构、应用场景等方面有着显著的差异。 1. 模型结构
    的头像 发表于 11-08 09:25 ?1991次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源
    的头像 发表于 11-05 17:34 ?1087次阅读

    麻省理工学院推出新型机器人训练模型

    近日,据TechCrunch报道,麻省理工学院的研究团队展示了一种创新的机器人训练模型,该模型突破了传统模仿学习方法的局限,不再依赖标准数据集,而是借鉴了大型语言模型(LLM)如GPT-4等所使用的大规模信息处理方式,为
    的头像 发表于 11-04 14:56 ?984次阅读

    AI大模型与传统机器学习的区别

    AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍: 一、模型规模与复杂度 AI大模型 :通常包含数十亿甚至数万亿的参数,模型大小可以达到数百GB甚至更大。这些模型结构复杂,由
    的头像 发表于 10-23 15:01 ?2698次阅读

    嵌入式学习建议

    学习目的,并注意学习方法。要明确学习目的是打基础,还是为了适应工作需要而进行的短训。学习方法方面,要根据学习目的选择合适的
    发表于 10-22 11:41

    【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

    的交织中不断成长。 读者对这本书的评价普遍很高。他们称赞作者用通俗易懂的语言将复杂的概念解释得透彻清晰,即使是初学者也能轻松入门。同时,书中丰富的案例和详细的步骤指导也让读者快速积累经验,提高实战技能。甚至有读者表示,这本书已经成为时间序列分析、机器
    发表于 08-12 11:28

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    学习方法对该序列数据进行分析,可以得到结论或预测估计,因此时间序列分析的用途是非常多的,比如: 可以反映社会经济现象的发展变化过程,描述现象的发展状态和结果。 可以研究社会经济现象的发展趋势和发展速度
    发表于 08-11 17:55