0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

应用深度学习分析提高基因组分析的准确性

Tensorflowers ? 来源:TensorFlow ? 作者:Howard Yang ? 2021-05-14 09:49 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

发布人:Google Health Genomics 产品负责人 Andrew Carroll 和 Genomics 项目经理 Howard Yang

Google Health 的 Genomics 团队很高兴分享我们对 DeepVariant 的最新扩展 - DeepTrio。

DeepVariant 于 2017 年首次发布,是一种开源工具,支持研究人员和临床医生分析个人的基因组测序数据并识别基因变异,如可导致疾病的变异片段。我们在 DeepVariant 方面的持续研究因其一流的准确性而获得肯定。借助 DeepTrio,我们扩展了 DeepVariant,从而能够在分析母亲-父亲-子女三人的基因序列数据时考量基因变异。

人类是二倍体生物,携带人类基因组的两个副本。每个个体都分别继承了来自母亲和父亲的一个基因组副本。父母遗传信息有助于分析符合孟德尔遗传规律的特征和疾病。DeepTrio 学习直接在测序数据中使用孟德尔遗传的特性,以便在可以共同分析父母和子女样本的情况下更准确地识别基因变异。

修改 DeepVariant 以分析三人样本

DeepVariant 学习到如何将基因组中的位置分类为参考或者“基因组浏览器”(相关专家用于分析的工具)中数据表示的变种。“《使用 DeepVariant1.0 提高基因组分析的准确性》(Improving the Accuracy of Genomic Analysis with DeepVariant 1.0)”一文很好地概述了有关内容。

使用 DeepVariant1.0 提高基因组分析的准确性

https://ai.googleblog.com/2020/09/improving-accuracy-of-genomic-analysis.html

DeepVariant 接收数据作为以候选变异为中心的基因组窗口,并且按照要求将数据分类为参考(无变异)、杂合子(变异的一个副本)或纯合子(两个副本均为变异)。DeepVariant 将序列证据视为代表数据特征的通道(请参阅“《透过 DeepVariant 深入观察》(Looking through DeepVariant’s eyes)”获取更深入解释)。

透过 DeepVariant 深入观察

我们修改了 DeepTrio,以在单个图像中表示来自三人的序列数据,其中每个样本的高度固定,子女的数据置于中间。我们使用来自美国国家标准与技术研究院 (NIST) 瓶中基因组联盟 (GIAB) 的黄金标准样本作为真实标签,训练一个模型调用子女样本中的变异,并训练另一个模型调用顶部父母样本中的变异。为调用父母双方的样本,我们翻转父母样本的位置。

衡量 DeepTrio 提高的准确性

我们研究发现,对于父母和子女变异检测,DeepTrio 比 DeepVariant 更准确,在覆盖率较低的情况下具有特别明显的优势。这使研究人员能够以更高的准确性分析样本,或者在显著降低费用的同时保持相当的准确性。

为评估 DeepTrio 的准确性,我们借助 NIST 瓶中基因组联盟提供的涵盖广泛特征的黄金标准,将其与 DeepVariant 的准确性进行比较。为获得在训练中从未见过的评估数据集,我们在训练中排除了 20 号染色体,并对 20 号染色体进行了评估。

我们训练 DeepVariant 和 DeepTrio,以对来自两种不同仪器 Illumina 和 Pacific Biosciences (PacBio) 的数据进行测序。如要详细了解这些技术之间的差异,请参见我们之前的博客。这些测序仪均以容易错误的方式随机采样基因组。为准确分析基因组,我们需要重复采样相同区域。在某个位置的采样深度称为覆盖范围。以近似线性的方式测序来覆盖更大的范围将导致成本更高。因此我们经常需要在成本、准确性和测序样本之间进行权衡。而权衡的结果是,在三人样本中,父母样本通常以较低的深度进行测序。

在下方图表中,我们绘制了一系列不同覆盖范围中 DeepTrio 和 DeepVariant 的准确性。

00077b0a-b42c-11eb-bf61-12bb97331649.png

001e90f6-b42c-11eb-bf61-12bb97331649.png

图 2.子女样本(顶部)和父母样本(底部)上 DeepTrio(实线)和 DeepVariant(虚线)的 F1 得分,使用 Illumina(蓝色)和 PacBio(黑色)仪器进行测序。在具有一系列测序覆盖范围(x 轴)的样本中,对 20 号染色体上所有类型的小变异进行 F1 测量

DeepTrio 在 de novo 变异上的表现

相对于人类参考基因组,每个人大约有 500 万处变异,其中绝大多数从父母处继承而来。一小部分(大约 100 处)是新变异(称为 de novo),由 DNA 复制过程中的复制错误导致。我们的研究证明,DeepTrio 大大减少了 de novo 变异检测的假阳性情况。对于 Illumina 数据,其真阳性回收率的下降幅度较小,而对于 PacBio 数据,这种权衡不会发生。

为评估准确性,我们分析了父母两人都被称为非变异但子女被称为杂合变异的位点。我们观察到 DeepTrio 更不愿意将变异命名为 de novo,这类似于人类对于违反孟德尔遗传规律的位点,需要获得更高水平的证据。因此,此类 de novo 变异的假阳性率低得多,但 DeepTrio Illumina 的召回率则略低。通常,在发生这种情况时,子女的样本仍将称作变异,但父母样本则给予“不调用”的判断(分类器没有足够的信心进行调用)。

促进罕见病研究

通过将 DeepTrio 作为开源软件发布,我们希望这一软件能够支持科学家更准确地分析样本,进而提升对基因组数据的分析能力。我们希望这能促进研究和临床开发,进而更好地解析罕见病病例,并改进治疗方法的开发。

除了将 DeepTrio 的代码作为开放源代码发布之外,我们还发布了为训练这些模型而生成的测序数据。这些数据会在预印本“《用于基准测试和开发的黄金标准样本的广泛序列数据集》(An Extensive Sequence Dataset of Gold-Standard Samples for Benchmarking and Development)”中加以说明。通过发布该生产模型和训练相似复杂度模型所需的数据,我们希望能为基因组学界的方法开发做出贡献。

原文标题:应用深度学习分析家庭基因组数据

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3755

    浏览量

    44009
  • 深度学习
    +关注

    关注

    73

    文章

    5564

    浏览量

    122964

原文标题:应用深度学习分析家庭基因组数据

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    测缝计测量数据的准确性和校准方法解析

    在结构物安全监测领域,数据准确性是评估工程健康状态的核心依据。振弦式测缝计作为主流裂缝监测设备,其测量精度直接影响裂缝发展趋势的判断。那么如何确保测缝计测量数据的准确性以及如何校准?下面是南京峟思给
    的头像 发表于 07-07 13:56 ?170次阅读
    测缝计测量数据的<b class='flag-5'>准确性</b>和校准方法解析

    存储示波器的存储深度对信号分析有什么影响?

    。以下从技术原理、实际影响及优化策略三方面展开分析。一、存储深度对信号分析的核心影响1. 时域信号完整 边沿细节捕捉能力 高频信号边沿:如100MHz时钟信号的上升沿/下降沿时间通
    发表于 05-27 14:39

    如何使用POT准确性检查器?

    :95:0.00% 分辨率视觉对象等级挑战 (VOC) 数据集未经英特尔验证。如 Yolo-v4-tf 文档 中所提到,英特尔已使用上下文中常见的对象 (COCO) 数据集验证了准确性。通过
    发表于 03-06 08:04

    如何提高OTDR测试的准确性

    OTDR(光时域反射仪)是光缆线路故障定位和光纤特性测量的重要工具,提高OTDR测试的准确性对于确保光缆线路的稳定运行至关重要。以下是一些提高OTDR测试准确性的方法: 一、
    的头像 发表于 12-31 09:25 ?1166次阅读

    如何提高电位测量准确性

    在电子工程和物理实验中,电位测量是一项基本而重要的任务。电位测量的准确性直接影响到实验结果的可靠和产品的安全。 1. 选择合适的测量设备 选择合适的测量设备是提高电位测量
    的头像 发表于 12-28 13:56 ?810次阅读

    如何提升ASR模型的准确性

    提升ASR(Automatic Speech Recognition,自动语音识别)模型的准确性是语音识别技术领域的核心挑战之一。以下是一些提升ASR模型准确性的关键方法: 一、优化数据收集与处理
    的头像 发表于 11-18 15:14 ?2456次阅读

    如何维护电流互感器的准确性

    电流互感器是电力系统中不可或缺的组成部分,它们负责将高电流转换为低电流,以便进行测量和保护。为了确保电力系统的稳定运行,电流互感器的准确性至关重要。 1. 电流互感器的工作原理 电流互感器
    的头像 发表于 11-05 09:58 ?964次阅读

    GPU深度学习应用案例

    能力,可以显著提高图像识别模型的训练速度和准确性。例如,在人脸识别、自动驾驶等领域,GPU被广泛应用于加速深度学习模型的训练和推理过程。 二、自然语言处理 自然语言处理(NLP)是
    的头像 发表于 10-27 11:13 ?1495次阅读

    如何评估 ChatGPT 输出内容的准确性

    评估 ChatGPT 输出内容的准确性是一个复杂的过程,因为它涉及到多个因素,包括但不限于数据的质量和多样、模型的训练、上下文的理解、以及输出内容的逻辑一致。以下是一些评估 ChatGPT 输出
    的头像 发表于 10-25 17:48 ?1209次阅读

    如何保证测长机测量的准确性

    可以通过以下方法保证测长机测量的准确性:一、设备方面1.定期校准按照规定的时间间隔,将测长机送往专业的计量机构或使用标准器进行校准。校准可以确定测长机的测量误差,并对其进行调整,确保测量结果的准确性
    的头像 发表于 10-25 16:16 ?949次阅读
    如何保证测长机测量的<b class='flag-5'>准确性</b>?

    AI大模型与深度学习的关系

    人类的学习过程,实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大,需要庞大的计算资源来进行训练和推理。深度学习算法为AI大模型提供了核心的技术支撑,使得大模型能够更好地拟
    的头像 发表于 10-23 15:25 ?2984次阅读

    如何利用数字化技术提高PMC管理的效率和准确性

    随着数字化技术的迅猛发展,如何利用这些先进技术来提升PMC管理的效率和准确性,已成为众多企业关注的焦点。本文,深圳天行健企业管理咨询公司将深入探讨如何利用数字化技术,为PMC管理插上智能的翅膀,实现
    的头像 发表于 10-19 17:53 ?658次阅读

    【飞凌嵌入式OK3576-C开发板体验】RKNPU图像识别测试

    、智能监控摄像头、智能穿戴设备等物联网应用的智能化和自动化。 医疗健康 :在医学影像分析、疾病诊断、基因组学等领域加速大规模数据的处理和分析提高诊断的
    发表于 10-10 09:27

    基于VSS软件的汽车座椅舒适仿真分析

    本文介绍了应用ESI的Virtual Seat Solution(VSS)对汽车座椅舒适仿真分析。在设计前期对座椅H点及静态舒适进行分析,并通过实验对标,确定了
    的头像 发表于 09-20 14:37 ?1380次阅读
    基于VSS软件的汽车座椅舒适<b class='flag-5'>性</b>仿真<b class='flag-5'>分析</b>

    HPLC数据怎么分析处理

    高效液相色谱(HPLC)是一种常用的分析技术,广泛应用于化学、生物、医药、食品等领域。HPLC数据分析处理是实验过程中非常重要的一环,对于实验结果的准确性和可靠性具有重要意义。 一、HPLC数据
    的头像 发表于 08-08 10:54 ?3661次阅读