0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能科普:数据质量在 ML Ops 工作流中的关键作用

如意 ? 来源:机器之心 ? 作者:机器之心 ? 2020-10-15 11:56 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ML Ops 是 AI 领域中一个相对较新的概念,可解释为「机器学习操作」。如何更好地管理数据科学家和操作人员,以便有效地开发、部署和监视模型?其中数据质量至关重要。

本文将介绍 ML Ops,并强调数据质量在 ML Ops 工作流中的关键作用。

ML Ops 的发展弥补了机器学习与传统软件工程之间的差距,而数据质量是 ML Ops 工作流的关键,可以加速数据团队,并维护对数据的信任。

什么是 ML Ops

ML Ops 这个术语从 DevOps 演变而来。

DevOps 是一组过程、方法与系统的统称,用于促进开发(应用程序 / 软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。DevOps 旨在重视软件开发人员(Dev)和 IT 运维技术人员(Ops)之间沟通合作的文化、运动或惯例。透过自动化软件交付和架构变更的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠。

而 MLOps 基于可提高工作流效率的 DevOps 原理和做法,例如持续集成、持续交付和持续部署。ML Ops 将这些原理应用到机器学习过程,其目标是:

更快地试验和开发模型

更快地将模型部署到生产环境

质量保证

DevOps 的常用示例是使用多种工具对代码进行版本控制,如 git、代码审查、持续集成(CI,即频繁地将代码合并到共享主线中)、自动测试和持续部署(CD,即自动将代码合并到生产环境)。

在应用于机器学习时,ML Ops 旨在确保模型输出质量的同时,加快机器学习模型的开发和生产部署。但是,与软件开发不同,ML 需要处理代码和数据:

机器学习始于数据,而数据来源不同,需要用代码对不同来源数据进行清洗、转换和存储。

然后,将处理好的数据提供给数据科学家,数据科学家进行代码编写,完成特征工程、开发、训练和测试机器学习模型,最终将这些模型部署到生产环境中。

在生产中,ML 模型是以代码的形式存在的,输入数据同样可以从各种来源获取,并创建用于输入产品和业务流程的输出数据。

人工智能科普:数据质量在 ML Ops 工作流中的关键作用

虽然上文的描述对该过程进行了简化,但是仍然可以看出代码和数据在 ML 环境中是紧密耦合的,而 ML Ops 需要兼顾两者。

具体来说,这意味着 ML Ops 包含以下任务:

对用于数据转换和模型定义的代码进行版本控制;

在投入生产之前,对所获取的数据和模型代码进行自动测试;

在稳定且可扩展的环境中将模型部署到生产中;

监控模型性能和输出。

数据测试和文档记录如何适配 ML Ops?

ML Ops 旨在加速机器学习模型的开发和生产部署,同时确保模型输出的质量。当然,对于数据质量人员来说,要实现 ML 工作流中各个阶段的加速和质量,数据测试和文档记录是非常重要的:

在利益相关者方面,质量差的数据会影响他们对系统的信任,从而对基于该系统做出决策产生负面影响。甚至更糟的是,未引起注意的数据质量问题可能导致错误的结论,并纠正这些问题又会浪费很多时间。

在工程方面,急于修复下游消费者注意到的数据质量问题,是消耗团队时间并缓慢侵蚀团队生产力和士气的头号问题之一。

此外,数据文档记录对于所有利益相关者进行数据交流、建立数据合同至关重要。

下文将从非常抽象的角度介绍 ML pipeline 中的各个阶段,并讨论数据测试和文档记录如何适应每个阶段。

1. 数据获取阶段

即使是在数据集处理的早期阶段,从长远来看,对数据进行质量检查和文档记录可以极大地加速操作。对于工程师来说,可靠的数据测试非常重要,可以使他们安全地对数据获取 pipeline 进行更改,而不会造成不必要的问题。同时,当从内部和外部上游来源获取数据时,为了确保数据出现未预料的更改,在获取阶段进行数据验证是非常重要的。

2. 模型开发

本文将特征工程、模型训练和模型测试作为核心模型开发流程的一部分。在这个不断迭代的过程中,围绕数据转换代码和支持数据科学家的模型输出提供支持,因此在一个地方进行更改不会破坏其他地方的内容。

在传统的 DevOps 中,通过 CI/CD 工作流进行持续的测试,可以快速地找出因代码修改而引入的任何问题。更进一步,大多数软件工程团队要求开发人员不仅要使用现有的测试来测试代码,还要在创建新功能时添加新的测试。同样,运行测试以及编写新的测试应该是 ML 模型开发过程的一部分。

3. 在生产中运行模型

与所有 ML Ops 一样,在生产环境中运行的模型依赖于代码和输入数据,来产生可靠的结果。与数据获取阶段类似,我们需要保护数据输入,以避免由于代码更改或实际数据更改而引起的不必要问题。同时,我们还应该围绕模型输出进行一些测试,以确保模型继续满足我们的期望。

尤其是在具有黑盒 ML 模型的环境中,建立和维护质量标准对于模型输出至关重要。同样地,在共享区域记录模型的预期输出可以帮助数据团队和利益相关者定义和传达「数据合同」,从而增加 ML pipeline 的透明度和信任度。

人工智能科普:数据质量在 ML Ops 工作流中的关键作用

原文链接:https://greatexpectations.io/blog/ml-ops-data-quality/
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7270

    浏览量

    92493
  • 人工智能
    +关注

    关注

    1810

    文章

    49251

    浏览量

    252071
  • 机器学习
    +关注

    关注

    66

    文章

    8517

    浏览量

    135168
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于人工智能处理器的11个误解

    应用,以及哪些是真实情况而哪些只是炒作,仍存在诸多误解。GPU是最佳的人工智能处理器尽管GPU人工智能的实现过程中发挥了关键作用,而且如今它们的应用也极为广泛,但将其推
    的头像 发表于 08-07 13:21 ?573次阅读
    关于<b class='flag-5'>人工智能</b>处理器的11个误解

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    可以广泛的传感器网络的每个节点上进行人工智能处理,而在这种网络,传感器的尺寸和成本是关键,空间也非常宝贵。
    发表于 07-31 11:38

    工业相机焊缝跟踪关键作用有哪些

    与形态,帮助系统动态调整焊枪轨迹,实现高精度、高效率的自动化焊接,今天一起了解工业相机焊缝跟踪关键作用有哪些。 焊接挑战与视觉需求 传统焊接
    的头像 发表于 05-13 17:56 ?280次阅读
    工业相机<b class='flag-5'>在</b>焊缝跟踪<b class='flag-5'>中</b>的<b class='flag-5'>关键作用</b>有哪些

    PoE交换机安防监控系统关键作用

    交换机安防监控系统关键作用。 什么是PoE交换机? PoE交换机是一种通过单根以太网线缆同时为网络设备提供数据传输和电源的设备,常用于IP摄像机、无线接入点(AP)和VoI
    发表于 03-24 16:41

    水稳拌合站智能监测管理系统水稳拌合站质量管理起到关键作用

    分析和统计展示功能,成为提升水稳站质量的重要技术工具。本文将探讨智能监测管理系统水稳站关键作用,并分析其系统优势。 ??????1、
    的头像 发表于 02-19 09:13 ?385次阅读

    AI工作流自动化是做什么的

    AI工作流自动化是指利用人工智能技术,对工作流的重复性、规则明确的任务进行自动化处理的过程。那么,AI工作流自动化是做什么的呢?接下来,
    的头像 发表于 01-06 17:57 ?889次阅读

    数据科学工作流原理

    数据科学工作流包括数据收集、数据预处理、数据探索与可视化、特征选择与工程、模型选择与训练、模型评估与优化、结果解释与报告、部署与监控等环节。
    的头像 发表于 11-20 10:36 ?660次阅读

    嵌入式和人工智能究竟是什么关系?

    。 此外,嵌入式系统人工智能算法优化和部署也起到了关键作用。通过将人工智能算法部署到嵌入式设备,我们可以实现对算法的灵活优化和调整,以
    发表于 11-14 16:39

    soc人工智能的创新应用

    社会计算(Social Computing, SOC)是一个跨学科领域,它结合了社会科学、计算机科学和人工智能,以理解和设计社会互动的技术系统。随着人工智能(AI)技术的发展,SOC
    的头像 发表于 11-10 09:30 ?1103次阅读

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    了电力的实时平衡和优化,有效降低了电网的运行成本和故障率。 此外,书中还讨论了人工智能在能源科学研究的挑战和机遇。这些挑战包括数据质量、算法优化、隐私保护等方面,而机遇则体现在技术创
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    人工智能在科学研究的核心技术,包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石,使得AI能够处理和分析复杂的数据集,从而发现隐藏在数据
    发表于 10-14 09:16

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    。 5. 展望未来 最后,第一章让我对人工智能驱动的科学创新未来充满了期待。随着技术的不断进步和应用场景的拓展,AI将在更多领域发挥关键作用,从基础科学到应用科学,从理论研究到实践应用,都将迎来前所未有
    发表于 10-14 09:12

    risc-v人工智能图像处理应用前景分析

    定制性。这些特点使得RISC-V多个领域,包括人工智能图像处理领域,具有显著的优势。 二、RISC-V人工智能图像处理的优势 开源性和
    发表于 09-28 11:00

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    大力发展AI for Science的原因。 第2章从科学研究底层的理论模式与主要困境,以及人工智能三要素(数据、算法、算力)出发,对AI for Science的技术支撑进行解读。 第3章介绍了
    发表于 09-09 13:54