0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据标注是人类与AI合作最完美的途径之一

lhl545545 ? 来源:自动驾驶说 ? 作者:自动驾驶说 ? 2020-06-18 14:14 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,机器学习主要分为两类:监督学习(supervised learning)与无监督学习(unsupervised learning)。而监督学习离不开数据标注(data labeling),也就是依靠人工找到groundtruth。烧钱速度有多快?近年来,我们注意到,数据标注创业公司层出不穷。只要在图片中标注一辆汽车,只需一秒钟,就能轻轻松松一美元进账。标注一段几十秒视频中的汽车,就能几百美元进账。数据标注的成本与需求都在节节攀升。据市场研究预测,到2023年,数据标注市场将达到10亿美元的规模。这些数据标注公司一般会开发出基本的物体识别算法,然后在人工成本较低的地区招人,培训他们,让他们找到机器识别中的错误,改正之后提交。比如,一些总部在硅谷的公司会在比较偏远的州建立分部,进行数据标注。也有很多公司将业务外包给数据标注公司,这些公司的员工一般在非洲国家、印度或者其他人工成本较低的国家。对数据需求量大的公司,每个月支付给外包公司上百万美元,才能满足开发需求。数据标注不仅消耗资金,也是训练模型中最耗时的环节。从数据采集到最终标识,很可能要等待一个月的时间。严重影响了开发进度。因此,很多无人驾驶公司开始研究数据标识,希望不再依赖人力与第三方公司。

印度数据标注公司iMerit数据标注无处不在训练无人驾驶的模型就需要理解各种障碍物的含义,就离不开数据标识。无人驾驶的数据标识主要可以用两个维度来看。第一个维度是2D和3D的分别。2D一般指通过摄像头捕捉到的数据,3D指激光雷达捕捉到的数据。第二个维度是语义分割(semantic segmentation)与画框(bounding box)的分别。

3D语义分割的例子鱼和熊掌不可兼得数据标注的难点主要来源于两个方面:速度与质量。速度慢了就满足不了模型训练的需求,而太快就会影响质量,质量低了就会影响模型的准确性。在资源有限的情况下,速度与质量往往鱼和熊掌不可兼得。我们可以通过两种手段来解决这一矛盾:合理的流程和更自动化的机器学习技术。首先来看流程。数据标识速度慢,或是质量低,其实很多时候不是技术的问题,而是流程的问题。数据从采集到产出,首先要被“筛选”,分发到数据标识人员的手上,然后被标识,标识的结果再被传回来,最后需要抽检,保证质量。这些步骤中很多地方需要改进。比如,哪类数据应该被筛选?质量不合格的标识该怎么办?是否要退回重做?重做又需要时间,不重做就意味着需要更多的数据。对于资金不够充足的公司,改进流程往往是最合适的手段。从技术方面来看,近年来,AutoML(Automated Machine Learning)的概念越来越火,即端到端的全自动机器学习技术,可以自主调参,自主评估模型,从而缩短模型训练的周期。但是,AutoML不是万能的。至少在未来几年里,我们都无法摆脱对人工数据标识的依赖。我们需要找到一种人机共生的方式,将人类对机器的帮助最大化。

欧洲数据标识市场中,人工标识的占比始终占大多数人机共生(Human-in-the-Loop)2020-2030这十年,将是人类探索与AI合作机会的十年。数据标注就是人类与AI合作最完美的途径之一。利用机器学习技术进行视觉探测,虽然成本低、速度快,但是往往有一定的错误率。这时,就需要人类介入,告诉机器错在了哪里。机器会记住这些人类提供的回馈信息,进一步训练自己的模型,避免下次在类似场景中犯同样的错误,从而形成了一个循环。比如,AI探测结果是,某个交通信号灯的颜色是红色,而人类检查后发现应该是绿色,就通过某个前端工具点击“错误”。开发团队要尽快找到模型最需要的反馈信息,为人类标注员提供一个工具,将人类的反馈快速分享给机器。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7270

    浏览量

    92491
  • AI
    AI
    +关注

    关注

    88

    文章

    35917

    浏览量

    283172
  • 无人驾驶
    +关注

    关注

    99

    文章

    4196

    浏览量

    124365
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI Cube如何导入数据集?

    我从在线平台标注完并且下载了数据集,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么办? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像、点云、视频序列等)转化为具有语义信息
    的头像 发表于 07-30 11:54 ?326次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>主要是<b class='flag-5'>标注</b>什么?

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的
    的头像 发表于 07-09 09:19 ?492次阅读
    什么是自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?如何好做<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?

    AI时代 图像标注不要没苦硬吃

    识别算法的性能提升依靠大量的图像标注,传统模式下,需要人工对同类型数据集进行步步手动拉框,这个过程的痛苦只有做过的人才知道。越多素材的数据集对于算法的提升越有帮助,常规情况下,
    的头像 发表于 05-20 17:54 ?269次阅读
    <b class='flag-5'>AI</b>时代   图像<b class='flag-5'>标注</b>不要没苦硬吃

    东软集团入选国家数据数据标注优秀案例

    近日,东软飞标医学影像标注平台在国家数据局发布数据标注优秀案例集名单中排名第(案例名称“多模态医学影像智能
    的头像 发表于 05-09 14:37 ?646次阅读

    海信集团与美的集团签订战略合作协议

    近日,海信集团与美的集团签订战略合作协议,双方将围绕AI应用、全球先进制造、智慧物流等多领域开展全面战略合作,以资源共享、互惠互利与协同创新为基础,开启
    的头像 发表于 05-08 15:59 ?566次阅读

    自动化标注技术推动AI数据训练革新

    结果的高准确率,相对纯人工标注效率可提升70%以上,为用户提供更性价比的数据方案和服务。本文将就自动化标注平台是什么以及为AI数据训练带来哪
    的头像 发表于 03-14 16:46 ?796次阅读

    标贝自动化数据标注平台推动AI数据训练革新

    结果的高准确率,相对纯人工标注效率可提升70%以上,为用户提供更性价比的数据方案和服务。本文将就自动化标注平台是什么以及为AI数据训练带来哪
    的头像 发表于 03-14 16:42 ?1029次阅读
    标贝自动化<b class='flag-5'>数据</b><b class='flag-5'>标注</b>平台推动<b class='flag-5'>AI</b><b class='flag-5'>数据</b>训练革新

    拓维信息与整数智能联合推出智能数据标注体机

    近日,拓维信息与整数智能携手合作,共同推出了业内首款搭载DeepSeek全系列模型的智能数据标注体机。这款体机率先实现了“
    的头像 发表于 02-14 15:22 ?2071次阅读

    拓维信息×整数智能:联合首发搭载DeepSeek的智能数据标注体机

    近日,拓维信息与整数智能强强联合,共同推出业内首款搭载DeepSeek全系列模型的智能数据标注体机,率先打造“数据标注平台+大模型+算力”
    的头像 发表于 02-13 18:07 ?1234次阅读
    拓维信息×整数智能:联合首发搭载DeepSeek的智能<b class='flag-5'>数据</b><b class='flag-5'>标注</b><b class='flag-5'>一</b>体机

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    利用AI模型训练打造的深度学习算法开发平台SpeedDP,就可以替代人工进行海量的图像数据标注。相比于人工,SpeedDP具有多个优势。更快熟练的人工标注
    的头像 发表于 01-02 17:53 ?943次阅读
    <b class='flag-5'>AI</b>自动图像<b class='flag-5'>标注</b>工具SpeedDP将是<b class='flag-5'>数据</b><b class='flag-5'>标注</b>行业发展的重要引擎

    标贝数据标注在智能驾驶训练中的落地案例

    标贝科技深耕AI数据服务多年,在无人驾驶、自动驾驶等智能驾驶领域拥有丰富的合作案例。多次采用点云标注以及3D&2D融合等标注方式为智能驾驶领
    的头像 发表于 12-24 15:17 ?1920次阅读
    标贝<b class='flag-5'>数据</b><b class='flag-5'>标注</b>在智能驾驶训练中的落地案例

    AI数据服务在智能驾驶训练中的应用实例

    标贝科技深耕AI数据服务多年,在无人驾驶、自动驾驶等智能驾驶领域拥有丰富的合作案例。多次采用点云标注以及3D&2D融合等标注方式为智
    的头像 发表于 12-24 15:14 ?968次阅读

    工具型AI标注平台SpeedDP工作流程是怎样的?

    SpeedDP作为个工具型AI平台,它能提供从数据标注、模型训练、测试验证到RockChip嵌入式硬件平台模型部署的可视化AI开发功能。平
    的头像 发表于 11-19 01:02 ?1096次阅读
    工具型<b class='flag-5'>AI</b><b class='flag-5'>标注</b>平台SpeedDP工作流程是怎样的?

    蚂蚁数科发布AI赋能新一代数据标注产品

    在近日举行的2024 Incluison·外滩大会上,蚂蚁数科凭借其技术创新的深厚底蕴,正式推出了新AI数据标注产品,旨在为企业客户提供全方位、智能化的
    的头像 发表于 09-10 16:04 ?997次阅读