0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探讨NLP技术落地的难点及如何降低开发者门槛的问题

电子工程师 ? 来源:cc ? 2019-01-10 09:06 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 很火,但是 AI 的门槛也很高,普通的开发者想要搭上这波 AI 红利依然困难。

近期,人工智能公司推出了新一代智能 Bot 开放平台,它整合了小i机器人 Chatting Bot、FAQ Bot、Discovery Bot 三大核心能力,为企业和开发者提供智能机器人服务+人工在线服务+智能人机协作学习的完整使用闭环,除智能客服场景应用外,智能营销、智能外呼、智能硬件等多种不同类型的应用场景也将陆续开放。

平台开放的目的就是降低企业使用和拥有AI技术的成本与门槛,让企业和开发者快速开发出满足自身业务需求的智能服务系统或者具有智能交互能力的对话机器人。

近日,CSDN主编下午茶邀请到了小i机器人技术委员会轮值主席兼首席架构师李波,与我们一起探讨了NLP技术落地的难点,以及如何降低开发者门槛的问题,希望能对广大读者有所启发。

NLP的发展方向

AI科技大本营:能简单介绍下 NLP 技术吗?

李波:NLP 技术目前有两种,一种是基于规则,还有一种是基于统计。近年来,基于统计的 NLP 技术占据了上风,特别是深度学习出现之后,基于统计的 NLP 技术进展快很多。并不是说谁更优,或者谁更差,它们各有所长,比如基于统计的模型的泛化性比较好,但是它是一个黑盒。一些应用还需要两者结合使用,比如在问答系统中,有些机器回答并不是很友好,就可以利用基于规则的方法做补充,两者结合来达到产品化的程度。

抛开运算智能,人工智能主要包含两个层面,一个是认知智能,一个是感知智能。比如常见的语音识别、图像识别就属于感知智能的层面,目前比较成熟的 落地应用也比较多,而 NLP 则属于认知智能层面。NLP 往往需要结合上下文信息,甚至考虑背景知识、常识性知识等。另外,感知智能(如图片识别)的输入输出一般是单轮的(single-turn),但是 NLP 往往需要多轮的(multi-turn)交互后才能得到结果。目前 NLP 技术还处于发展的早起阶段,还有很多难点需要突破。

AI科技大本营:你觉得它未来还会有很快的进展吗?还有哪些需要探索的方向?

李波:常识和背景知识:用 NLP 做专业性很强的事情,可能效果会很好,反到是小概率简单的事情做不到,因为缺乏常识。想要解决这个问题就需要构建常识库,然后与模型结合,这是一个难点,也是大家比较愿意探索的一个方向。

多模态:人类是通过视觉、听觉等各种感观结合在一起来理解一件事情的,也就是多模态。假设 NLP 系统可以同时结合音频视频来理解用户的意图,那么可能会有更大的突破。

预训练:这是近期大家可以尝试的一个热点。预训练在音频和图片领域已经得到了广泛应用,最近 Google 的 BERT 则是把预训练运用到了 NLP 领域,取得了不错的效果。这也是近期的一个热点,大家可以去尝试。

强化学习:在认知智能方面,强化学习也有些不错的方向。

NLP如何走出实验室

AI科技大本营:学术界的成果能够及时地应用到工业界吗?

李波:有些技术可以及时转化,有些技术还需要转化周期。这个转化周期意思就是说,我们要考虑商用模型的性能和准确率,此外还有其他的工程条件,满足这些标准之后,才可以把研究成果输出到产品。学术界训练一个模型只看最后的评价指标,也就是一个百分比的结果,但落地的时候考虑更多因素,比如一个准确率 99% 的模型,但剩下 1% 的工程化的工作量,不一定比99%工作量小。

AI科技大本营:从实验室到模型商用化落地,你们最关心什么?

李波:我们最关心的首先是要模型的可用性要达到工业化落地的标准,除此之外包括产品的 UI 设计、体验设计等也非常重要。NLP 不像图片和语音,在 UI 方面需要考虑的更多。比如机器翻译系统的准确率达到一定程度后,如果 UI 做得不好,用户体验不好,可能会对落地造成的很大的影响。这是一个系统化的工程,包括成本、用户体验,为客户带来多少价值等,都需要考虑。

AI科技大本营:关于 AI 创业公司落地难的问题,小i机器人有什么好的经验可以分享吗?

李波:跟图片和语音对比,NLP 特别难,NLP涉及到的多模态是它的一个难点。第二个难点是需要结合背景知识及常识。这两个问题在目前并没有很好的处理方式。小i 主要是结合基于规则+统计的方式,引入知识,比如我之前提到的领域语义库,目的就是融入常识和背景知识。最后就是个性化的问题,NLP 的输出往往和个体相关,不同的个体需要依据人物画像等信息给出不同的个性化的结果,这样才更接近人类的处理方式。

此外,NLP 的落地场景不是那么直接,需要结合客户或者是产品设计。比如做推荐,我们训练模型的关注点可能就是模型对应的几个指标,比如查准率等,但是客户看的是最后推荐的效果,也就是用户实际的评价和购买情况。因此,不管实验室的效果如何,在实际效果中,需要根据客户的反馈不断调整系统参数,调整训练数据,或者结合其他算法等等,以此来提高最终落地的效果。

上线运行之后,我们还需要根据运营的日志和客户的行为,再迭代模型,这是一个闭环。而不是说不结合实际场景,把模型训练好后直接投入使用,然后就不管了,不是这回事,需要根据运营的数据,不断调优迭代。

AI科技大本营:模型可控性的问题怎么解决?

李波:比如我们帮客户做的智能客服机器人,主要依靠混合模型引擎来达到可控的目的。另外也可以通过一些工程化手段来做到可控,如在问答中涉及到一些敏感的内容,我们可以通过前处理、后处理等方式及时干预,而无需更新模型、重启系统。在用户真实的使用过程中发现问题时,我们需要有渠道、有方法控制系统的输出,甚至逻辑,保证系统是可控的。

AI科技大本营:哪些方法可以使它可控?

李波:我们的混合模型引擎包含两种模型,一个是黑盒子,就是深度学习模型,另一个是语义理解模型,基于传统的语义表达式,可以用来做干预。语义理解模型可以直接通过语义表达式来进行更改,而深度学习模型想要干预则必须重新训练。因此我们可以让深度学习模型和语义理解模型同时作用,然后调整深度学习模型和语义理解模型的输出策略(如优先级策略等)来调优。

小i机器人如何收集数据?

AI科技大本营:小i机器人是如何积累数据的?

李波:主要是三个方面:第一,我们会通过爬虫去爬取相关的行业数据。第二,我们的云端产品产生的日志数据,会直接收集到我们的数据平台里。第三,客户提供的素材,我们会把它转化成数据和知识。

AI科技大本营:数据收集之后怎么处理?

李波:非结构化数据:首先我们会对收集到数据进行数据清洗,然后再按照知识的分类通过机器+人工方式将其归类,再通过一些手段(如规则等)做一些粗颗粒度的标注,之后由人工确认,确认完后入库。

半结构化数据:客户提供的原始带格式文档,通过格式规则分析或者机器学习模型等手段来进行分类或者聚类等辅助处理,然后再进行人工梳理,最后入库。

AI科技大本营:数据的处理靠机器和人工的结合?

李波:机器做前期辅助,人工做最终的确认,而不是机器处理之后直接入库。小i有一个大的数据平台和一个标注系统,还有一个实验室系统,共同运作来产生这些行业训练数据以及行业背景知识,然后以领域语义库的形式部署到实际系统中。

小i机器人如何赋能开发者?

AI科技大本营:现在有很多平台和工具可以帮助开发者去降低门槛,据我所知,小i最近也推出了新一代智能 Bot 开放平台,这个平台能给开发者带来什么?

李波:帮助中小企业或者开发者快速打造一个适应各种实际场景的AI系统。第一个落地的场景是智能客服,以问答能力为主,降低人工客服的成本。第二个应用场景是智能营销,以营销推荐为主,包括用户画像等,我们会在后期推出。第三个应用场景是智能外呼。后续我们还会推出更多的场景。开发者不仅可以直接使用这些场景,还可以基于每个场景的API来扩充应用的能力。

AI科技大本营:因为现在有各种各样的平台和工具,假设我是个新手,我就做一个小项目练练手,应该怎么做?

李波:这个平台的目的是降低开发者的门槛。开发者如果是自己收集数据,然后训练模型,开发周期很长,而且有很多的坑要趟。我们的这个平台有两个目标,第一,让用户可以直接使用;第二个,开发者可以基于这个平台扩充自己的能力。

使用我们的平台,开发者需要提供的数据只是问答的基本意图点,我们在底层有领域语义库做支撑,我们会自动在词的层面,在句法层面帮你扩充数据集,然后自动帮你去训练。

AI科技大本营:关于NLP技术的工程实践,您对开发者有什么建议吗?

李波:针对NLP的开发者有几点建议:首先,你要对相关技术有全面的了解,不一定要特别细化,这样对开发会有帮助;第二,一定要明确你的输入和输出;最后,开发者要更多地关注产品体验。

AI科技大本营:最后,您平时都是怎样自我学习的,有哪些经验可以分享下吗?

李波:互联网是一个非常好的渠道,我比较喜欢“碰到问题后在解决问题的过程中学习“的方式。如果你只是通过书本去学习,而忽略实践,就会比较虚。因此要结合实践,哪怕是做一些Demo尝试也可以。在尝试过程中遇到问题,然后通过各种方式去获取答案,而不是像学校里的传统方式去学习。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35750

    浏览量

    282397
  • nlp
    nlp
    +关注

    关注

    1

    文章

    490

    浏览量

    22696

原文标题:NLP技术落地为何这么难?里面有哪些坑?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    昂瑞微亮相MFi开发者技术沙龙

    近日,昂瑞微受邀参加苹果MFi开发者技术沙龙,以“万物皆可寻”为主题展开技术分享。活动中,公司市场总监肖金红不仅展示了Find My技术在多个应用领域的
    的头像 发表于 07-18 15:28 ?496次阅读

    HDC 2025开发者主题演讲精彩回顾

    日前,华为开发者大会(HDC 2025)进入第二天,行业领袖、技术专家、全球开发者齐聚现场,共同见证这场科技盛会。在开发者主题演讲中,华为技术
    的头像 发表于 07-09 11:20 ?591次阅读

    全志科技亮相OpenHarmony开发者大会2025

    AI Agent技术共建启动”等仪式,同时设立八大主题分论坛,邀请开源操作系统技术大咖、前沿实践专家、开发者、生态伙伴代表等嘉宾到场,共同探讨开源鸿蒙
    的头像 发表于 06-04 09:16 ?726次阅读
    全志科技亮相OpenHarmony<b class='flag-5'>开发者</b>大会2025

    2025开源鸿蒙开发者大会圆满落幕

    共建启动等仪式,同时设立八大主题分论坛,邀请开源操作系统技术大咖、前沿实践专家、开发者、生态伙伴代表等嘉宾汇聚一堂,共同探讨开源鸿蒙技术的未来发展、分享最前沿的
    的头像 发表于 05-26 17:03 ?704次阅读

    深开鸿CEO王成录:开发者是开源鸿蒙生态的原点

    5月24日,深开鸿正式发布全国首款面向开发者的开源鸿蒙学习平台——开鸿Bot系列产品。这是开源鸿蒙在开发者终端领域的关键落地,更是深开鸿贯彻“以开发者为中心”理念的里程碑举措。深开鸿C
    的头像 发表于 05-26 12:06 ?488次阅读
    深开鸿CEO王成录:<b class='flag-5'>开发者</b>是开源鸿蒙生态的原点

    Arm亮相2025年游戏开发者大会

    近日,成千上万的人聚集在美国旧金山的马斯康尼中心参加 2025 年游戏开发者大会 (GDC 2025)。全球开发者齐聚一堂,探讨如何利用技术塑造手游的未来。鉴于 99% 的高端智能手机
    的头像 发表于 04-01 13:51 ?629次阅读

    云端AI开发者工具的核心功能

    当今,云端AI开发者工具已成为推动科技创新与行业升级的重要力量。那么,云端AI开发者工具有哪些核心功能呢?下面,AI部落小编带您深入探讨
    的头像 发表于 02-28 11:46 ?544次阅读

    中科曙光亮相2025全球开发者先锋大会

    在2025全球开发者先锋大会(GDC)期间,中科曙光成功举办“AI全栈领航 智算驱动未来”智能计算高峰论坛。本次论坛汇聚了来自人工智能领域的顶尖专家、学者、企业领袖及开发者,共同探讨人工智能领域的最新发展与未来趋势、大模型与智能
    的头像 发表于 02-26 12:29 ?896次阅读

    Apex平台:简化AI API开发,赋能开发者

    的优势在于,它让开发者无需具备深厚的人工智能专业知识或广泛的基础架构支持,就能轻松创建出强大且自主的解决方案。这一特性极大地降低了AI技术应用的门槛,使得更多非AI专业背景的
    的头像 发表于 02-20 09:45 ?568次阅读

    AI开发平台如何赋能开发者

    当下,AI开发平台通过提供丰富的工具集、优化的开发环境以及高效的部署能力,极大地降低了AI应用的开发门槛,加速了创新步伐。那么,AI
    的头像 发表于 01-17 14:47 ?466次阅读

    开发者的开源鸿蒙故事

    近日,在以“一切为了开发者”为主题的“2024开放原子开发者大会暨首届开源技术学术大会”上,开源鸿蒙5.0 Release版本正式发布,备受各方关注。该版本在系统完备度、分布式创新、开发者
    的头像 发表于 01-06 10:28 ?954次阅读

    云端AI开发者工具怎么用

    云端AI开发者工具通常包括代码编辑器、模型训练平台、自动化测试工具、代码管理工具等。这些工具不仅降低了AI开发门槛,还极大地提高了开发效率
    的头像 发表于 12-05 13:31 ?640次阅读

    涂鸦推出面向个人开发者的TuyaOpen Framework!极客争锋大赛限时报名拿大奖啦

    为了帮助开发者们高效降低开发智能产品的门槛,涂鸦本次重磅推出面向个人开发者的TuyaOpenFramework!它是涂鸦专门为科技爱好
    的头像 发表于 11-08 01:04 ?682次阅读
    涂鸦推出面向个人<b class='flag-5'>开发者</b>的TuyaOpen Framework!极客争锋大赛限时报名拿大奖啦

    KaihongOS 4.1.2开发者预览版正式上线,诚邀开发者免费试用!

    深开鸿在2024开放原子开源生态大会上正式宣布KaihongOS4.1.2开发者预览版全面上线,并向全球开发者开放免费下载。作为KaihongOS不断创新与发展的重要里程碑,此次预览版为开发者提供了
    的头像 发表于 09-28 08:07 ?813次阅读
    KaihongOS 4.1.2<b class='flag-5'>开发者</b>预览版正式上线,诚邀<b class='flag-5'>开发者</b>免费试用!

    KaihongOS 4.1.2开发者预览版正式上线,诚邀开发者免费试用!

    今日,深开鸿在2024开放原子开源生态大会上正式宣布KaihongOS 4.1.2开发者预览版全面上线,并向全球开发者开放免费下载。作为KaihongOS不断创新与发展的重要里程碑,此次预览版为
    的头像 发表于 09-26 15:59 ?813次阅读