0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息发布“源”Yuan-EB助力RAG检索精度新高

浪潮AIHPC ? 来源:浪潮AIHPC ? 2024-11-26 13:54 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,浪潮信息发布 “源”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜单中斩获检索任务第一名,以78.41的平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑,助力用户使用领先的RAG技术加速企业知识资产的价值释放。

2a0c093e-a659-11ef-93f3-92fbcf53809c.png

“源”Yuan-EB 在HuggingFace的C-MTEB榜单中排名第一

Yuan-EB(版本号Yuan-embedding-1.0) 是专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 “源2.0” 大模型的工作基础上,创新性地采用了“源2.0-M32”大模型进行数据重写与合成,并通过索引技术、样本排序等系列方法完成高质量微调数据集构建,能够有效提升RAG系统的检索精度。

C-MTEB是目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。“源”Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。

2a18dba0-a659-11ef-93f3-92fbcf53809c.png

C-MTEB榜单Retrieval任务提供8个测试数据集

“源” Yuan-EB 助力RAG检索精度新高

嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。

2a3da4ee-a659-11ef-93f3-92fbcf53809c.png

“源”Yuan-EB通过数据准备与模型微调两个方面的技术创新,实现了模型精度的大幅提升:

■ 在数据方面,基于“源2.0”微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用“源2.0-M32”对C-MTEB 训练数据进行重写与合成,通过索引技术与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集;

■ 在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用“源2.0-M32”生成的合成数据进一步微调,并使用MRL方法完成“源”Yuan-EB训练;

“源”Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在 RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。

元脑企智EPAI集成“源”Yuan-EB,加速知识库构建与性能提升

目前,“源”Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用“源”Yuan-EB,并结合EPAI自研的多阶段RAG技术,零代码、低成本地基于企业数据构建大模型知识库应用。

企业大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。

元脑企智EPAI已经支持超过13种类型文档的信息识别与提取,结合创新的多级混合检索策略,有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果,帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答,确保专业场景下大模型生成内容的准确性和可靠性,加速大模型创新力释放。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 浪潮
    +关注

    关注

    1

    文章

    475

    浏览量

    24782
  • 开源
    +关注

    关注

    3

    文章

    3754

    浏览量

    43983
  • 大模型
    +关注

    关注

    2

    文章

    3191

    浏览量

    4147

原文标题:浪潮信息发布“源”Yuan-EB,刷新大模型RAG检索精度纪录!

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    飞利信与浪潮信息达成战略合作

    近日,2025年浪潮信息北京ISP战略伙伴签约授牌仪式成功举办。浪潮信息与北京飞利信电子技术有限公司等22家战略合作伙伴达成签约,其中将面向北京人工智能应用大市场,在产品技术共创、行业场景深化及区域
    的头像 发表于 06-24 17:37 ?620次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】RAG基本概念

    RAG应用架构具备清晰的分层设计。知识库构建层,着重于将各类非结构化数据进行有效处理,转化为计算机能够理解的形式,通过向量化编码技术为数据赋予数字特征,并建立动态索引以便快速查询更新。检索增强层,采用
    发表于 02-08 00:22

    【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

    3降低幻觉风险:通过引入权威数据(如学术论文、企业文档),RAG为生成过程提供“事实锚点”,减少模型虚构内容的可能性。 4轻量化部署:开发者无需频繁微调大模型,仅需优化检索模块即可提升系统性
    发表于 02-07 10:42

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    理和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息RAG技术是一种结合信息检索与文本生成
    发表于 01-17 19:53

    浪潮信息与智研究院携手共建大模型多元算力生态

    近日,浪潮信息与北京智人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元算力开源创新生态。 此次合作旨在提升大模型创新研发的算力效率,降低大模型应用开发的算力门槛,推动
    的头像 发表于 12-31 11:49 ?641次阅读

    浪潮信息与智研究院达成战略合作协议

    近日,浪潮信息与智研究院达成战略合作协议,双方将紧密协作共建大模型多元算力开源创新生态,提升大模型创新研发的算力效率,降低大模型应用开发的算力门槛。目前,智Triton算子库FlagGems已
    的头像 发表于 12-26 10:25 ?629次阅读

    浪潮信息发布""Yuan-EB,刷新RAG检索最高成绩

    检索任务的第一名,以78.41的平均精度刷新了大模型RAG检索的最高成绩。 ""Yuan-EB
    的头像 发表于 12-25 15:54 ?563次阅读

    浪潮信息与17家元脑伙伴共签亿级分销协议

    近日,一场意义非凡的签约仪式——2025年浪潮信息亿级分销伙伴签约大会圆满落幕。在这场盛会中,浪潮信息与来自全国12个省区的17家元脑生态伙伴共同签署了亿级分销合作协议,携手开启合作共赢的新篇章
    的头像 发表于 12-25 15:46 ?795次阅读

    借助浪潮信息元脑企智EPAI高效创建大模型RAG

    生成能力,提高生成质量和可靠性。但企业构建知识检索系统并非易事,通常面临开发门槛高、生成内容差等难题。而借助浪潮信息元脑企智EPAI企业大模型开发平台,企业仅需三步即可高效创建大模型RAG,让企业内部积累的大量数据得到有效利用,
    的头像 发表于 12-19 14:32 ?769次阅读
    借助<b class='flag-5'>浪潮信息</b>元脑企智EPAI高效创建大模型<b class='flag-5'>RAG</b>

    RAG的概念及工作原理

    )与外部知识集成,增强了其能力。这种集成允许模型动态地引入相关信息,使其能够生成不仅连贯而且事实准确、上下文相关的回应。RAG系统的主要组成部分包括: ·检索器(Retriever)
    的头像 发表于 12-17 13:41 ?2080次阅读
    <b class='flag-5'>RAG</b>的概念及工作原理

    浪潮信息AI存储性能测试的领先之道

    MLCommons,一个致力于推动全球 AI系统发展的顶级工程联盟,汇聚了包括谷歌、斯坦福大学在内的众多顶尖企业和研究机构。作为该联盟的创始成员之一,浪潮信息自2020年起便积极参与其中,共同探索
    的头像 发表于 10-29 16:30 ?704次阅读
    <b class='flag-5'>浪潮信息</b>AI存储性能测试的领先之道

    浪潮信息源2.0大模型与百度PaddleNLP全面适配

    近日,浪潮信息宣布其开源大模型2.0已全面适配百度PaddleNLP。这一举措标志着大模型开发生态正加速进化,为用户提供了更加便捷、高效的大模型应用体验。
    的头像 发表于 10-17 18:15 ?1026次阅读

    浪潮信息发布元脑企智一体机

    在2024中国算力大会上,浪潮信息正式发布了其创新的元脑企智一体机。这款一体机融合了元脑企智EPAI企业大模型开放平台和元脑服务器,通过软硬件协同的一体化设计,实现了快速交付、开箱即用、极致性能和安全高效的大模型开发能力。
    的头像 发表于 09-30 16:50 ?2001次阅读

    浪潮信息:元脑企智EPAI助力金融大模型快速落地

    浪潮信息在AI算力底座建设、大模型开发领域积累的成熟、成功经验工具化,助力金融机构又快、又稳地部署生成式AI应用,助力金融数智化跨越式发展。
    的头像 发表于 09-20 16:07 ?735次阅读
    <b class='flag-5'>浪潮信息</b>:元脑企智EPAI<b class='flag-5'>助力</b>金融大模型快速落地

    33家元脑区域伙伴与浪潮信息签署战略合作协议

    近日,2024年浪潮信息区域ISP伙伴战略签约仪式圆满落幕,标志着浪潮信息在人工智能领域的合作版图再度扩大。此次盛会汇聚了全国范围内33家实力雄厚的亿级及千万级元脑区域伙伴,共同签署战略合作协议,携手开启AI应用新篇章。
    的头像 发表于 08-14 16:25 ?781次阅读