0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可商用多语言聊天LLM开源,性能直逼GPT-4

OSC开源社区 ? 来源:OSC开源社区 ? 2023-05-25 11:14 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

SambaNova 与 Together 两家公司合作开源了可商用的 BLOOMChat,一个 1760 亿参数的多语言聊天大语言模型 (LLM)。由 BLOOM (176B) 在助理式的对话数据集上进行指导调整,并支持多种语言的对话、问题回答和生成性答案。

根据介绍,BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat;其建立在 BigScience 组织的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。目前,BLOOM 已经是最大的多语言开放模型,在 46 种语言上进行了训练。

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中,GPT-4 的胜率为 54.75%,BLOOMChat 的胜率为 45.25%,稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比,BLOOMChat 在 65.92% 的时间内表现更优。且在使用 BLOOMChat 进行跨语言 NLP 任务的初步研究中,BLOOMChat 在 WMT 翻译基准中的表现要优于其他 BLOOM 变体和主流开源聊天模型。

“我们确实想指出,与我们比较的这些模型中,有些并不适合多语言环境。但由于开源社区中没有替代品,所以才有了现在的比较。我们的研究结果表明,使用正确的技术,可以在开源 LLM 之上构建以实现强大的多语言聊天功能。我们希望我们的研究结果和 BLOOMChat checkpoint 的发布能够为开源社区的持续讨论做出贡献,并激发 LLM 领域的进一步发展。”

项目团队使用定性和定量措施来评估了 BLOOMChat 的多语言聊天能力以及跨语言任务能力。共做了 3 种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。

实验一:人类偏好排序

旨在将 BLOOMChat 模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了 “OpenAssistant Conversations”附录 E 中的 22 个英文问题作为基准。首先让一些人类志愿者将这 22 个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。

将 BLOOMChat 与 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三种开源模型进行了比较:

586afb58-fa9a-11ed-90ce-dac502259ad0.png

51 名志愿者在所有模型和 6 种语言中共提交了 1158 次比较。如上图所示,BLOOMChat (65.92%) 明显优于其它几个开源模型。

与GPT-4 相比:

587f9e14-fa9a-11ed-90ce-dac502259ad0.png

实验二:模型质量评估

此实验旨在验证 BLOOMChat 生成的多种语言文本的质量。

5894d23e-fa9a-11ed-90ce-dac502259ad0.png

81.8% 的回答被归类为 “正确” 或 “可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但 BLOOMChat 在每种语言中都获得了超过 70% 的 “正确” 或 “可接受” 评级。

实验三:WMT 翻译任务

为了初步了解模型解决跨语言 NLP 任务的能力,评估了模型在 WMT 翻译任务上的翻译能力。

58b8ddbe-fa9a-11ed-90ce-dac502259ad0.png

总体而言,BLOOMChat 在翻译任务中的表现明显优于其他 BLOOM 变体和开源聊天模型,但和 GPT-4 还有一定差距。

此外,BLOOMChat 团队也坦承了一些该模型的局限性:

BLOOMChat 有时可能会生成听起来合理但事实不正确或与主题无关的回复信息。

BLOOMChat 可能在单个回复中无意间切换语言,影响输出的连贯性和可理解性。

BLOOMChat 可能会产生重复的短语或句子,导致回复内容缺乏吸引力和有效信息。

BLOOMChat 在生成代码或解决复杂数学问题方面的性能可能会受到限制。

BLOOMChat 可能无意中生成含有不适当或有害内容的回复。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3793

    浏览量

    44167
  • 语言模型
    +关注

    关注

    0

    文章

    565

    浏览量

    10893
  • 数据集
    +关注

    关注

    4

    文章

    1226

    浏览量

    25657
  • LLM
    LLM
    +关注

    关注

    1

    文章

    330

    浏览量

    947

原文标题:可商用多语言聊天LLM开源,性能直逼GPT-4

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    景 DeepSeek-V3 更适合聊天机器人、内容创作、多语言翻译、基础数据分析等通用需求。 DeepSeek-R1 聚焦科研辅助、数学教育、金融建模、代码审查等需强逻辑推理的场景,尤其在需要分步推导(如数
    发表于 02-14 02:08

    微软Copilot Voice升级,积极拓展多语言支持

    近日,据报道,微软近期在人工智能领域取得了新的进展,正积极拓展其Copilot Voice的多语言支持功能。这一举措标志着微软在语音识别和自然语言处理技术上又迈出了重要一步。 此次Copilot
    的头像 发表于 02-06 14:10 ?517次阅读

    OpenAI:GPT-4o及4o-mini模型性能下降,正展开调查

    近期,OpenAI发布了一份事故报告,指出其GPT-4o及4o-mini模型遭遇了性能下降的问题。这一消息引起了业界的广泛关注和讨论。 据OpenAI官方透露,他们目前正在积极调查这一性能
    的头像 发表于 01-21 10:34 ?730次阅读

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX63
    的头像 发表于 01-17 18:48 ?825次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大<b class='flag-5'>语言</b>模型推理开发平台

    在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在与 NVIDIA Tensor
    的头像 发表于 12-25 17:31 ?854次阅读
    在NVIDIA TensorRT-<b class='flag-5'>LLM</b>中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 ?1056次阅读

    什么是LLMLLM在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型(LLM)的出现,标志着我们对语言理解能力的一次飞跃。L
    的头像 发表于 11-19 15:32 ?3977次阅读

    LLM技术的未来趋势分析

    。 技术进步 1. 模型规模的增长 随着计算能力的提升和数据集的扩大,LLM的规模也在不断增长。更大的模型能够捕捉更复杂的语言模式,提高任务的性能。例如,GPT-3模型拥有1750亿个
    的头像 发表于 11-08 09:35 ?1331次阅读

    使用LLM进行自然语言处理的优缺点

    自然语言处理(NLP)是人工智能和语言学领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言。大型语言模型(LLM)是NLP领域的一
    的头像 发表于 11-08 09:27 ?2907次阅读

    Llama 3 与 GPT-4 比较

    沿。 一、技术架构 Llama 3和GPT-4都是基于深度学习的自然语言处理(NLP)模型,但它们的设计理念和技术细节有所不同。 Llama 3 采用了一种创新的混合架构,结合了传统的Transformer模型和最新的神经网络技术。这种架构使得Llama 3在处理复杂的
    的头像 发表于 10-27 14:17 ?1335次阅读

    ChatGPT 的多语言支持特点

    )技术迎来了巨大的挑战和机遇。ChatGPT,作为一个领先的语言模型,其多语言支持的特点成为了它在众多应用场景中不可或缺的优势。 1. 多语言理解能力 ChatGPT 的多语言支持首先
    的头像 发表于 10-25 17:30 ?1671次阅读

    科大讯飞发布讯飞星火4.0 Turbo大模型及星火多语言大模型

    ,科大讯飞以其一贯的创新精神,开创性地发布了星火多语言大模型。这一创新之举不仅进一步巩固了科大讯飞在中文和英文处理领域的领先地位,更将语言的支持范围大幅扩展,涵盖了俄语、日语、阿拉伯语、韩语、法语、西班牙语、葡萄牙语以及
    的头像 发表于 10-24 13:58 ?979次阅读

    科大讯飞发布讯飞星火4.0 Turbo:七大能力超GPT-4 Turbo

    超过GPT-4 Turbo,数学能力和代码能力更是超过了Open AI最新一代GPT模型GPT-4o。此外,其效率相对提升50%。
    的头像 发表于 10-24 11:39 ?1189次阅读

    端到端InfiniBand网络解决LLM训练瓶颈

    ChatGPT对技术的影响引发了对人工智能未来的预测,尤其是多模态技术的关注。OpenAI推出了具有突破性的多模态模型GPT-4,使各个领域取得了显著的发展。 这些AI进步是通过大规模模型训练实现
    的头像 发表于 10-23 11:26 ?4294次阅读
    端到端InfiniBand网络解决<b class='flag-5'>LLM</b>训练瓶颈