0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新火种AI | 谷歌Gemini“抄袭”百度文心一言?AI训练数据陷难题

新火种 ? 来源:新火种 ? 作者:新火种 ? 2023-12-20 09:09 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:一号

编辑:小迪

谷歌过于心急,Gemini推出不到半月,就遭遇两次“危机”。

美东时间12月6日,谷歌推出了迄今为止规模最大,能力最强的大模型Gemini。其原生多模态的能力,通过一条约6分钟的演示视频,展现得淋漓尽致,让人不得不感慨它的强大,就连马斯克都评论说,“(Gemini)令人印象深刻”。

谷歌在AI领域的成就有目共睹,尽管之前推出的Bard表现不尽人意,让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀,加上和DeepMind联合研发,所以Gemini(双子星)可是被寄予了厚望。

但是,Gemini发布后仅一天,就有人指控谷歌“造假”。除了在数据对比上没有使用相同条件,演示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。

12月14日,视频“造假”事件还没降温,谷歌就宣布对外免费开放Gemini Pro的API。让不少人高兴得奔走相告。因为相较于GPT-4收费版才能拥有的视觉模型,Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会。

但就在API开放后不久,就有用户发现,在Poe上使用Gemini Pro时,如果用简体中文连续询问“你好”和“你是谁”这两个问题时,Gemini Pro会直接说出“我是百度文心大模型”这样的回答,给网友都看“呆”了。

谷歌Gemini被百度文心一眼“夺舍”了?

微博大V阑夕就发博展示了这样的效果,就连进一步询问“你的创始人是谁”时,它也很干脆地回答:李彦宏。

wKgZomWBqMqAfHd-AAQRnmzppkY379.jpg

难道Gemini被百度“夺舍”了?不少人怀疑这是因为博主在对话前面设置了提示词,让Gemini扮演文心一言,但这位博主强调,没有任何前置对话。

wKgaomWBqMuAEsG6AAFYsarFxxM625.jpg

本着求真的态度,我们也去Poe上试用了一下,结果真的可以复现。

wKgZomWBqMuAAcdgAAP589GT9k0828.jpg

会不会是Poe平台上的接口用错了?不过Poe平台可不是什么野鸡套壳网站,它是美版知乎Quora推出的AI聊天机器人平台,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提问Gemini,它就会立刻恢复正常。并且单就从“作案动机”上来讲,Poe也没有必要这么做。

除此之外,还有用户在谷歌自己的Vertex AI平台上,使用中文对话,也出现了这种情况。因此,Poe的接口使用出错,这个可能基本可以被排除,问题应该出在Gemini本身。

wKgaomWBqMyAODq1AACIPl0BLUc359.jpg

使用AI生成的数据进行训练已不新鲜

这样看下来,要么就是谷歌使用了百度文心一言的语料进行训练,要么就是它所使用的语料已经被AI“污染”了。

其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生,并且谷歌还是有“前科”的。在上一代Bard时,谷歌就曾被曝出使用ChatGPT的数据进行训练,并且根据The Information报道,这件事情还造成了Jacob Devlin从谷歌离职。

就在上周末,字节跳动也被OpenAI禁止使用API接口,原因也是因为说字节在使用GPT训练自己的AI,违反了使用条例。

wKgZomWBqMyAPJd4AAJ1abXz8sA239.jpg

如果按照现在每个模型堆“训练数据量”的操作来看,互联网上的人类原生的数据很快就会用完,并且各个模型之间也将会很相似。因此,获取一些未被别人拿去训练的数据,是模型之间保持差异化的一种方法。因此,有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用,用以获取彭博社自有的历史和持续的金融文件数据访问权限。

wKgaomWBqM2AIpbBAAMBO88ElR0114.jpg

另一个思路,就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片,来提升图像分类模型的性能,结果发现效果还不错,甚至比真实数据训练还要好。

AI生成的内容正在“污染”互联网

而从另一方面来看,AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域,AI生成的内容都正在“污染”互联网上数据内容。

就在上个月,一些网友发现,在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索结果,前几张图片都是有AI生成的,而并非真实照片,并且这是一位以弹奏尤克里里而闻名的音乐家,但图片里的他却在弹吉他。

在文字方面也是,随着百家号等媒体平台上出现的AI帮写等功能,AI生成的文章已经开始在互联网上“蔓延”,这让普通人在互联网上筛选真实且有效的信息的效率反而降低了。可以说,AI生成内容对互联网语料的“污染”,可能会导致产生一个新的需求,那就是帮人们分辨内容是否由AI生成的AI。

毕竟,目前训练AI所需要的数据还是人类所生产的,在数据清洗过程中,需要注意清除一些由其他AI生成的内容。一旦互联网上AI生成的内容越多,越能以假乱真,那么数据筛选的难度将越大。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前,我想我们都无法做到彻底信赖AI生成的内容。

毕竟一旦AI生成了错误的内容,而另一个AI拿着这个内容去训练,然后再另一个AI拿到新的错误内容......这样“滚雪球”下去,AI最终会生成什么样的逆天垃圾,我们真的无法想象。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    68

    浏览量

    7967
  • AI
    AI
    +关注

    关注

    88

    文章

    35759

    浏览量

    282466
  • 文心一言
    +关注

    关注

    0

    文章

    133

    浏览量

    1919
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    宁畅与与百度大模型展开深度技术合作

    近日,百度正式开源大模型4.5系列模型。作为开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,
    的头像 发表于 07-07 16:26 ?351次阅读

    百度大模型X1 Turbo获得信通院当前大模型最高评级证书

    百度在520居然还领了个证?是它, 信通院当前大模型最高评级证书 ! 在5月20日的百度AI Day 上,中国信通院公布了大模型推理能力评估结果—— 百度
    的头像 发表于 05-21 18:19 ?798次阅读
    <b class='flag-5'>百度</b><b class='flag-5'>文</b><b class='flag-5'>心</b>大模型X1 Turbo获得信通院当前大模型最高评级证书

    百度发布4.5 Turbo、X1 Turbo和多款AI应用

    近日,Create2025百度AI开发者大会在武汉举办。百度创始人李彦宏发布了大模型4.5 Turbo及深度思考模型X1 Turbo两大
    的头像 发表于 04-30 10:16 ?662次阅读

    百度AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度AI领域的新进展。
    的头像 发表于 04-30 10:14 ?750次阅读

    deepseek和文一言两者有什么区别?哪个跟合适您使用呢?

    (DeepSeek)公司开发,该公司专注于开发低成本、高性能的AI模型,致力于通过技术创新推动人工智能技术的普惠化。DeepSeek可能基于独特的技术架构和算法,如混合专家(MoE)架构和多头潜在注意力(MLA)机制。 ◆
    的头像 发表于 02-23 09:37 ?2742次阅读

    百度大模型正式开源

    随着大模型的迭代升级和成本不断下降,一言将于4月1日0时起全面免费,所有PC端和APP端用户均可体验
    的头像 发表于 02-17 13:44 ?614次阅读

    百度大模型将升级并开源

    百度近日宣布,其文大模型系列将迎来新版本升级,计划在未来数月内逐步推出文大模型4.5系列。这消息无疑为AI领域注入了新的活力。 据悉,
    的头像 发表于 02-14 14:25 ?518次阅读

    百度大模型4月1日起全面免费开放

    列最新的模型功能。 百度表示,大模型的此次升级不仅带来了更加丰富的功能,还致力于提升用户体验。与此同时,百度还透露,
    的头像 发表于 02-14 09:19 ?528次阅读

    百度宣布一言将全面免费

    随着大模型的迭代升级和成本不断下降,一言将于4月1日零时起,全面免费,所有PC端和APP端用户均可体验
    的头像 发表于 02-13 10:46 ?470次阅读

    机械革命无界X系列轻薄本将预装一言

    提供了多样化的选择。机械革命将为无界X系列轻薄本预装百度一言,为用户带来更加智能、便捷的使用体验。用户可以通过语音或文字与笔记本进行交互,获取所需的信息,服务增强使用体验以及推动
    的头像 发表于 01-20 17:26 ?842次阅读

    AI智能眼镜定制_AI眼镜硬件主板国产展锐W517方案

    AI眼镜是款高度集成的智能设备,内部包含了芯片、存储、麦克风、声学组件、摄像头、电池及传感器等多种硬件。它承载了多个先进的人工智能大模型,包括谷歌Gemini
    的头像 发表于 01-06 20:07 ?1480次阅读
    <b class='flag-5'>AI</b>智能眼镜定制_<b class='flag-5'>AI</b>眼镜硬件主板国产展锐W517方案

    一言登顶中国生成式AI使用率榜首

    人工智能产品的用户规模已达到2.3亿人,占整体人口的16.4%。这一数据表明,生成式人工智能产品在网民中已经形成了相当规模的用户群体,并且未来仍有显著的增长空间。 在激烈的市场竞争中,百度
    的头像 发表于 12-04 14:03 ?917次阅读

    百度大模型日均调用量超15亿

    近日,百度在上海世博中心举办了主题为“应用来了”的百度世界2024大会。会上,百度董事长李彦宏分享了关于大模型行业的最新动态和百度
    的头像 发表于 11-12 15:28 ?763次阅读

    李彦宏宣布:百度大模型日调用量超15亿

    百度世界2024大会上,百度公司创始人李彦宏宣布了项令人瞩目的数据百度
    的头像 发表于 11-12 10:40 ?663次阅读

    百度一言APP升级为

    百度宣布其文一言APP正式升级为,标志着百度在智能搜索领域迈出了重要
    的头像 发表于 09-04 16:06 ?1079次阅读