0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-3引发公众的遐想 能根据文字产生图片的AI!

hl5C_deeptechch ? 来源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2020-10-09 18:30 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引发公众的遐想。

虽然它可以仅凭很少的文本来输出诗歌、短篇小说和歌曲,并且成功地让人们相信这是人类的创作。但是,它在同人类对话时还是显得非常“幼稚”。可尽管如此,技术人员依然认为,创造了 GPT-3 的技术可能是通往更高级 AI 的必经之路。

GPT-3 使用大量文本数据进行了训练,那么,假如同时使用文本和图像数据进行训练,会发生什么呢?

艾伦人工智能研究所(AI2)在这个问题上取得了进展,技术人员开发了一种新的视觉语言模型,可以根据给定的文本生成对应图像。

不同于 GAN 所生成的超现实主义作品,AI2 生成的这些图像看起来非常怪异,但它的确可能是一个实现通用人工智能的新路径。

AI“做题家”

GPT-3 在分类上属于 “Transformer” 模型,随着 Google BERT 的成功,该模型开始流行。而在 BERT 之前,语言模型可用性不佳。

它们虽然具备一定的预测能力,但并不足以生成符合语法和常识的长句子。BERT 通过引入一种称为 “masking(遮罩)” 的新技术,使模型这方面的能力得到了大幅加强。

模型会被要求完成类似下面的填空题:

这位女士去___锻炼。

他们买了一个___面包做三明治。

这个想法初衷是,如果强迫模型进行数百万次的这类练习,它是否可能学会如何将单词组合成句子以及如何将句子组合成段落。测试结果表明,模型确实获得了更好地生成和解释文本的能力(Google 正在使用 BERT 帮助在其搜索引擎中提供更多相关的搜索结果)。

在证明遮罩行之有效之后,技术人员试图通过将文本中的单词隐藏,将其应用于视觉语言模型,例如:

一只站立在树木旁的___。(来源:MIT TR)

通过数百万次的训练,它不仅可以发现单词之间的组合模式,还可以发现单词与图像中元素之间的关联。

这样的结果就是模型拥有了将文字描述与视觉图像相关联的能力,就像人类的婴儿可以在他们所学的单词同所见事物之间建立联系一样。

举个例子,当模型读取到下面的图片,便可以给出一个较为贴切标题,如 “打曲棍球的女人”。或者它们可以回答诸如“球是什么颜色?” 之类的问题,因为模型可以将单词 “球” 与图像中的圆形物体关联。

图 | 女子曲棍球比赛 (来源:MIT TR)

一图胜千言

技术人员想知道这些模型是否真的像婴儿一样 “学会” 了认识这个世界。

孩子不仅可以在看到图像时联想到单词,还可以在看到单词时在头脑中浮现出对应的图像,哪怕这个图像是真实和想象的混合体。

技术人员尝试让模型做同样的事情:根据文本生成图像。然后模型吐出了无意义的像素图案。

得到这样的结果是有原因的,将文本转换为图像的任务相比其他要困难得多。AI2 的计算机视觉团队负责人 Ani Kembhavi 说,文本并未指定图像中包含的所有内容。因此,模型需要 “联想” 许多现实世界的常识来填充细节。

例如,假设 AI 被要求绘制“在道路上行走的长颈鹿”,它需要推断出这条道路更可能是灰色而不是粉色,并且更可能毗邻草地而不是海洋——尽管这些信息都不明确。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 决定看看他们是否可以通过调整遮罩的方式,来教授 AI 所有这些隐式视觉知识。他们训练模型不是为了从对应图片中预测被遮盖的单词,而是为了让它能从文本中 “脑补” 图片中的缺失部分。

虽然模型最终生成的图像并不完全真实,但这不是重点。重要的是这预示着模型已经包含了正确的高级视觉概念,即 AI 一定程度上具备了儿童的根据文本画图的能力。

图 | AI2 模型根据文本生成的图像示例 (来源:MIT TR)

视觉语言模型获得此类图像生成的能力代表了 AI 研究的重要一步,这表明该模型实际上具有一定程度的抽象能力,而这是理解世界的基本技能。

未来,这项技术很可能对机器人领域产生极大影响。机器人可以使用语言进行交流,当它们对视觉信息的理解越好,就越能够执行复杂的任务。

Hajishirzi 说,从短期来看,这种可视化还可以帮助技术人员更好地理解 AI 模型的学习过程。之后,AI2 团队计划展开更多实验,以提高图像生成的质量,并拓宽模型的视觉和语言。

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282554
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251599

原文标题:这些令人不安的照片,表明AI越来越聪明了!它正在学习根据文字生成图片

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    电子发烧友网报道(文/李弯弯)2025年8月8日凌晨1点,OpenAI以一场长达1小时的线上发布会正式推出GPT-5。这场被业界称为“AI进化分水岭”的发布,终结了长达两年的技术猜测,更以多维度性能
    的头像 发表于 08-09 07:44 ?8407次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:<b class='flag-5'>AI</b>领域的重大飞跃

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    获取图片url,把这个url和token再发给百度的ocr接口获取识别数据……或者图片转base64以后把这个base64给接口,然而鸿蒙这里,目前我也不知道啥原因(可能是发送请求的数据长度有限
    发表于 06-30 18:07

    鸿蒙5开发宝藏案例分享---AI辅助图文内容高效编创

    自动抠图 图片文字智能识别 HDR Vivid高清渲染 无缝接续编辑 编辑内容实时同步多设备 分布式文件系统自动同步素材 三、关键功能实现详解 1. AI图片处理(OCR+抠图) //
    发表于 06-12 11:40

    【名单公布】【五一打卡】劳动最光荣!分享劳动风采,把小智AI套件带回家

    根据内容质量进行先后排序,选出3名最佳回复,送出小智AI机器人套件(ESP32S3) 优质回复内容要求: 内容新颖,字句通畅,要求文字不少于
    发表于 04-28 16:53

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    科正将AI能力体系化并赋终端生态。 大会上,联科定义了“智能体化用户体验”的五大特征:主动及时、知你懂你、互动协作、学习进化和专属隐私信息守护。这五大特征需要跨越从芯片、模型、应用、终端乃至整个
    发表于 04-13 19:52

    DLP4710evm lc TRIG_OUT2脚不输出脉冲信号怎么解决?

    用TRIG_OUT2脚触发相机拍照,前几天还能根据投影同步产生触发信号,这几天再实验的时候TRIG_OUT2脚就不受控制了,一直输出高电平。TRIG_OUT1
    发表于 02-25 08:07

    从性能到商业,Grok3GPT-4o、DeepSeek如何重塑AI版图?

    2025年2月,AI领域仿佛上演了一场激烈的“诸神之战”,马斯克旗下xAI发布的Grok3、OpenAI推出的GPT-4o以及持续凭借R1模型大放异彩的DeepSeek,三大巨头强势登场,让A
    的头像 发表于 02-19 18:14 ?1173次阅读
    从性能到商业,Grok<b class='flag-5'>3</b>、<b class='flag-5'>GPT</b>-4o、DeepSeek如何重塑<b class='flag-5'>AI</b>版图?

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4
    的头像 发表于 02-13 13:43 ?746次阅读

    DeepSeek:引领全球AI竞赛的中国新范式

    的价值重估,DeepSeek现象折射出中国AI产业发展的新逻辑。这家成立仅两年的初创企业,不仅连续推出性能对标GPT-4的MoE(混合专家系统)架构大模型,更在商业化、开源生态、跨场景应用等方面展现出与OpenAI等国际巨头差异化的战略选择。蛇年春节期间
    的头像 发表于 02-09 10:31 ?985次阅读

    OpenAI将发布更智能GPT模型及AI智能体工具

    OpenAI近日透露了其未来发展的重要动向。据OpenAI首席产品官凯文·维尔(Kevin Weil)介绍,公司计划推出更智能的GPT o3模型,并首次亮相AI智能体工具,这将使ChatGPT能够在计算机上执行实际操作,进一步拓
    的头像 发表于 01-24 13:54 ?607次阅读

    腾讯混元3D AI创作引擎正式发布

    AI技术,能够根据用户提供的提示词或图片,直接生成高质量的3D模型。这一功能极大地降低了3D内容创作的门槛,使得即使是缺乏专业
    的头像 发表于 01-23 10:33 ?689次阅读

    AI时代算力的重要性及现状:平衡发展与优化配置的挑战

    瓦时的电力。训练一次拥有1746亿参数的GPT-3模型,所需的算力更是高达3640PFlops,耗资466万美元。
    的头像 发表于 11-04 11:45 ?1316次阅读

    Llama 3GPT-4 比较

    随着人工智能技术的飞速发展,我们见证了一代又一代的AI模型不断突破界限,为各行各业带来革命性的变化。在这场技术竞赛中,Llama 3GPT-4作为两个备受瞩目的模型,它们代表了当前AI
    的头像 发表于 10-27 14:17 ?1316次阅读

    英伟达预测机器人领域或迎“GPT-3时刻”

    未来2-3年内,机器人基础模型的研究将迎来重大突破,这一时刻被形象地比喻为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-20 17:05 ?1145次阅读

    Jim Fan展望:机器人领域即将迎来GPT-3式突破

    英伟达科学家9月19日,科技媒体The Decoder发布了一则引人关注的报道,英伟达高级科学家Jim Fan在近期预测,机器人技术将在未来两到三年内迎来类似GPT-3在语言处理领域的革命性突破,他称之为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-19 15:13 ?1024次阅读