0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DALL-E和生成式AI的未来

CVer ? 来源:机器之心 ? 2023-01-30 15:47 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DALL-E 等生成式模型的「高光时刻」已经出现,作为发明者,Ramesh 表示:「我们第一次尝试这个研究方向,是想看看能有什么作为。现在想来,恍如昨日。」

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图像生成》(Zero-Shot Text-to-Image Generation)。

2021 年 1 月 5 日,也就是两年前,随着这篇论文和网站演示的发布,OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道,OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

49928b48-9f76-11ed-bfe3-dac502259ad0.png

图源自 DALL-E。

经过训练,Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说,其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」,并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示,自那以后,整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展,这算是一种很保守的说辞。随后便是扩散模型的迅速崛起,其出现改变了去年 4 月发布的 DALL-E 2,以及它的开源对手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat:「我们第一次尝试这个研究方向,想看看能有什么作为,现在感觉恍如昨日。我知道这项技术将会对消费者产生影响,也会帮助到并对许多不同的应用程序,但我仍然对其发展速度之快感到惊讶。」

如今,生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说:「我很高兴能够为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研究

CLIP 是与 DALL-E 1 研究共同开发和公布的,它是一个基于零样本学习的独立模型,实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练,能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

当然,很多早期迹象表明,当前即将迎来文字到图像的进步。英属哥伦比亚大学(University of British Columbia)的计算机科学副教授 Jeff Clune 说道:「多年来的研究显示,这种未来近在咫尺。」2016 年,他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

他说:「我的意思是,几年后,人们可以描述任何想要的图像,然后由 AI 来生成它,比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为,生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示:「值得一提的是,2014 年生成式对抗网络(GANs)的开发和 DeepMind 2016 年的 WaveNet 等研究已经开始展示 AI 模型如何分别从头生成新的图像和音频。」

尽管如此,最初的 DALL-E 论文「在当时给人留下了深刻的印象」,未来学家、作家和 AI 研究员 Matt White 补充道。他说:「虽然这不是文本到图像合成领域的首项工作,但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法,更是将推广范围扩大到公众层面,这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研究

Ramesh 说,他的初心始终是尽可能地推动这项研究。

他说:「我们觉得文本到图像的生成很有意思,作为人类,我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况,也可以是不可能发生的幻想场景,或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像,并且和人类一样做出推断。」

Ramesh 还补充道,对原始 DALL-E 的主要研究影响之一是 VQ-VAE,这是一种由 DeepMind 研究人员 Aaron van den Oord 首创的技术:像语言模型所训练的 token 一样,将图像也分解为 token。

他解释说:「所以我们可以采用像 GPT 这样的 transformer,训练它的目的是为了预测下一个单词,并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

他说,DALL-E 会带给人们惊喜,因为「在语言模型中看到泛化的例子是一回事,但当在图像生成中看到它时,它就会更加直观且具有更深的影响力。」

DALL-E 2 向扩散模型的转变

但最初 DALL-E 研究发表时,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研究在 GLIDE(一种新的 OpenAI 扩散模型)的修改版本中使用扩散模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样,「DALL-E 1 使用离散变分自编码器 (dVAE)、下一个 token 预测和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通过类似 GLIDE 的扩散来解码图像。」

Ramesh 说:「将扩散模型和 DALL-E 结合起来,看似是一件自然而然的事,因为扩散模型有很多优点,其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

他解释道,在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

「当 Alex 第一次尝试时,没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本,但让我惊讶的是,它已经开始让用户受益了。」

2022 年 4 月 6 日,当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时,他们中的大部分都惊叹于图像质量的差异。

「竞争激烈,喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat,2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮,这些研究建立在语言和图像处理的基本进展之上,包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时,「扩散是我们行内人意料之外的突破,它切实地提升了游戏质量,」她说。

她补充说,自从最初的 DALL-E 研究论文发表以来,过去两年一直是「竞争激烈,喜忧参半」。

「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的,」她还指出,在现代文本到图像的进展中,个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念,而没有为艺术家提供任何追索权,」她如此总结道。

DALL-E 没有公开源代码,这导致其他系统开发了开源的文本转图像选项,这在 2022 年夏天前引起了轰动。

最初的 DALL-E「很有意思,但无法使用」,Stability AI 的创始人 Emad Mostaque 说,他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代,并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说:「我们从 2021 年夏天开始积极资助和支持它。」

展望未来,White 认为,即使不久将要迎来新一代,DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题,」,他指出,这些问题是相互交织且互相影响的,像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果(即红狗穿棕色衬衫,红狗穿红色衬衫或完全不同的颜色)。此外,他补充道,DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难,「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技术工作原理,这样可以消除很多误解。

他说:「在大众眼里。这个模型的工作方式是:它在某处有个图像数据库,它生成图像的方式是将这些图像片段剪切粘贴在一起,从而创造出新的东西。但实际上,它的工作方式更接近于人类,当模型接受图像训练时,它会学习所有这些概念的抽象表征。」

他还解释道:「在我们从头开始生成图像时,我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始,经过多重步骤,逐步添加细节,就像艺术家总是从一个粗略的草图开始发挥,随着时间的推移再慢慢充实他的作品。」

他说,助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去,我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具,就像 Codex 是程序员的副驾驶一样。据我们所知,一些艺术家认为在创建想法原型时,DALL-E 非常有用,因为他们通常会花几个小时甚至几天的时间来探索某个概念,随后才决定采用它,而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说,他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过(OpenAI 的)ChatGPT,我认为我们已经极大地扩展了这些 AI 工具的功能,并让很多人接触到它。希望随着时间的推移,那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它,并找到方法来使用其构建出他们心中所想。」

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1094

    浏览量

    41500
  • 数据库
    +关注

    关注

    7

    文章

    3939

    浏览量

    66575
  • 生成式AI
    +关注

    关注

    0

    文章

    532

    浏览量

    844

原文标题:DALL-E发明者:我对其两年来产生的影响感到惊讶

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    树莓派 也能搞 AI 艺术?树莓派遇上DALL-E,开启你的 AI 艺术创作之旅!

    本教程将向你展示如何使用DALL-EAPI从你的RaspberryPi上生成随机的AI艺术。近年来,人工智能(AI)是一个取得了巨大飞跃的领域,这在很大程度上要归功于OpenAI等团队
    的头像 发表于 03-25 09:29 ?311次阅读
    树莓派 也能搞 <b class='flag-5'>AI</b> 艺术?树莓派遇上<b class='flag-5'>DALL-E</b>,开启你的 <b class='flag-5'>AI</b> 艺术创作之旅!

    聚云科技获亚马逊云科技生成AI能力认证

    近日,云管理服务提供商聚云科技成功获得亚马逊云科技生成AI能力认证。此次认证标志着聚云科技在利用亚马逊云科技全托管的生成
    的头像 发表于 02-19 10:33 ?534次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证

    助力企业加速生成AI应用落地 北京2025年2月14日?/美通社/ -- 云管理服务提供商聚云科技获得亚马逊云科技生成
    的头像 发表于 02-14 16:07 ?446次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证 助力企业加速生成AI应用落地

    北京 ——2025 年 2 月 14 日 云管理服务提供商聚云科技获得亚马逊云科技生成AI能力认证,利用亚马逊云科技全托管的生成
    发表于 02-14 13:41 ?176次阅读

    涂鸦智能集成Mistral AI大模型,加速欧洲AI硬件革新

    。LeChat作为完全开源的应用,每秒可处理1100个token(约1000单词),比ChatGPT快13倍,图像生成能力超过DALL·E,还可同时支持iOS和An
    的头像 发表于 02-13 20:58 ?368次阅读
    涂鸦智能集成Mistral <b class='flag-5'>AI</b>大模型,加速欧洲<b class='flag-5'>AI</b>硬件革新

    自动化巨头布局生成AI,先瞄准PLC编程?

    今科技迅猛发展的时代,自动化行业的巨头们正在积极布局生成AI,以期在未来的竞争中占据先机。这一转型不仅是技术革新,更是行业内外所关注的热议话题。
    的头像 发表于 01-21 17:24 ?562次阅读

    生成AI推理技术、市场与未来

    (reasoning)能力,这一转变将极大推动上层应用的发展。 红杉资本近期指出,在可预见的未来,逻辑推理和推理时计算将是一个重要主题,并开启生成AI的下一阶段。新一轮竞赛已然开始。
    的头像 发表于 01-20 11:16 ?896次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>推理技术、市场与<b class='flag-5'>未来</b>

    生成AI工具好用吗

    当下,生成AI工具正以其强大的内容生成能力,为用户带来了前所未有的便捷与创新。那么,生成
    的头像 发表于 01-17 09:54 ?498次阅读

    国内生成AI备案数量突破300款

    截至2024年底,我国生成人工智能服务领域取得了显著进展,国家互联网信息办公室备案的生成AI服务总数已达到302款,标志着该领域正以前所
    的头像 发表于 01-09 11:14 ?923次阅读

    Google两款先进生成AI模型登陆Vertex AI平台

    生成 AI 正在引领商业增长与转型。在已经将生成 AI 部署到生产环境的企业中,有86%的企
    的头像 发表于 12-30 09:56 ?676次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具
    的头像 发表于 12-12 09:40 ?759次阅读

    Imagination 系列研讨会 |中国生成 AI 的发展

    近期,Imagination将陆续推出全新系列研讨会,涵盖边缘AI如何推动工业物联网的发展,生成AI,智能汽车未来发展趋势等等多个热门话题
    的头像 发表于 12-09 16:57 ?734次阅读
    Imagination 系列研讨会 |中国<b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 的发展

    IDC生成AI白皮书亮点速递

    在数字化浪潮中,生成 AI 正成为推动创新和变革的关键力量。本文将分享由 IDC 发布的《技术革新引领未来——生成
    的头像 发表于 11-04 10:12 ?842次阅读

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理
    的头像 发表于 10-28 11:19 ?788次阅读

    STAR AI进军美股科技星智能领跑生成AI赛道

    正在改变着人类的生存方式,基于生成AI的工具导致了内容生产的爆炸性增长。 据Bloomberg Intelligence报告预测,预计到2035年,全球生成
    的头像 发表于 08-22 08:56 ?679次阅读
    STAR <b class='flag-5'>AI</b>进军美股科技星智能领跑<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>赛道