AI 简报 20230616 期
1. AMD硬刚英伟达,推出Instinct MI300,单芯片可运行800亿参数
原文:https://mp.weixin.qq.com/s/NeSIBtjZ71evn09NPEAc2Q美国时间本周二,AMD举行了重磅发布会,推出了一款全新的人工智能GPU Instinct MI300,并表示这款处理器将于今年晚些时候开始向部分客户发货。自英伟达发布了AI芯片后,便彻底带动了市场的投资热情,也推动英伟达登上万亿美元市值的高峰。此次AMD发布重磅AI芯片,有望对英伟达当前的市场地位形成一定冲击。AMD推出高性能AI芯片在这次AMD的新品发布会中,核心产品无疑是用于训练大模型的GPU Instinct MI300。早在今年初,AMD便已经宣布了新一代Instinct MI300,是全球首款同时集成CPU、GPU的数据中心APU。如今,这款芯片的名字变成了Instinct MI300A,而纯GPU产品则命名为Instinct MI300X。据AMD的CEO苏姿丰透露,MI300A是全球首个为AI和HPC(高性能计算)打造的APU加速卡,拥有13个小芯片,总共包含1460亿个晶体管,24个Zen 4 CPU核心,1个CDNA 3图形引擎和128GB HBM3内存。相比前代MI250,MI300的性能提高八倍,效率提高五倍。AMD在发布会稍早介绍,新的Zen 4c内核比标准的Zen 4内核密度更高,比标准Zen 4的内核小35%,同时保持100%的软件兼容性。而GPU MI300X更是本次发布会的重点,这款芯片是AMD针对大语言模型优化的版本,该产品的晶体管数量达到1530亿个,内存达到了192GB,内存带宽为5.2TB/s,Infinity Fabric带宽为896GB/s。对比英伟达的H100,MI300X提供的HBM(高带宽内存)密度约为H100的2.4倍,HBM带宽是1.6倍。这意味着AMD的这款产品可以运行比英伟达H100更大的模型,在现场AMD演示了MI300X运行400亿参数的Falcon模型,而OpenAI的GPT-3模型有1750亿个参数。苏姿丰还用Hugging Face基于MI300X的大模型写了一首关于活动举办地旧金山的诗。这也是全球首次在单个GPU上运行这么大的模型,据AMD介绍,单个MI300X可以运行一个参数多达800亿的模型。而在未来随着AI模型越来越大,意味着需要更多GPU来运行最新的大模型,而AMD芯片上内存的增加,意味着开发人员不需要那么多GPU,可以为用户节省大量成本。苏姿丰表示,MI300X将于今年第三季度向一些客户提供样品,并于第四季度量产。同时AMD还发布了AMD Instinct Platform,集合了8个MI300X,可提供总计1.5TB的HBM3内存。对标英伟达的CUDA,AMD也介绍了自身的芯片软件ROCm,AMD总裁Victor Peng称,在构建强大的软件堆栈方面,AMD取得了真正的巨大进步,ROCm软件栈可与模型、库、框架和工具的开放生态系统配合使用。之所以将重心放在AI芯片,也是因为AMD非常看好未来的AI市场。苏姿丰认为,数据中心人工智能加速器的潜在市场总额将从今年的300亿美元增长到2027年的1500亿美元以上。硬刚英伟达,但尚未透露大客户从AMD所介绍的产品性能来看,将成为当下AI市场的有力竞争者,尤其在ChatGPT等生成式AI的带动下,市场对高性能GPU需求旺盛。不过当前市场中,英伟达处于绝对优势,占据80%的市场。而AMD并没有公布这款GPU的具体价格,但是对比英伟达H100价格大多在3万美元以上,如果MI300X价格能够更加实惠,将显著的对英伟达产品造成冲击,并有助于降低生成式AI的研发成本。有意思的是,在如此强劲的性能面前,市场却似乎并不买单。截至当日收盘,AMD股价反而下降了3.61%,市值来到2000亿元关口。而英伟达股价则拉升了3.9%,总市值达到1.01万亿美元,是AMD的五倍。此次AMD并未透露哪些公司会采用MI300X或简配版MI300A,而在此前的发布会中,AMD都会披露新产品的大客户。这可能让市场认为,目前并没有大客户为这款芯片买单。另一方面,AMD并没有透露新款AI芯片的具体售价,但想要有显著的成本优势可能不太现实,因为高密度的HBM价格昂贵。即便MI300X的内存达到了192GB,但这也不是显著优势,因为英伟达也拥有相同内存规格的产品。更重要的原因在于,MI300并不具备H100所拥有的Transformer Engine。Transformer Engine能够用于加速Transformer模型,以在AI的训练和推理中以较低的内存利用率提供更好的性能。有分析师认为,如果训练一个新的模型,需要投入数千个GPU,并耗费一年的时间,那么几乎不会有人会浪费2-3年或者投入3倍数量的GPU。而Transformer Engine能够让大模型实现三倍的性能表达。尽管市场中认为,AMD的MI300芯片应该是除了谷歌的TPU之外,能与英伟达在AI训练端上匹敌的产品。成为当前大企业在训练AI大模型时,除了英伟达之外的另一个重要选择。但想要在短时间内挑战英伟达,显然还是比较困难的。就如AMD总裁VictorPeng说的那样,“尽管这是一个过程,但我们在构建强大的软件堆栈方面取得了很大进展,该软件堆栈与开放的模型、库、框架和工具生态系统兼容。”无论如何需要市场中有大客户切实的使用AMD新款芯片。小结AMD此次重磅发布的MI300系列芯片,无疑为AI市场注入了一剂强心针,不仅预示着AMD在持续看好未来的AI市场,也将表明AMD将在这一市场中与英伟达正面竞争。至少对于相关企业及用户而言,有更多的选择是一件好事。
2. 价格最高降75%、API函数调用上线、上下文长度提高4倍,OpenAI凌晨再给ChatGPT、GPT-4加码!
原文:https://mp.weixin.qq.com/s/GcsAk_qqqWfwck4KSdvJew就在今天凌晨,OpenAI 马不停蹄地又双叒叕更新啦!这一次,不仅重磅升级了 ChatGPT 背后的 GPT-3.5-turbo 模型、以及最先进的 GPT-4 文本生成模型,而且大幅降低了价格,另外还为 gpt-3.5-turbo 提供 16000 个 Token 的语境窗口(Context Window)上下文选项。更新速览详细来看,在今天的更新中,OpenAI 主要聚焦在下面几个维度:
- 全新的 16k 上下文 GPT-3.5-Turbo 模型版本(今天向所有人提供)
- 升级版的 GPT-4 和 GPT-3.5-Turbo 模型
- Chat Completions API 中的新函数调用功能
- 最先进的 V2 嵌入模型降价 75%
- gpt-3.5-turbo 的输入 Token 成本降低 25%
- 宣布 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的淘汰时间表
- GPT-4 的 API 权限将开放给更多的人


- 创建聊天机器人,通过调用外部工具(例如,像 ChatGPT 插件)来回答问题
- 将自然语言转换为 API 调用或数据库查询
- 从文本中提取结构化数据


3. Altman、Hinton 中国首秀:GPT 终将过时,AI 是当今世界最迫切的问题!
原文:https://mp.weixin.qq.com/s/TsjS-2b-UEE7zsWLA2f7AAOpenAI、DeepMind 和 Stability AI 的科学家科普 AI 治理,Google、Meta 和微软的领航人物共论开源未来,图灵奖得主与斯坦福、UC Berkeley、MIT 的教授展开学术辩论——这描述的并不是远在大洋彼岸的 NeurIPS 或 ACL 会议,而是由中国智源研究院主办的年度盛会:北京智源大会。今年的北京智源大会于 6 月 9-10 日召开,20 场论坛、100 场报告、顶尖的专家、顶尖的观众,汇聚了 AI 领域纯粹、专业的前沿思想。OpenAI 创始人 Sam Altman 以及“深度学习三巨头”中的两位 Yann LeCun 与 Geoffrey Hinton 现身于分论坛视频连线的大荧幕上,Max Tegmark 与 Stuart Russell 等来自顶尖学府的教授亲赴现场。CSDN 在现场参加了这场为时两天的 AI 盛会。科技大咖智聚京城,共论当前 AI 领域最前沿的争议焦点:
- 对 AI 保持乐观主义的 Yann LeCun,认为 AI 还远远未发展到还需要操心的程度。GPT 终将过时,未来的 AI 会面临三大挑战,解决后将能训练出「世界模型」(World Model)。
- 曾用一份“暂停 6 个月 AI 研究”的公开信震惊业界的 Max Tegmark 教授则表示,罔顾 AI 的最坏结果将会是人类灭绝。对齐问题将是学术界接下来的一大难题:如此庞大而复杂的智能模型,要怎样才能保持和人类同一水准的价值观和道德观?
- 一亮相便轰动北京会场的 Sam Altman,则发表了一份真诚的呼吁:国际科技界需要团结一心,携手促进 AGI 安全的透明化,为未来十年内诞生的“超级智能”做好准备。
- 学术界还有一部分人,对这些围绕 GPT 的话题并不买账,而是关心更深远的 AI 话题。Stuart Russell 教授直言,目前的大语言模型缺乏「内部目标」,而人类也不理解它们的“黑匣子”里都发生了什么。
- Geoffrey Hinton 则带来了一场精彩绝伦的谢幕演讲:“超级智能”已成雏形,但人类尚未给它建立道德准则——现在为时不晚。
- AGI 可能很快会出现,超级智能在未来十年内可能会成为现实。
- 目前已经取得了一些全球合作的突破,但全球合作仍然面临困难。
- AI 安全性的研究是一个复杂的问题,需要考虑多个因素,并需要大量的投入,希望中国和美国的研究人员能做出贡献。
- 当被问及是否打算重新开放 GPT 的源代码时,Altman 表示已经作出了一定的努力,未来将会有许多开源大模型诞生。但开源模型在 AI 发展中起了重要作用,当模型变得更大时,就更需要谨慎安全问题。
- 杨立昆即将参加一个辩论,与 Joshua Bengio、Max Tegmark 和 Melanie Mitchell 讨论人工智能是否会威胁人类生存。
- Max Tegmark 和 Joshua Bengio 认为强大的人工智能系统可能对人类构成风险,而杨立昆和 Melanie Mitchell 则持相反观点。
- 杨立昆指出,他并不是想说“AI 完全不存在风险”,而是认为“目前的 AI 风险可以被谨慎的工程设计减轻或抑制”。
- 杨立昆表示自己不能预测超级智能在未来能造成多大的影响,因为超级智能尚未问世。他举了一个例子:如果你去问一个 1930 年的航空工程师,“我该如何确保涡轮喷气发动机的安全可靠性?”那他肯定答不出来,因为涡轮喷气发动机在 1930 年还没被发明出来。
4. CVPR23|清华大学提出LiVT:用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
原文:https://mp.weixin.qq.com/s/1MfOWcE9x7Vk7tP2n1V4bg背景在机器学习领域中,学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来,视觉 Transformer 作为一种强大的模型,在多个视觉任务上展现出令人满意的效果。然而,视觉 Transformer 处理长尾分布数据的能力和特性,还有待进一步挖掘。目前,已有的长尾识别模型很少直接利用长尾数据对视觉 Transformer(ViT)进行训练。基于现成的预训练权重进行研究可能会导致不公平的比较结果,因此有必要对视觉 Transformer 在长尾数据下的表现进行系统性的分析和总结。

论文链接:https://arxiv.org/abs/2212.02015代码链接:https://github.com/XuZhengzhuo/LiVT本文旨在填补这一研究空白,详细探讨了视觉 Transformer 在处理长尾数据时的优势和不足之处。本文将重点关注如何有效利用长尾数据来提升视觉 Transformer 的性能,并探索解决数据不平衡问题的新方法。通过本文的研究和总结,研究团队有望为进一步改进视觉 Transformer 模型在长尾数据任务中的表现提供有益的指导和启示。这将为解决现实世界中存在的数据不平衡问题提供新的思路和解决方案。文章通过一系列实验发现,在有监督范式下,视觉 Transformer 在处理不平衡数据时会出现严重的性能衰退,而使用平衡分布的标注数据训练出的视觉 Transformer 呈现出明显的性能优势。相比于卷积网络,这一特点在视觉 Transformer 上体现的更为明显。另一方面,无监督的预训练方法无需标签分布,因此在相同的训练数据量下,视觉 Transformer 可以展现出类似的特征提取和重建能力。基于以上观察和发现,研究提出了一种新的学习不平衡数据的范式,旨在让视觉 Transformer 模型更好地适应长尾数据。通过这种范式的引入,研究团队希望能够充分利用长尾数据的信息,提高视觉 Transformer 模型在处理不平衡标注数据时的性能和泛化能力。文章贡献本文是第一个系统性的研究用长尾数据训练视觉 Transformer 的工作,在此过程中,做出了以下主要贡献:首先,本文深入分析了传统有监督训练方式对视觉 Transformer 学习不均衡数据的限制因素,并基于此提出了双阶段训练流程,将视觉 Transformer 模型内在的归纳偏置和标签分布的统计偏置分阶段学习,以降低学习长尾数据的难度。其中第一阶段采用了流行的掩码重建预训练,第二阶段采用了平衡的损失进行微调监督。





5. LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
原文:https://mp.weixin.qq.com/s/A_MmOIOQ08SzWntpd6VYGg去年初,Meta 首席 AI 科学家 Yann LeCun 针对「如何才能打造出接近人类水平的 AI」提出了全新的思路。他勾勒出了构建人类水平 AI 的另一种愿景,指出学习世界模型(即世界如何运作的内部模型)的能力或许是关键。这种学到世界运作方式内部模型的机器可以更快地学习、规划完成复杂的任务,并轻松适应不熟悉的情况。LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。6 月 9 日,在 2023 北京智源大会开幕式的 keynote 演讲中,LeCun 又再次讲解了世界模型的概念,他认为基于自监督的语言模型无法获得关于真实世界的知识,这些模型在本质上是不可控的。今日,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架构(Image Joint Embedding Predictive Architecture, I-JEPA),它通过创建外部世界的内部模型来学习, 比较图像的抽象表示(而不是比较像素本身)。I-JEPA 在多项计算机视觉任务上取得非常不错的效果,并且计算效率远高于其他广泛使用的计算机视觉模型。此外 I-JEPA 学得的表示也可以用于很多不同的应用,无需进行大量微调。


通过自监督学习获取常识型知识I-JEPA 基于一个事实,即人类仅通过被动观察就可以了解关于世界的大量背景知识,这些常识信息被认为是实现智能行为的关键。通常,AI 研究人员会设计学习算法来捕获现实世界的常识,并将其编码为算法可访问的数字表征。为了高效,这些表征需要以自监督的方式来学习,即直接从图像或声音等未标记的数据中学习,而不是从手动标记的数据集中学习。在高层级上,JEPA 的一个输入中某个部分的表征是根据其他部分的表征来预测的。同时,通过在高抽象层次上预测表征而不是直接预测像素值,JEPA 能够直接学习有用的表征,同时避免了生成模型的局限性。相比之下,生成模型会通过删除或扭曲模型输入的部分内容来学习。然而,生成模型的一个显著缺点是模型试图填补每一点缺失的信息,即使现实世界本质上是不可预测的。因此,生成模型过于关注不相关的细节,而不是捕捉高级可预测的概念。
- 论文地址:https://arxiv.org/pdf/2301.08243.pdf
- GitHub 地址:https://t.co/DgS9XiwnMz




6. 视频版Midjourney免费开放,一句话拍大片!网友:上一次这么激动还是上次了
https://mp.weixin.qq.com/s/Eeuea9l_iQ87eMghCIHpMQ家人们,现在做个影视级视频,也就是一句话的事了!例如只需简单输入“丛林(Jungle)”,大片镜头便可立刻呈现:而且围绕着“丛林”变换几个搭配的词语,比如“河流”、“瀑布”、“黄昏”、“白天”等,这个AI也能秒懂你的意思。还有下面这些自然美景、宇宙奇观、微观细胞等高清视频,统统只需一句话。这就是Stable Diffusion和《瞬息全宇宙》背后技术公司Runway,出品的AI视频编辑工具Gen2。而且就在最近,一个好消息突然袭来——Gen2可以免费试用了!这可把网友们开心坏了,纷纷开始尝鲜了起来。体验Gen2实录如此好玩的技术,我们当然也要亲手体验上一番。例如我们给Gen2投喂了一句中文:
上海外滩夜景,影视风格。
一个航拍视角的视频片段便立即被做了出来。如果想让视频的风格变换一下,也可以上传一张图片,例如我们用的是一张赛博朋克风格的城市照片。
目前Runway官网可免费体验Gen2的功能是文生视频(Text to Video),但Gen1也开放了视频生视频(Video to Video)的功能。例如一个国外小哥可能受《瞬息全宇宙》的启发,凭借Gen1也玩了一把更刺激的穿越。他先是在家录了一段打响指的视频,然后“啪的一下”,瞬间让自己步入欧洲皇室贵族的“片场”:
更多内容请查阅源文档。
7. 分割一切模型(SAM)的全面综述调研
https://mp.weixin.qq.com/s/39imonlyIdSHYW9VnQhOjw人工智能(AI)正在向 AGI 方向发展,这是指人工智能系统能够执行广泛的任务,并可以表现出类似于人类的智能水平,狭义上的 AI 就与之形成了对比,因为专业化的 AI 旨在高效执行特定任务。可见,设计通用的基础模型迫在眉睫。基础模型在广泛的数据上训练,因而能够适应各种下游任务。最近 Meta 提出的分割一切模型(Segment Anything Model,SAM)突破了分割界限,极大地促进了计算机视觉基础模型的发展。SAM 是一个提示型模型,其在 1100 万张图像上训练了超过 10 亿个掩码,实现了强大的零样本泛化。许多研究人员认为「这是 CV 的 GPT-3 时刻,因为 SAM 已经学会了物体是什么的一般概念,甚至是未知的物体、不熟悉的场景(如水下、细胞显微镜)和模糊的情况」,并展示了作为 CV 基本模型的巨大潜力。为了充分了解 SAM,来自香港科技大学(广州)、上海交大等机构的研究者对其进行了深入研究并联合发表论文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。

论文链接:https://arxiv.org/abs/2305.08196作为首个全面介绍基于 SAM 基础模型进展的研究,该论文聚焦于 SAM 在各种任务和数据类型上的应用,并讨论了其历史发展、近期进展,以及对广泛应用的深远影响。本文首先介绍了包括 SAM 在内的基础模型的背景和术语,以及对分割任务有重要意义的最新方法;然后,该研究分析并总结了 SAM 在各种图像处理应用中的优势和限制,包括软件场景、真实世界场景和复杂场景,重要的是,该研究得出了一些洞察,以指导未来的研究发展更多用途广泛的基础模型并改进 SAM 的架构;最后该研究还总结了 SAM 在视觉及其他领域的应用。下面我们看看论文具体内容。SAM 模型概览SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 项目。该项目发现在 NLP 和 CV 领域中出现的基础模型表现出较强的性能,研究人员试图建立一个类似的模型来统一整个图像分割任务。然而,在分割领域的可用数据较为缺乏,这与他们的设计目的不同。因此,如图 1 所示,研究者将路径分为任务、模型和数据三个步骤。





———————End———————
RT-Thread线下入门培训
7月 - 上海,南京
1.免费2.动手实验+理论3.主办方免费提供开发板4.自行携带电脑,及插线板用于笔记本电脑充电5.参与者需要有C语言、单片机(ARM Cortex-M核)基础,请提前安装好RT-Thread Studio 开发环境
报名通道
立即扫码报名
(报名成功即可参加)
扫码添加rtthread2020可参加活动可加微信拉进活动现场微信群
主办单位
报名链接:https://jinshuju.net/f/UYxS2k
点击阅读原文,进入RT-Thread 官网
原文标题:【AI简报20230616】英伟达推出Instinct MI300、OpenAI凌晨再给ChatGPT、GPT-4加码!
-
RT-Thread
+关注
关注
32文章
1427浏览量
42162
原文标题:【AI简报20230616】英伟达推出Instinct MI300、OpenAI凌晨再给ChatGPT、GPT-4加码!
文章出处:【微信号:RTThread,微信公众号:RTThread物联网操作系统】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
评论