据外媒,知名机器学习公司OpenAI近日推出两套多模态人工智能系统模型DALL-E和CLIP,DALL-E可以基于文本直接生成图像,CLIP能够完成图像与文本类别的匹配。DALL-E可以将以自然语言形式表达的大量概念转换为恰当的图像,并使用了GPT-3 同样的方法,只不过DALL-E将其应用于文本-图像对。
另一个神经网络CLIP能够执行一系列视觉识别任务。给出一组以语言形式表述的类别,CLIP能够立即将一张图像与其中某个类别进行匹配,而且它不像标准神经网络那样需要针对这些类别的特定数据进行微调。在ImageNet基准上,CLIP的性能超过ResNet-50,在识别不常见图像任务中的性能远超ResNet。
虽然CLIP在识别常见对象时往往表现良好,但在计算图像中对象数量等更抽象或更系统的任务,以及预测照片中最靠近车辆间的距离等更复杂任务上的表现不佳。在这两项任务上,zero-shot CLIP的效果也只比随机猜测好一点。
责任编辑:YYX
-
人工智能
+关注
关注
1809文章
49151浏览量
250613 -
OpenAI
+关注
关注
9文章
1211浏览量
8989
发布评论请先 登录
超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.
聚焦前沿,赋能AI教学!华清远见第32届全国高校人工智能师资班(多模态大模型与具身智能)圆满落幕!

最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)
多模态感知+豆包大模型!家居端侧智能升级

商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型
爱芯通元NPU适配Qwen2.5-VL-3B视觉多模态大模型

评论