“大语言模型为 AI 产业带来新的生机,然而语言模型的应用场景有限。要全面打开生成式 AI 的想象力,还是要依托多模态大模型。”IDC 中国研究总监卢言霞近日表示。Sora在文生视频领域真正迈出了第一步,真正做到生成式 AI 驱动生成短视频。接下来也将刺激其他科技巨头加快在该领域的技术攻关力度以及产品发布速度。
哪些公司有潜力快速推出类似产品呢?根据卢言霞的判断,几个最有潜力的群体包括,在大模型以及 AI 领域投入最为领先的科技巨头,如 BAT、科大讯飞等;在计算机视觉领域拥有深厚积累的公司,比如商汤、海康一类的公司;以及短视频类公司;更可大胆想象,也或许会培训出多模态大模型的全新创企。
多模态大模型将率先在短视频、广告、互娱、影视、媒体等领域采用,辅助人类员工生成视频,既可以提高生产速度又可以提高生产数量,还可以创造全新的视觉感受,能够帮助企业真正实现降本增效、提升用户体验。
根据预测,未来 5 年,生成式 AI 生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会越来越平均。而这其中,与图像文件相关的数据量可能是文本文件的 100 倍,视频文件是图像文件的 10 倍。整体来看,由于 GenAI 的采用和使用日益增多,近期和远期所创建数据的增长速度都将快于近几年。
卢言霞指出,多模态大模型行业发展的挑战在于:
? 高质量数据的稀缺:图像、视频类数据掌握在少数公司手中。这些数据也需要标注,甚至重新采集,才能用于大模型的训练。
? 多模态大模型对算力的消耗更高,算力的可获取性以及成本将是挑战之一。
? 顶尖的大模型研发人才,也是行业发展的稀缺资源。
此外,多模态大模型将带来更严峻的安全方面的挑战。一方面多模态大模型将读取更多的图像、视频类数据,这些图像视频数据是否合规是否安全,需要得到保障;另一方面,生成的视频与真实世界之间的差异,是否会影响到人身安全、社会稳定、企业安全等,也需要注意。
当前 Sora 生成的是1分钟的视频,对于行业已经是重大突破,何时能生成2分钟、5分钟以上的视频还未知,无论如何多模态大模型的应用都将是颠覆性的。
发布评论请先 登录
“端云+多模态”新范式:《移远通信AI大模型技术方案白皮书》正式发布

商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型
海康威视发布多模态大模型AI融合巡检超脑
移远通信智能模组全面接入多模态AI大模型,重塑智能交互新体验

商汤日日新多模态大模型权威评测第一
成都汇阳投资关于Sora 正式上线,多模态模型的里程碑
一文理解多模态大语言模型——上

评论