近日,上海人工智能实验室发布联合语言资料数据联盟会员单位,共同发布“生万权”1.0多模式词典训练语言资料开源。
“书生·万卷”1.0将集中语言资料数据联盟会员们丰富的内容积累和上海人工智能实验室的数据处理能力等优势,为学术界及产业界提供高品质的大规模模型多模态事前训练语言资料。开放源代码提供2tb以上的数据,多种融合,精细处理,价值排序,使用方便高效。
此次开放源代码“书生·万卷”1.0包含文本、图片、文本和视频三部分数据集。其中,文本数据来自网页,百科全书,书籍,专利,教材,考试题等,数据总量超过5亿个,数据大小也超过1tb,涵盖科技,文学,媒体,教育,法律等多个领域。
图像和文字数据主要来自公开网页,经过处理形成图像和文字交叉的文件。总数字超过2200万个,数据大小超过140gb,涵盖新闻事件、人物、自然景观、社会生活等多个领域。
视频数据主要是中国中央电视台(cctv)和上海文广集团提供,新闻、电影、电视等多种类型的节目,包括视频,视频文件总数超过1000个,数据大小超过900gb,内容是军事、文艺、体育、自然、知识、影像艺术等领域覆盖着。
-
人工智能
+关注
关注
1810文章
49221浏览量
251554 -
源代码
+关注
关注
96文章
2953浏览量
68609 -
模型
+关注
关注
1文章
3547浏览量
50737
发布评论请先 登录
挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器
挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!
上海贝岭跻身国家认可实验室行列
华清远见AI人工智能专业实验室建设方案,虚实融合,以产业应用驱动高校教学实训变革!

华清远见AI人工智能专业实验室建设方案,以产业应用驱动高校教学实训变革!

浦公山实验室正式启动!

东软与同济大学共建未来车载人工智能联合实验室
爱芯通元NPU适配Qwen2.5-VL-3B视觉多模态大模型

实验室安全管理成焦点,汉威科技赋能实验室安全升级

AgiBot World Colosseo:构建通用机器人智能的规模化数据平台

亥步多模态医疗大模型发布:人工智能引领医疗新纪元
基于AX650N/AX630C部署多模态大模型InternVL2-1B

评论