0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

上海人工智能实验室发布多模态语料

微云疏影 ? 来源:综合整理 ? 作者:综合整理 ? 2023-08-17 10:17 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,上海人工智能实验室发布联合语言资料数据联盟会员单位,共同发布“生万权”1.0多模式词典训练语言资料开源。

“书生·万卷”1.0将集中语言资料数据联盟会员们丰富的内容积累和上海人工智能实验室的数据处理能力等优势,为学术界及产业界提供高品质的大规模模型多模态事前训练语言资料。开放源代码提供2tb以上的数据,多种融合,精细处理,价值排序,使用方便高效。

此次开放源代码“书生·万卷”1.0包含文本、图片、文本和视频三部分数据集。其中,文本数据来自网页,百科全书,书籍,专利,教材,考试题等,数据总量超过5亿个,数据大小也超过1tb,涵盖科技,文学,媒体,教育,法律等多个领域。

图像和文字数据主要来自公开网页,经过处理形成图像和文字交叉的文件。总数字超过2200万个,数据大小超过140gb,涵盖新闻事件、人物、自然景观、社会生活等多个领域。

视频数据主要是中国中央电视台(cctv)和上海文广集团提供,新闻、电影、电视等多种类型的节目,包括视频,视频文件总数超过1000个,数据大小超过900gb,内容是军事、文艺、体育、自然、知识、影像艺术等领域覆盖着。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251554
  • 源代码
    +关注

    关注

    96

    文章

    2953

    浏览量

    68609
  • 模型
    +关注

    关注

    1

    文章

    3547

    浏览量

    50737
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:23

    上海贝岭跻身国家认可实验室行列

    近日,上海贝岭股份有限公司检测中心可靠性实验室正式通过中国合格评定国家认可委员会(CNAS)的严格评审,获得CNAS认可实验室资质证书(注册号:CNAS L23589)。这标志着上海
    的头像 发表于 08-01 09:51 ?398次阅读

    华清远见AI人工智能专业实验室建设方案,虚实融合,以产业应用驱动高校教学实训变革!

    人工智能技术迭代提速的当下,高校教学正面临着技术落地与人才培养的双重挑战。作为高校教师,我们常常会遇到这样的困境:课本知识跟不上技术发展速度,实验室硬件难以支撑复杂项目实训,产教融合缺乏实际落地
    的头像 发表于 07-31 15:14 ?798次阅读
    华清远见AI<b class='flag-5'>人工智能</b>专业<b class='flag-5'>实验室</b>建设方案,虚实融合,以产业应用驱动高校教学实训变革!

    具身智能机器人在检验检测实验室应用的技术路径探讨

    具身智能机器人在检验检测实验室的应用需突破模态感知、灵巧操作、认知决策等核心技术,并通过仿真训练、大模型微调等路径实现落地。一、核心技术瓶颈1.
    的头像 发表于 07-28 17:32 ?509次阅读
    具身<b class='flag-5'>智能</b>机器人在检验检测<b class='flag-5'>实验室</b>应用的技术路径探讨

    华清远见AI人工智能专业实验室建设方案,以产业应用驱动高校教学实训变革!

    人工智能技术迭代提速的当下,高校教学正面临着技术落地与人才培养的双重挑战。作为高校教师,我们常常会遇到这样的困境:课本知识跟不上技术发展速度,实验室硬件难以支撑复杂项目实训,产教融合缺乏实际落地
    的头像 发表于 06-27 13:45 ?581次阅读
    华清远见AI<b class='flag-5'>人工智能</b>专业<b class='flag-5'>实验室</b>建设方案,以产业应用驱动高校教学实训变革!

    浦公山实验室正式启动!

    6月21日浦公山实验室在软件园三期正式启动浦公山实验室面向我国信创技术及产业生态,由集美区人工智能产业联盟主要成员单位共同组建,旨在打造覆盖通用计算与数据安全的自主可控人工智能产业软硬
    的头像 发表于 06-24 10:11 ?548次阅读
    浦公山<b class='flag-5'>实验室</b>正式启动!

    东软与同济大学共建未来车载人工智能联合实验室

    4月26日,由 东软集团和同济大学共同建立的未来车载人工智能联合实验室正式落成 。在同济大学充满科技与人文的校园里,双方以“聚势领航 AI启智途”为主题举办揭牌仪式,标志着这一产学研深度融合的创新
    的头像 发表于 04-27 14:00 ?832次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCPM V 2.0,
    的头像 发表于 04-21 10:56 ?1765次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    实验室安全管理成焦点,汉威科技赋能实验室安全升级

    实验室是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。近年来,各高校、研究院所、科创园区、高新产业园区相关企业的实验室呈现爆发
    的头像 发表于 04-10 10:41 ?478次阅读
    <b class='flag-5'>实验室</b>安全管理成焦点,汉威科技赋能<b class='flag-5'>实验室</b>安全升级

    AgiBot World Colosseo:构建通用机器人智能的规模化数据平台

    数据的匮乏,制约了通用操纵能力的突破。上海人工智能实验室与AgiBot公司联合研发的AgiBot World Colosseo平台,通过构建大规模、模态的真实世界数据集与通用政策模型
    的头像 发表于 03-12 11:42 ?1199次阅读
    AgiBot World Colosseo:构建通用机器人<b class='flag-5'>智能</b>的规模化数据平台

    亥步模态医疗大模型发布人工智能引领医疗新纪元

    当下,人工智能(AI)正以不可阻挡之势渗透到各行各业,包括医疗行业。12月14日,2024中国医学人工智能大会的召开。会上,一款名为“亥步”的模态医疗大模型的正式
    的头像 发表于 12-19 17:56 ?599次阅读

    基于AX650N/AX630C部署模态大模型InternVL2-1B

    InternVL2是由上海人工智能实验室OpenGVLab发布的一款模态大模型,中文名称为“书生·万象”。该模型在多学科问答(MMMU)等
    的头像 发表于 11-18 17:32 ?1923次阅读
    基于AX650N/AX630C部署<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型InternVL2-1B

    内部创新驱动:SNP启动AI人工智能和云创新实验室

    SNP是SAP系统中数字化转型、自动化数据迁移和数据管理软件的知名提供商,该公司推出了一个人工智能和云创新实验室。未来,来自不同学科和SNP地点的专家,如新泽西州、布宜诺斯艾利斯和海德堡,以及子公司
    的头像 发表于 11-18 09:15 ?543次阅读

    Meta发布模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Meta在AI
    的头像 发表于 09-27 11:44 ?762次阅读