0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

参天生长大模型:昇腾AI如何强壮模型开发与创新之根?

脑极体 ? 来源:脑极体 ? 作者:脑极体 ? 2022-08-11 09:10 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自2018年谷歌发布BERT以来,预训练大模型经过几年的发展,以强大的算法效果,席卷了以NLP为代表的各大AI榜单与测试数据集。2020年OpenAI发布的NLP大模型GPT-3,实现了千亿级参数。BERT、GPT的强大能力成为AI领域里程碑式的存在,大模型的显著优势,也让产业界巨头与机构纷纷参与其中。

大模型优秀的泛化能力、通用AI的能力、高精度、覆盖多业务场景等优势,降低了AI开发与应用的门槛,也让“炼大模型”也成为AI产业的潮流。但有了算力、有了大模型,AI产业创新与落地应用就无忧无虑了吗?答案并没有这么简单,很多产业需求是无法用通用模型来处理的,技术理论与应用场景之间仍然存在着代沟;一些超大规模模型在部署时也会面临一系列问题,如算力、调参难度、硬件兼容性等。

如何让大模型走出实验室,走向产业,推动行业的创新,成为横亘在AI厂商面前的难题。那么,大模型该如何完成自身的进化,去适配使用场景、进一步推动AI产业的发展呢?在这方面,华为有一些方法与路径值得借鉴与思考。

从刷分转向全面可用

预训练大模型是AI持续变革的动力与核心发展方向之一,随着AI不断深入产业与各学科领域的过程中,科研院所及各大企业间开始了大模型军备battle,模型的类型朝着多样化、参数规模朝着极致化的方向发展。

百家争鸣中,我们看到模型参数规模越来越大,数据集纪录不断被刷新。但在真正的产业空间里,却很难看到大模型规模化的应用。拼模型参数,拼下游任务打榜成绩,是厂商推出大模型后标榜实力的惯常操作。然而到拼落地应用的时候,许多厂商的大模型却缄默了。

从高分到高能,大模型距离现实中的产业场景还有不短的路程要走。让大模型从“刷分”走向千行百业,需要一场全面的转型。

为了更好地推动大模型的发展,华为推出了人工智能大模型全流程使能体系,该体系包含从大模型规划、开发到产业化全流程,加速大模型产业化进程。

在产业界基于昇腾AI先后推出鹏程.盘古、鹏程.神农、紫东.太初、武汉.LuoJia、华为云盘古系列等有影响力的大模型后,为进一步鼓励大模型的研究与创新,华为推出了昇腾科研创新使能计划,通过资金、算力、技术和社区的扶持,鼓励高校及科研院所基于昇腾大模型沙盘,开展大模型的研究和创新,在前沿领域和热点行业打造出世界级领先的大模型。

为了让大模型易开发、易适配、易部署,针对基础模型开发,华为推出基于昇思MindSpore的大模型开发套件,通过算法开发、并行计算、存储优化、断点续训等技术,实现大模型的高效开发与部署。

从科研创新到行业落地,华为与产业伙伴一起成立了智能遥感开源生态联盟和多模态人工智能产业联盟等,目前已经有70余家合作伙伴陆续孵化出多个行业解决方案,未来华为还会联合伙伴成立AI流体力学、AI生物医药及智慧生物育种等产业联盟,助力相关领域的大模型创新和产业化发展。

大模型全流程使能体系不仅为大模型的研发与创新带来生长的土壤,也促进着生态伙伴基于已有大模型孵化更多行业应用,同时,大模型也会得到行业更丰富的数据和更泛化应用场景的反哺。在良性循环的过程中,大模型从而生长得更加茁壮,能够真正枝繁叶茂地赋能产业。

从宏观的使能体系中,我们能够感知到大模型赋能千行百业的实力与价值;在微观个体中,透过大模型的代表紫东.太初,我们也能够看到其带来的产业之变。

紫东.太初的开发之根

现阶段,产学研界的大模型主要集中在NLP和CV领域。行业内传统的以文本、图像为主的单模态或双模态预训练模型,覆盖的范围与满足的需求有限,不能充分发挥数据生产力,限制了下一阶段AI 的应用创新。多模态大模型应运而生,打通图像、文本、语音等不同模态数据的协同转化,进而使AI应用更贴合人类行为习惯与现实需求,成为当前人工智能行业攻坚点之一。

紫东.太初是全球首个三模态千亿参数大模型,作为多模态模型的代表,正在全力助推AI研发规则和产业应用模式变革,加速各行业智能化转型实践。在7月29日-31日的首届中国算力大会上,“紫东.太初”大模型荣获“DC Tech创新先锋”优秀成果奖。

创新先锋优秀成果奖评选大模型的维度严谨并全面,无论是技术、系统,还是应用赋能等方面,都是重点考量的因素。紫东.太初大模型被业界认可,成为标杆引领多模态大模型,能够保持优秀并持续创新的前提,源于其强壮的AI根技术,在AI框架、AI算力等层面满足大模型的“创新”需求。

紫东.太初是中科院自动化所以昇腾AI基础软硬件为基础,基于全场景AI框架昇思MindSpore打造的三模态模型,紫东.太初兼具跨模态理解和生成能力,与单模态和图文两模态相比,其采用一个大模型就可以灵活支撑图-文-音全场景AI应用,具有在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。

紫东.太初目前已经具备领先的图文音跨模态理解与生成能力,可轻松完成智能问答、图片生成、视频理解与等任务,这些能力将在工业质检、影视创作、互联网推荐、智能驾驶等领域广泛应用。例如在纺织工业生产线中的应用案例中,紫东.太初融合多模态信息,可以通过声音识别来判断纺织机运转过程中断经和断纬的情形,同时通过视觉识别来判断布匹的缺陷,展示出综合研判的能力和广阔的应用前景。

由于三模态大模型非常接近人类的信息处理方式,其对信息数据有非常好的协同掌握能力,因此可以非常广泛地应用于产学各领域,孵化出更多新应用。新华社技术局、长安汽车、中国移动、千博手语等企业通过加盟多模态人工智能产业联盟,将开源的多模态大模型与自身业务融合创新,基于紫东.太初陆续孵化出新媒体内容检索平台、智能座舱、南宋御街数字人、手语教考一体机等场景化行业应用,充分展现了大模型的潜力与产业价值。

从大模型技术深处挖掘,我们会发现紫东.太初的打造,得益于昇腾AI的产业底座,尤其是昇思对大模型的原生支持,让大模型具备了快速开发、极简训练的“开发之根”。

浇灌创新之花

从昇思AI框架中汲取“创新”的营养浇灌大模型,是使能其发展的关键。昇思 MindSpore 在进行架构设计时就考虑了大模型开发时遇到的内存占用、通信瓶颈、调试复杂、部署难等问题,针对性进行技术研究与创新。

在大模型支持方面,昇思实现了原生支持大模型,能够在业界率先支持全自动并行计算。在大模型训练中,可以同时使用数据并行、算子级模型并行、Pipeline 模型并行、优化器模型并行、异构并行、重计算、高效内存复用多维度、全种类的分布式并行策略;原创集群拓扑感知的多维度自动混合并行,实现超大模型自动切分、并行计算,显著提升集群加速能力;新的 DNN分布式并行编程范式,可以实现低代码算法切换,大幅节省开发时间。

在科研创新和应用领域,昇思面向 8 大科学计算场景推出 MindSpore Science 系列套件,其包含业界领先的数据集、基础模型、预置高精度模型和前后处理工具,可以加速科学行业应用开发。

面向产业生态的开放,昇思正在与产学研各界一同推进开源开放,昇思 MindSpore AI 框架已经成为大模型开发的技术支撑,开源开放更使得产学界可以基于它研发自己的大模型。昇腾社区和昇思MindSpore社区一直在加强对大模型开源开放的支持。截至7月,昇思社区下载量已经突破200万,社区贡献者超过5900人。

目前,华为联合科研机构和产业界,基于昇思 MindSpore AI 框架与昇腾 AI 强大算力,不断发展基础大模型和行业大模型的产业生态,赋能千行百业数字化、智能化。

例如,鹏城实验室基于昇思 MindSpore 先后推出了业界首个 2000 亿参数中文预训练语言模型鹏程.盘古和面向生物医学领域的鹏程.神农大模型,深度赋能文本生成领域与生物制药;武汉大学在嵌入昇思MindSpore先进技术特性后打造了全球首个遥感影像智能解译专用框架武汉.LuoJiaNet和业界最大遥感样本库武汉.LuoJiaSET,为遥感应用开发提供便利。

从根技术创新提升大模型的性能,到赋能不同科学计算行业应用的加速开发,大模型全流程使能体系的构建,产业生态的开源开放与架桥连接,基于昇腾AI软硬协同的技术创新与产业服务助力,大模型的创新与产业落地之路越来越宽敞,加速各行业智能化转型实践,未来会有更多不同领域的原创技术成果诞生。

华为为大模型确立了从研致用的范式,推动大模型走向服务产业的新阶段,不同的行业在各类应用场景中验证着大模型的能力。遍地花开的成果,离不开昇腾 AI 提供的强大算力底座与昇思 MindSpore AI 框架的赋能,浇灌着大模型的研发与创新,为其注入活力与生命力,大模型的产业之花得以在数智时代的原野中争奇斗艳,盎然生机,一幅智慧生活的图景正在徐徐展开。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    216

    文章

    35291

    浏览量

    256943
  • 算法
    +关注

    关注

    23

    文章

    4720

    浏览量

    95921
  • AI
    AI
    +关注

    关注

    88

    文章

    35748

    浏览量

    282390
  • nlp
    nlp
    +关注

    关注

    1

    文章

    490

    浏览量

    22694
  • 昇腾
    +关注

    关注

    1

    文章

    165

    浏览量

    7117
  • 昇腾AI
    +关注

    关注

    0

    文章

    86

    浏览量

    804
  • 大模型
    +关注

    关注

    2

    文章

    3230

    浏览量

    4223
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    迅龙软件参加 AI?开发者创享日?广东站,为开发者打造沉浸式实操体验

    7月18日,线下顶尖人才汇聚的开发者盛会——AI开发者创享日?广东站在广州举行。活动以“创未来享非凡”为主题,聚焦广东本地产业特点,分享
    的头像 发表于 07-23 17:18 ?713次阅读
    迅龙软件参加<b class='flag-5'>昇</b><b class='flag-5'>腾</b> <b class='flag-5'>AI</b>?<b class='flag-5'>开发</b>者创享日?广东站,为<b class='flag-5'>开发</b>者打造沉浸式实操体验

    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大模型5.5 宣布新一代AI云服务上线

    HarmonyOS、AI云服务、盘古大模型等最新科技创新成果。 在主题演讲中,华为常务董事、华为云计算CEO张平安宣布基于CloudMa
    的头像 发表于 06-20 20:19 ?2655次阅读
    华为<b class='flag-5'>开发</b>者大会2025(HDC 2025)亮点:华为云发布盘古大<b class='flag-5'>模型</b>5.5 宣布新一代<b class='flag-5'>昇</b><b class='flag-5'>腾</b><b class='flag-5'>AI</b>云服务上线

    中软国际推出金融AI解决方案和一体机v1.0

    近日,中软国际重磅推出金融AI解决方案和一体机v1.0,该方案基于AI基础软硬件平台,完
    的头像 发表于 03-28 17:05 ?716次阅读

    大华股份亮相华为中国合作伙伴大会2025 星汉×推动行业创新发展

    。 ? 星汉× 推动行业创新发展 数字化浪潮下,大模型正迅速融入各行各业,市场需求呈现爆发式增长。此次发布的大模型应用一体机等系列产品,
    的头像 发表于 03-25 17:43 ?1599次阅读
    大华股份亮相华为中国合作伙伴大会2025 星汉×<b class='flag-5'>昇</b><b class='flag-5'>腾</b>推动行业<b class='flag-5'>创新</b>发展

    DeepSeek在上的模型部署的常见问题及解决方案

    2024年12月26日,DeepSeek-V3横空出世,以其卓越性能备受瞩目。该模型发布即支持,用户可在硬件和MindIE推理引擎上
    的头像 发表于 03-25 16:53 ?1025次阅读
    DeepSeek在<b class='flag-5'>昇</b><b class='flag-5'>腾</b>上的<b class='flag-5'>模型</b>部署的常见问题及解决方案

    创思远达与合作推动AI PC应用创新

    近日,端侧智能领域创新者创思远达携手,基于算力平台正式发布一系列AIPC应用。双方深度融合了
    的头像 发表于 03-25 10:22 ?726次阅读

    2025AI开发者创享日浙江站成功举办,现场演示OrangePi AIpro(20T)部署DeepSeek模型开发全流程

    3月7日,2025年生态首场旗舰活动——AI开发者创享日·浙江站成功举办。活动通过“1场
    的头像 发表于 03-12 14:44 ?747次阅读
    2025<b class='flag-5'>昇</b><b class='flag-5'>腾</b><b class='flag-5'>AI</b><b class='flag-5'>开发</b>者创享日浙江站成功举办,现场演示OrangePi AIpro(20T)部署DeepSeek<b class='flag-5'>模型</b><b class='flag-5'>开发</b>全流程

    润和软件将持续深化“+DeepSeek”技术路线

    (以下简称“润和软件”)作为生态核心伙伴受邀出席,人工智能研究院AI总工朱凯分享了基于“ + openEuler + OpenHar
    的头像 发表于 03-08 09:39 ?834次阅读

    推理服务器+DeepSeek大模型 技术培训在图为科技成功举办

    2月17日,华为政企业务团队受邀莅临图为科技深圳总部,并成功举办了一场聚焦于《推理服务器+DeepSeek大模型》的专业知识培训。 此次培训活动不仅深化了双方的技术交流,更标志着
    的头像 发表于 02-26 17:38 ?681次阅读
    <b class='flag-5'>昇</b><b class='flag-5'>腾</b>推理服务器+DeepSeek大<b class='flag-5'>模型</b> 技术培训在图为科技成功举办

    研华发布AI Box及Deepseek R1模型部署流程

    近日,随着深度求索(DeepSeek)大模型的发布在行业内掀起热议,研华科技正式推出了基于Atlas平台的边缘AI Box MIC-ATL3S,并同步发布了与Deepseek R1
    的头像 发表于 02-19 10:41 ?836次阅读

    云轴科技ZStack智塔携手AI实现DeepSeek模型部署

    DeepSeek为人工智能AI产业带来一场革命,为企业级AI应用私有化部署场景(Private AI)注入强劲动力。作为企业级私有化AI Infra平台,云轴科技ZStack智塔携手
    的头像 发表于 02-18 09:59 ?831次阅读
    云轴科技ZStack智塔携手<b class='flag-5'>昇</b><b class='flag-5'>腾</b><b class='flag-5'>AI</b>实现DeepSeek<b class='flag-5'>模型</b>部署

    华为推出DeepSeek大模型一体机

    DeepSeek大模型的横空出世,让AI正以前所未有的速度重塑各行各业的发展格局。DeepSeek一体机深度融合腾高性能算力底座与De
    的头像 发表于 02-18 09:56 ?2204次阅读

    中软国际科创中心上线DeepSeek模型

    DeepSeek的迁移、模型部署、模型蒸馏、模型精调、SAAS应用、Agent开发等多样化
    的头像 发表于 02-08 18:02 ?1467次阅读

    谷东科技民航维修智能决策大模型荣获华为技术认证

    经过华为专业评测,谷东科技民航维修智能决策大模型1.0成功与华为Atlas 800T A2训练服务器完成并通过了相互兼容性测试认证,正式荣获华为技术认证,被授予Ascend Compatible认证证书及认证徽标的使用权,成
    的头像 发表于 09-30 15:22 ?929次阅读

    思原生,助力智谱打造自主创新模型体系!

    自从全面启动原生开发,越来越多的生态伙伴选择,大模型生态从“应用迁移”走向“原生
    的头像 发表于 08-20 18:29 ?848次阅读
    <b class='flag-5'>昇</b><b class='flag-5'>腾</b>与<b class='flag-5'>昇</b>思原生,助力智谱打造自主<b class='flag-5'>创新</b>大<b class='flag-5'>模型</b>体系!