0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为全球领先的数据分析平台Apache Spark提速

西西 ? 来源:厂商供稿 ? 作者:NVIDIA ? 2020-05-15 15:48 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

开源社区通过对NVIDIA GPU的原生支持加速Spark 3.0;

实现数百TB数据的飞速ETL和SQL处理;

Adobe在Databricks上使用Spark 3.0将模型训练速度提高7倍

加利福尼亚州圣克拉拉市 - GTC 2020大会 - 2020年5月14日 – NVIDIA于今日宣布其正在与开源社区合作,为Apache Spark 3.0带来端到端的GPU加速。Apache Spark 3.0是一个热门的分析引擎,被全球范围内超过50万名数据科学家用于大数据处理。

随着Spark 3.0预计将于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的GPU加速应用于普遍使用SQL数据库操作进行的ETL(提取、转换和加载)数据处理工作负载中。

此外,他们还将首次能够在同一Spark集群上处理AI模型训练任务,而无需将工作负载作为单独流程在单独的基础架构上运行。这样就可以对整个数据科学的处理流程进行高性能数据分析,对从数据湖到模型训练所涉及的数十、乃至数千TB的数据进行加速,而且无需对已被应用于本地和云端Spark应用程序的现有代码进行修改。

NVIDIA企业计算主管Manuvir Das表示:“数据分析是当今企业和研究者所面临最大的高性能计算挑战。从ETL到训练再到推理,整个Spark 3.0 方案的原生GPU加速为用户提供了最终将大数据潜力与AI性能相连所需的性能和规模。”

作为NVIDIA的战略AI合作伙伴,Adobe是最早在Databricks上运行Spark 3.0预览版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速数据分析技术进行产品开发,并为各项推进数字化业务进程的功能提供支持。在初步测试中其已将性能提高了7倍,并节省了90%的成本。

性能提升后的Spark 3.0让科学家能够训练包含有更大数据集的模型,并增加反复训练模型的频率,从而提高模型的精度。现在,数据科学家每天可以处理数TB的新数据,这对于需要为在线推荐系统提供支持或分析新研究数据的数据科学家们而言至关重要。此外,处理速度的加快,减少了交付结果所需的硬件资源,从而节省了大量成本。

Adob机器学习高级总监William Yan表示:“相比于在CPU上运行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴随着GPU性能的飞跃性提升,也将为我们全套Adobe Experience Cloud应用中AI功能的提升带来新的可能性。”

Databricks和NVIDIA为Spark提速

Apache Spark最初是由Databricks的创始人创建。Databricks的云端统一数据分析平台每天在一百多万台虚拟机上运行。NVIDIA与Databricks已开展合作,使用专为Databricks开发的RAPIDSTM软件套件优化Spark,将GPU加速应用于在Databricks上运行的医疗、金融、零售等众多行业的数据科学和机器学习工作负载中。

Apache Spark最初的创建者兼Databricks首席技术员Matei Zaharia表示:“我们与NVIDIA开展了长期合作,用专为Apache Spark 3.0和Databricks开发的RAPIDS相关优化来提高性能,使得像Adobe这样的我们两家公司共同的客户能够得以受益。我们所作出的这些努力加快了数据处理流程、模型训练和评分的速度,直接为我们的数据工程师和数据科学家社区带来更多的突破和洞见。”

NVIDIA GPU加速Spark中的ETL和数据传输

NVIDIA正在提供一种用于Apache Spark的全新开源RAPIDS加速器,帮助数据科学家提高其数据流程的端到端性能。该加速器能够将之前需要在CPU上运行的功能,转到GPU上运行,以发挥GPU的性能:

·在无需更改任何代码的情况下显著提高Spark SQL和DataFrame的运行性能,从而加速Spark中的ETL数据流程。

·无需独立的机器学习和深度学习集群,即可在相同的基础架构上加速数据准备和模型训练。

·加速Spark分布式集群中各节点之间的数据传输性能。这些资源库使用UCF Consortium 的开源UCX(Unified Communication X)框架,并通过使数据直接在GPU内存之间移动来最大程度地减少延迟。

Apache Software Foundation 上现已提供Spark 3.0的预览版。该产品预计将在未来几个月内全面上市。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106661
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131732
  • 数据分析
    +关注

    关注

    2

    文章

    1474

    浏览量

    35155
  • 大数据
    +关注

    关注

    64

    文章

    8963

    浏览量

    140609
  • SPARK
    +关注

    关注

    1

    文章

    106

    浏览量

    20656
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    的方式组织数据,这使得 Parquet 在查询时仅读取所需的列,而无需扫描整行数据,即可实现高性能的查询和分析。高效的数据布局使 Parquet 在现代
    的头像 发表于 07-23 10:52 ?195次阅读
    使用<b class='flag-5'>NVIDIA</b> GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet<b class='flag-5'>数据</b>扫描

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 ?155次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    NVIDIA推出行业领先辅助驾驶软件平台

    NVIDIA 发布了全面的、行业领先的辅助驾驶软件平台,服务于全球汽车制造商、卡车制造商、机器人出租车公司和初创企业,加速其大规模部署安全的智能交通创新技术。
    的头像 发表于 06-16 13:52 ?455次阅读

    NVIDIA发布AI优先DGX个人计算系统

    NVIDIA 宣布,多家行业领先系统制造商将打造 NVIDIA DGX Spark
    的头像 发表于 05-22 09:39 ?388次阅读

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的
    的头像 发表于 03-25 15:09 ?588次阅读
    <b class='flag-5'>NVIDIA</b>加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企业节省大量成本

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    的头像 发表于 03-20 18:59 ?946次阅读
    <b class='flag-5'>NVIDIA</b> GTC2025 亮点  <b class='flag-5'>NVIDIA</b>推出 DGX <b class='flag-5'>Spark</b>个人AI计算机

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    发表于 03-19 09:59 ?345次阅读
       <b class='flag-5'>NVIDIA</b> 宣布推出 DGX <b class='flag-5'>Spark</b> 个人 AI 计算机

    交通运输领先企业率先采用NVIDIA Cosmos平台

    支撑自动驾驶汽车开发有三个关键计算平台NVIDIA DGX 平台用于在数据中心训练基于 AI 的堆栈;运行在NVIDIA OVX
    的头像 发表于 01-09 16:02 ?605次阅读

    数据可视化与数据分析的关系

    在当今这个信息爆炸的时代,数据无处不在。无论是企业运营、科学研究还是个人决策,我们都需要从海量的数据中提取有价值的信息。数据分析数据可视化作为两个关键的工具,它们帮助我们理解、解释和
    的头像 发表于 12-06 17:09 ?1014次阅读

    NVIDIA助力百度提升数据分析效能

    在现代商业环境中,数据分析已然成为企业获取成功的关键所在。长期以来,百度广告数据团队始终面临着极为复杂的数据分析挑战,其需要为逾千名用户提供在线广告业务分析服务,而这些用户涵盖策略工程
    的头像 发表于 11-20 10:06 ?755次阅读

    eda与传统数据分析的区别

    进行初步的探索和理解,发现数据中潜在的模式、关系、异常值等,后续的分析和建模提供线索和基础。 方法论 :EDA强调数据的真实分布和可视化,使用多种图表和可视化工具来展示
    的头像 发表于 11-13 10:52 ?938次阅读

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 ?780次阅读

    云计算在大数据分析中的应用

    和处理大规模的数据集。通过云计算平台,用户可以快速构建数据仓库,将海量数据进行存储、管理和分析。这种能力使得企业能够高效地处理PB级别的
    的头像 发表于 10-24 09:18 ?1170次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量数据
    的头像 发表于 10-09 15:32 ?609次阅读
    IP 地址大<b class='flag-5'>数据分析</b>如何进行网络优化?

    利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

    DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算和流数据分析的实时计算
    的头像 发表于 09-09 09:57 ?933次阅读
    利用<b class='flag-5'>NVIDIA</b> RAPIDS加速DolphinDB Shark<b class='flag-5'>平台</b>提升计算性能