0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将NVIDIA加速计算引入Polars

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2024-11-20 10:03 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Polars 近日发布了一款由 RAPIDS cuDF 驱动的全新 GPU 引擎,该引擎可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,使数据科学家仅在一台机器上就能实现在数秒内处理数亿行数据。

日新月异的数据挑战

Pandas 等传统数据处理库均为单线程,当处理数据超过数百万行时就会显得“力不从心”。分布式数据处理系统虽然可以处理数十亿行数据,但又会增加处理中小型数据集的复杂程度和经费开支。

在高效处理数千万至数亿行数据的工具之间一直存在着差距。这类工作负载常见于金融、零售、制造等行业的模型开发、需求预测和物流中。

在面向数据科学家和工程师Python 库中,Polars 的增长速度位居前列,其设计初衷就是为了应对这些挑战。该程序库使用了先进的查询优化技术,以减少不必要的数据移动和处理,使数据科学家可以仅用一台机器就能流畅地处理数亿行规模的工作负载。Polars 弥补了单线程解决方案速度过慢和分布式系统会增加非必要复杂性的缺陷,提供了一个极具吸引力的“中等规模”数据处理解决方案。

将 NVIDIA 加速计算引入 Polars

与其他仅使用 CPU 的数据处理工具相比,Polars 利用多线程执行、高级内存优化和惰性求值(lazy evaluation)功能,可显著提升开箱即用的加速性能。

但由于各行各业的企业面临日益增长的数据处理需求,例如需要分析数十亿笔金融交易、管理复杂的库存系统等,都需要更加强大的性能。这时就该轮到加速计算发挥作用了:

cuDF 是 NVIDIA CUDA-X 加速库中的 RAPIDS 套件的一部分,它是一个由 GPU 提供加速的 DataFrame 程序库,能够利用 GPU 的大规模并行处理能力显著提高数据处理性能。

Polars 团队与 NVIDIA 一起将 cuDF 的速度与 Polars 的效率相结合,使性能最高提速至在 CPU 上 Polars 的 13 倍。如此,即便用户的数据处理工作量增长到数亿甚至数十亿行数据,依然能够保持交互。

9f9cb96c-a016-11ef-93f3-92fbcf53809c.jpg

图 1.图中所示的是 PDS-H 基准测试 22 个查询中加速幅度最大的 4 个查询。在运行包含众多复杂分组和连接操作的查询时,RAPIDS cuDF 驱动的 Polars GPU 引擎的速度提速至 CPU 上 Polars 的 13 倍。

PDS-H基准测试规模系数 80 | GPU:NVIDIA H100 | CPU:英特尔 Xeon W9-3495X(Sapphire Rapids) | 存储:本地NVMe。备注:PDS-H 源自 TPC-H,但这些结果与 TPC-H 的结果不具有可比性。

由于 Polars GPU 引擎直接内置在 Polars Lazy API 中,用户只需通过 pip 安装 polars[gpu] 并将 [engine=”gpu”] 发送至 collect 操作,即可将 GPU 加速应用于他们的工作流。在后台,Polars 会尝试首先在 GPU 上执行操作,必要时再返回 CPU。这种方法可确保:

通过使用 Polars 的查询优化器,实现高效执行和最低内存使用

用户无须修改现有 Polars 代码,即可访问 GPU 引擎

完全兼容 Polars 不断发展的数据可视化、I/O 和机器学习库生态系统

pip install polars[gpu] --extra-index-url=https://pypi.nvidia.com
 
import polars as pl
 
(transactions
 .group_by("CUST_ID")
 .agg(pl.col("AMOUNT").sum())
 .sort(by="AMOUNT", descending=True)
 .head()
 .collect(engine="gpu"))

结语

RAPIDS cuDF 驱动的 Polars GPU 引擎现已发布公测版,为各行各业的数据科学家和工程师提供了一种适用于中等规模数据处理的强大工具。该引擎最高能够将 NVIDIA GPU 上的 Polars 工作流速度提速 13 倍,可以在不产生分布式系统开销的情况下,高效处理数亿行规模的数据集。Polars GPU 引擎直接内置在 Polars API 中,使所有用户都能轻松访问。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106657
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131725
  • 引擎
    +关注

    关注

    1

    文章

    366

    浏览量

    23034

原文标题:RAPIDS cuDF 驱动的 Polars GPU 引擎发布公测版

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA携手诺和诺德借助AI加速药物研发

    NVIDIA 宣布与诺和诺德开展合作,借助创新 AI 应用加速药物研发。此次合作也支持诺和诺德与丹麦 AI 创新中心 (DCAI) 关于使用 Gefion AI 超级计算机的协议落地
    的头像 发表于 06-12 15:49 ?576次阅读

    高效地扩展Polars GPU Parquet读取器

    在处理大型数据集时,数据处理工具的性能至关重要。Polars 作为一个以速度和效率著称的开源数据处理库,它提供了由 cuDF 驱动的 GPU 加速后端,能够显著提升性能。
    的头像 发表于 04-21 17:12 ?350次阅读
    高效地扩展<b class='flag-5'>Polars</b> GPU Parquet读取器

    NVIDIA助力解决量子计算领域重大挑战

    NVIDIA 加速量子研究中心提供了强大的工具,助力解决量子计算领域的重大挑战。
    的头像 发表于 03-27 09:17 ?669次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织
    发表于 03-19 15:24 ?375次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 AI 推理

    NVIDIA使用加速计算与AI推动精准医学发展

    在加利福尼亚州圣克拉拉举行的精准医学世界大会上,NVIDIA 因推动了医学成像、基因组学、计算化学和 AI 驱动机器人技术的发展而受到表彰。NVIDIA 创始人兼首席执行官黄仁勋荣获“Luminary award”。
    的头像 发表于 02-17 17:14 ?567次阅读

    利用NVIDIA DPF引领DPU加速计算的未来

    越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF),该框架提供了基础构建模块来释放 NVIDIA Blu
    的头像 发表于 01-24 09:29 ?802次阅读
    利用<b class='flag-5'>NVIDIA</b> DPF引领DPU<b class='flag-5'>加速</b>云<b class='flag-5'>计算</b>的未来

    NVIDIA预测2025年AI行业发展

    NVIDIA 加速计算、数据科学和研究领域专家预测,多模态模型推动行业创新和效率提升。
    的头像 发表于 12-18 13:49 ?1301次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA GPU:详细列出了支持
    发表于 12-16 14:25

    NVIDIA加速全球大多数超级计算机推动科技进步

    HPCwire 读者和编辑选择奖。 自 2006 年发布 CUDA 以来,NVIDIA 不断推动 AI 和加速计算的进步,最新发布的全球最强超级计算机 TOP500 榜单突显了该公司
    的头像 发表于 11-24 14:38 ?724次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>全球大多数超级<b class='flag-5'>计算</b>机推动科技进步

    NVIDIA发布cuPyNumeric加速计算

    加速计算库帮助科研人员无缝地扩展到强大的计算集群,并且无需修改 Python 代码,推进科学发现。
    的头像 发表于 11-21 10:05 ?681次阅读

    NVIDIA加速计算如何推动医疗健康

    近日,NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲中重点谈论了 NVIDIA 加速计算如何推动医疗健康、网络安全和制造等行业实现转型。他表示,
    的头像 发表于 11-20 09:10 ?720次阅读

    NVIDIA向开放计算项目捐赠Blackwell平台设计

    近日,在美国加利福尼亚州举行的 OCP 全球峰会上,NVIDIA 宣布已把 NVIDIA Blackwell 加速计算平台的一些基础元素捐赠给开放
    的头像 发表于 11-19 15:30 ?701次阅读

    日本企业借助NVIDIA产品加速AI创新

    日本领先企业和大学正在使用 NVIDIA NeMo、NIM 微服务和 NVIDIA Isaac 加速 AI 创新。
    的头像 发表于 11-19 14:34 ?1000次阅读

    利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

    DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算和流数据分析的实时计算平台,适用于金融、电力
    的头像 发表于 09-09 09:57 ?933次阅读
    利用<b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark平台提升<b class='flag-5'>计算</b>性能

    NVIDIA加速计算和生成式AI领域的创新

    在最新发布的公司 2024 财年可持续发展报告开篇的一封信中,NVIDIA 创始人兼首席执行官黄仁勋介绍了 NVIDIA加速计算和生成式 AI 领域的创新,以及 AI 技术在提高生
    的头像 发表于 09-09 09:18 ?958次阅读