1 利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-09-09 09:57 次阅读

DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算和流数据分析的实时计算平台,适用于金融、电力、物联网和零售等行业。

DolphinDB 公司推出的 CPU-GPU 异构计算平台 Shark,将 DolphinDB 上的复杂指标计算能力无缝切换到 GPU 算力平台,从而大幅提升了计算性能。

DolphinDB 开发团队与 NVIDIA 团队合作,通过利用NVIDIA RAPIDS加速 Shark 异构计算平台的因子挖掘算法运行效率,帮助 Shark 将因子挖掘的效率提升 2 - 10 倍,并基于NVIDIA cuDF实现 Shark 因子高效计算,大幅减少开发成本,缩短开发周期。

RAPIDS 的 RMM 是一套开源的内存/显存管理库,提供 C++Python 接口,相比 cuMalloc、cuFree 等操作来讲,具有更好的性能和灵活性;RAPIDS libcudf 是基于 GPU 的 C++ DataFrame 库,提供了基础数据结构,并且内置了基础的函数算子。

Shark 的因子挖掘功能,能通过利用遗传算法从数据中挖掘出有效的因子。在这一场景中,遗传算法会随机生成大量因子并进行计算。这一过程会频繁地创建和释放临时空间来存储中间结果,直接使用原生的 CUDA C 显存分配和释放接口,会严重降低执行效率。

Shark 的因子计算功能,针对金融领域的数据分析与处理,提供了丰富的函数库。如果从零开始将 CPU 的函数迁移至 GPU,需要为 GPU 重新实现一套底层数据结构以及基础计算函数,会导致开发周期的延长以及开发成本的增加。

基于以上挑战,DolphinDB 开发团队与 NVIDIA 团队及 RAPIDS 开发团队合作,通过利用 RAPIDS RMM,解决因子挖掘过程中频繁申请和释放显存导致的性能问题;通过基于 RAPIDS libcudf 进行二次开发,实现因子计算,从而缩短开发周期,降低开发成本。

Shark 进行因子挖掘时,会通过遗传算法随机生成海量的因子计算公式。这些公式长度不等,接受的参数数量也不尽相同。因此在计算时,需要频繁地申请和释放临时空间用于存储中间结果。DolphinDB 开发团队通过使用 RMM 对显存进行池化,从而对中间结果所使用的显存进行高效地分配、释放和重用。

Shark 支持用户输入自定义的公式,自动将自定义公式转换为计算图,并在 GPU 完成计算,从而加快数据分析和处理的效率。如果从零开始将 DolphinDB 的计算函数迁移至 Shark,则需要在 GPU 构建 array、table 等底层数据结构,并实现大量基础计算函数。经过调研后,DolphinDB 开发团队决定基于 RAPIDS libcudf 进行二次开发,复用 cuDF 的 column、table 等底层数据结构,并借助 cuDF 的 groupby 和 rolling 框架,只需要完成算子的核心计算逻辑,即可完成 DolphinDB 时序算子和横截面算子的迁移,这样不仅极大提升了开发效率,还降低了开发成本。

下图展示了在不同规模数据下,使用 RAPIDS 的 RMM 显存管理库相对于原生的 CUDA 显存分配 API,Shark 因子挖掘效率的对比。可以清楚地看到,使用 RMM 可以显著提升 Shark 因子挖掘效率,最高可达到 10 倍的加速比。

50de12f3c871da8be6a7494a93111a82.png

除此之外,Shark 通过使用 RAPIDS libcudf,大大提升了因子的计算效率。下图中对比了 1000 个 group,每个 group 有 10 万行的数据,采用分组方式计算下面的算子。可以看到与 CPU 相比,利用 GPU 总体耗时(包含拷贝时间),基本达到了一个数量级的加速比。

75c03a398e3c2fe4ee975f744d834f86.png

借助 RAPIDS ,Shark 的因子挖掘效率提升了 10 倍。除此之外,基于 cuDF 进行二次开发,只需要实现算子的核心逻辑,就可以达到一个数量级的加速,并极大降低了算子迁移成本。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4978

    浏览量

    102980
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128886
  • 数据库
    +关注

    关注

    7

    文章

    3794

    浏览量

    64352

原文标题:NVIDIA RAPIDS 助力 Shark 平台实现高效数据挖掘和计算

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《CST Studio Suite 2024 GPU加速计算指南》

    问题,但会降低旧GPU硬件性能,可通过NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU计算需要启用,可通过命令行
    发表于 12-16 14:25

    NVIDIA加速计算引入Polars

    Polars 近日发布了一款由 RAPIDS cuDF 驱动的全新 GPU 引擎,该引擎可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,使数据科学家仅在一台机器上就能实现在数秒内处理数亿行数据。
    的头像 发表于 11-20 10:03 195次阅读
    将<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b><b class='flag-5'>计算</b>引入Polars

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容,包含视觉语言模型(VLM)、小语言模型(SLM)和支持视觉的更新版 Llama Guard 模型。与 NVIDIA 加速
    的头像 发表于 11-20 09:59 203次阅读

    RAPIDS cuDF将pandas提速近150倍

    NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 当前已能够为 950 万 pandas 用户带来 GPU 加速,且无需修改代码。
    的头像 发表于 11-20 09:52 159次阅读
    <b class='flag-5'>RAPIDS</b> cuDF将pandas提速近150倍

    NVIDIA加速计算如何推动医疗健康

    近日,NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲中重点谈论了 NVIDIA 加速计算如何推动医疗健康
    的头像 发表于 11-20 09:10 286次阅读

    NVIDIA向开放计算项目捐赠Blackwell平台设计

    近日,在美国加利福尼亚州举行的 OCP 全球峰会上,NVIDIA 宣布已把 NVIDIA Blackwell 加速计算平台的一些基础元素捐赠
    的头像 发表于 11-19 15:30 186次阅读

    AI高性能计算平台是什么

    AI高性能计算平台不仅是AI技术发展的基石,更是推动AI应用落地、加速产业升级的重要工具。以下,是对AI高性能
    的头像 发表于 11-11 09:56 179次阅读

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来加速科学
    的头像 发表于 10-25 09:23 244次阅读

    以实时,见未来——DolphinDB 2024 年度峰会圆满举办

    DolphinDB 还围绕投研、交易、FICC、数据分析、计算平台、AI 前沿等热门场景,精心设置了六大路演展台。DolphinDB 技术工程师现场演示了诸多新功能的应用 Demo,与
    的头像 发表于 09-10 14:14 234次阅读
    以实时,见未来——<b class='flag-5'>DolphinDB</b> 2024 年度峰会圆满举办

    NVIDIA Blackwell平台推动科学计算突破发展

    最新加速器和网络平台提升高级模拟、AI、量子计算、数据分析等方面的性能
    的头像 发表于 05-15 09:45 369次阅读

    NVIDIA通过CUDA-Q平台为全球各地的量子计算中心提供加速

    德国、日本和波兰的超级计算利用 Grace-Hopper 和量子-经典加速超算平台推进量子计算研究。
    的头像 发表于 05-14 09:15 346次阅读

    NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速

    德国、日本和波兰的超级计算利用 Grace-Hopper 和量子-经典加速超算平台推进量子计算研究     德国汉堡 —— 国际超算大会(
    发表于 05-13 15:21 195次阅读
    <b class='flag-5'>NVIDIA</b> 通过 CUDA-Q <b class='flag-5'>平台</b>为全球各地的量子<b class='flag-5'>计算</b>中心提供<b class='flag-5'>加速</b>

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 714次阅读

    Cadence与NVIDIA联合推出利用加速计算和生成式AI重塑设计

    中国上海,2024 年 3 月 25 日——楷登电子(美国 Cadence 公司,NASDAQ:CDNS)近日宣布,公司将深化与 NVIDIA 在 EDA、系统设计与分析、数字生物学和人工智能领域的多年合作,推出两款变革性解决方案,利用
    的头像 发表于 03-25 14:36 604次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V1
    的头像 发表于 01-17 09:30 684次阅读