我们携手英特尔技术团队,显著降低了交易系统的延迟并解决了风控系统的瓶颈,尤其是英特尔 oneAPI 统一编程模型让我们实现了跨架构的灵活性,一套代码就能够同时支持 CPU 并行和 GPU 并行两种场景,让开发效率得到显著提升。我们将进一步携手推进金证极速交易系统的优化,推进产品信息技术应用创新,赋能金融业高质量发展。
— 何万刚
金证股份双基石产品总部
机构交易产品线总经理
"概述
伴随着改革开放金融体制的不断更新和完善,证券行业呈现出高速发展的势态,证券市场规模逐步扩大,投资者数量不断增加,交易量屡创新高,同时,交易品种也不断地丰富。在这一市场环境下,借助于金融衍生品策略的私募基金受到了普遍欢迎。这种金融衍生品交易策略常常涉及多品种、跨市场的交易,由于策略的复杂性,交易的实现常常依赖于程序化、量化交易等平台,并且为了捕捉转瞬即逝的套利机会,对交易速度要求非常高,需要运用先进的软硬件技术,最大限度地提升交易通道的速度,协助套利策略的实现。
作为证券行业核心交易 IT 供应商,深圳市金证科技股份有限公司(以下简称:金证)推出了满足业务技术发展、监管风控合规要求的先进、开放、稳定的金证极速交易系统。为了进一步提升交易系统的处理速度,金证与英特尔合作,将处理器升级为第四代英特尔 至强 可扩展处理器,并采用英特尔 oneAPI 中的 VTune Profiler 可视化性能分析工具消除性能瓶颈,将委托业务的延迟降低了超过 26%1 。同时,为了保证交易安全、提升风控效率,金证还使用英特尔 oneAPI DPC++ 进行代码重构,实现风控指标的并行化处理,并应用 ICPX 编译器调用 oneTBB 以及 AVX512 SIMD 指令集进行加速,取得风控效率提升最高超过 90 倍的效果2 。
金证极速交易系统
在开展策略交易的高端客户中,以机构投资者为主,其中私募基金占了重要的比重。近年来,伴随着金融市场的活跃,私募基金迎来了爆发式的增长。中国证券投资基金业协会发布的私募基金管理人登记及产品备案月报显示,截至 2023 年 7 月末,私募基金管理总规模达到 20.82 万亿元3 ,较 6 月末的 20.77 万亿元4增长 500 亿元,增幅为 0.24%5 。
同时,随着投资工具的丰富,私募基金的投资策略多样化起来,阿尔法策略、套利策略、相对价值策略、管理期货策略等借助于金融衍生品的策略受到欢迎,并且在当今市场环境下取得了不错的收益。要捕捉转瞬即逝的交易机遇,就需要通过证券交易系统,执行程序化、量化交易。因此,证券交易系统的交易速度在很大程度上影响了套利策略的实现能力。
作为证券行业核心交易 IT 供应商,金证自 2012 年起开始投身于新一代极速交易系统研发中。金证推出的极速交易系统是针对需要做高频率、极速交易的机构投资者而开发的一套极速交易系统。该系统基于交易与清算分离原则,采用全内存、低延时等核心技术,实现业务微秒级交易处理及交易查询,提供订单委托、委托撤单、成交回转、实时委托查询、实时成交查询等高实时性的交易相关功能。该系统能够支持程序化交易、算法交易、高频交易等新型、专业化投资交易手段的便利接入。
金证极速交易系统整体基于金证微架构技术平台开发,采用多活架构与组件化理念设计,可实现业务功能的灵活扩展;系统支持主备、多活等多种部署模式,基于 Raft 一致性算法,可实现主备、容灾之间的自动切换,实现业务连续和系统多活。系统在原有技术架构基础上,新增独立的新极速模块,新极速模块仅完成委托申报和成交回转功能,减少线程切换,性能实现突破性飞跃。
图 1. 金证极速交易系统架构
挑战:优化风控计算,提升交易速度
在证券交易中,性能对于交易速度、客户体验都带来了重要影响,金证希望通过极速交易系统的性能优化,化解以下挑战:
挑战 1:如何进一步降低极速交易系统的延迟、加快交易速度
核心交易系统委托处理延迟越低,交易策略功能越强大,对券商系统竞争有极其重要的作用。金证极速交易系统通过新极速模块的加入,在延迟上已经取得了很大的突破,为了进一步降低延迟,金证不断探索新的软硬件创新路径。
从金证极速交易系统的极速订单流程来看,其包含了接入、业务、报盘、内存库等主要进程,这些进程对于 CPU 的性能非常敏感,通过提升 CPU 的性能,将有助于加快上述进程的处理速度,从而降低整体交易延迟。
挑战 2:如何化解风控系统性能瓶颈,提升执行效率
金证发现,目前风控系统的性能瓶颈集中在风控指标计算方面。由于证券交易涉及到多种环节,因此系统速度的提升依赖于多种因素,其中很重要的一个环节是风控:出于监管要求,对于程序化交易用户而言,交易指令都需要进行充分的业务检查。除了验资、验券等基础的风控检查外,杜绝和防范异常交易行为也是风控的重要目标。
目前业界普遍采用 “软件数据库” 的风控方案,风控计算中,每个指标的计算量都很大,且大多采用的是串行计算模式。随着风控规则指标越来越多、风控的执行效率越来越低,风控环节需要耗费较长的时间,有的指标耗时达到秒级甚至分钟级别,不能及时、准确地进行风控。
要优化风控指标计算,存在架构约束 — 包含进程模型,数据结构模型以及持久化方式,其挑战包括:
原风控计算程序会根据定时器的触发计算风控指标,每次计算前会获得计算循环次数,例如有多少个账户就循环多少次。在计算指标时,会访问内存数据库,计算过程和内存访问都是串行执行的,因此性能较差。 跟原风控的串行相比,通过多线程的 CPU 并行优化有助于提升性能,但是,CPU 并行需要考虑对整个交易系统的影响,如风控服务不能影响交易服务,对于部分有数据依赖的指标,多线程并行计算存在潜在的危险。解决方案:基于英特尔 技术的金证极速交易系统优化方案
为进一步增强性能,金证持续对极速交易系统进行优化,该优化主要从降低极速交易系统的延迟、提升风控指标计算速度这两方面进行。
优化 1:优化极速交易系统延迟
为降低极速交易系统的延迟,金证进行了软硬件一体协同优化。在硬件方面,金证将极速交易系统服务器的处理器从第二代英特尔 至强 可扩展处理器升级为第四代英特尔 至强 可扩展处理器,以利用新一代处理器具备的卓越性能。在软件方面,金证将极速交易系统升级到 3.5 版本,在极速模块等方面进行了新的优化,随后,金证还采用英特尔 VTune Profiler 对程序热点 (hot spots) 进行分析,结合处理器的特性和架构进行深度调优。英特尔 VTune Profiler 用于收集软件的性能信息,识别和分析调用栈 (call stacks) 中的热点,以找到系统中存在的性能瓶颈,更大程度地提高性能。
第四代英特尔 至强 可扩展处理器通过创新架构增加了每个时钟周期的指令,每个插槽多达 60 个核心,支持 8 通道 DDR5 内存,有效提升了内存带宽与速度,并通过 PCIe 5.0(80 个通道)实现了更高的 PCIe 带宽提升。第四代英特尔 至强 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩 展。借助内置的加速器,用户可以在 AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔 至强 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。
在性能验证中,金证极速交易系统采用了英特尔 至强 金牌 6444Y 处理器。该处理器提供了多达 16 个核心、32 个线程,使其将部分核心与交易服务绑定之外,还能够有充足的核心分配给风控服务,保证性能的释放。
本次验证针对普通委托业务和查询业务,完成了极速订单性能测试。测试数据如图 2 所示,对比采用第二代处理器的极速交易系统 3.0,采用新一代处理器的极速交易系统 3.5 通过版本迭代、 硬件升级与软件调优,将委托业务的延迟降低超过 26%6 。
图 2. 普通买入委托上行延迟性能比较 (TPS = 5000) 7
优化 2:通过并行计算提升风控计算效率
如上文所述,在原系统的风控计算中,计算过程和内存访问都是串行执行的,因此性能较差。如果能将串行计算改为并行计算,同时减少对内存数据库的访问,那么性能会有望得到显著提升。为此,金证决定重新设计程序内的执行流和数据流,更好地利用CPU 与 GPU 来实现并行的风控计算,这需要考虑如下限制:
首先,要能兼顾原风控逻辑。即使 GPU 风控计算程序失效,原风控程序仍然能生效; 其次,系统要能够灵活使用 CPU 或 GPU 来运行风控计算,以满足客户的不同需求; 最后,要考虑代码的可维护性,同一份代码可兼顾 CPU 和GPU。综合以上考虑,金证采用英特尔 oneAPI 库进行新的风控计算开发工作。oneAPI 提供了一个适用于各类计算架构的统一编程模型,应用程序的开发者只需要开发一次代码,就可以让代码在跨平台的异构系统上执行,底层的硬件架构可以是 CPU、GPU、FPGA。这意味着,使用 oneAPI 开发新的风控计算,可以直接支持 CPU 并行和 GPU 并行两种场景。
金证采用 oneAPI 库来对风控计算的执行流和数据流进行优化。原风控服务的执行流和数据流都是简单的串行,对每个指标计算,首先从内存数据库读取数据,然后计算,最后将结果写入到内存数据库。而新的风控服务则从以下三个步骤入手进行了优化:
(1)数据读取新风控进程计算时不再访问内存数据库,而是同新极速进程一致,直接访问共享内存,将共享内存的数据卸载到 GPU 设备上。针对硬件设备没有足够存储空间容纳风控数据的情况,系统提供了两种卸载策略:第一种,如果存储空间足够,则将风控数据一次性卸载到 GPU 上计算;第二种,如果存储空间不够,则需要将数据分批次卸载到 GPU 上计算。
(2)并行计算使用 Data Parallel C++ (DPC++) 编程模型和 SYCL 模型,编写并行代码,通过使用特定的并行构造(如 parallel_for)来实现并行计算。此外,还可以使用向量化指令来利用硬件的 SIMD(单指令多数据)能力,从而在单个指令中处理多个数据项。
(3)结果处理新风控进程将计算的结果,写到共享内存供新极速进程使用,写到内存数据库供原极速进程使用。
图 3. 金证极速交易系统风控模块实时触发风险指标计算
金证极速交易系统 3.5 新风控进程的测试数据如图 4 所示,使用CPU 并行策略之后,个股集中度指标计算时间最高可降低超过94%,效率提升超过 90 倍8。
图 4. 个股集中度指标计算用时测试数据(100 客户各持有1000 只证券)9
收益
在经过优化之后,金证极速交易系统有效提高了极速交易与风控计算的效率,为用户带来如下收益:
-
提升了全链路的交易速度,在瞬息万变的证券市场环境中,帮助客户敏锐抓住转瞬即逝的市场机遇,推动获利的最大化。
-
通过英特尔 oneAPI 的统一编程模型直接支持 CPU并行和 GPU 并行两种场景,提升了方案的灵活性,能够满足不同客户与场景的需求。
-
有效释放了硬件潜力,特别是当升级到第四代英特尔至强 可扩展处理器之后,能够将系统性能提升到新的高度。
展望
IDC 发布的《中国证券业 IT 解决方案市场份额,2021:市场永不眠,核心交易系统波澜再起》报告显示,2021 年,中国证券业 IT 解决方案市场规模约为 45 亿元,中国证券业核心交易系统市场规模约为 11.72 亿元10。金证股份作为证券业 IT 解决方案市场主要厂商之一,在中国证券业 IT 解决方案市场份额、中国证券业核心交易系统市场份额中占有率位居前列。
通过采用英特尔 oneAPI 统一编程模型进行优化,并搭载第四代英特尔 至强 可扩展处理器,金证极速交易系统的性能得以“更上一层楼”,能够有效提升交易通道的速度,协助套利策略的实现。双方将在未来进行深度合作,探索如何进一步利用第四代英特尔 至强 可扩展处理器搭载的创新技术,释放硬件潜能,助力打造更加卓越的极速交易系统,帮助用户获得更高收益。
附录:金证极速交易系统 3.5 |
|
处理器 |
英特尔 至强 金牌 6444Y 处理器 |
内存 |
256 GB |
网卡 |
低时延网卡 |
软件 |
金证极速交易系统 3.5 |
参考资料:
1 金证科技截至 2023 年 7 月的内部测试结果。测试配置 — 基准配置:英特尔 至强 金牌 6250 处理器,128 GB 总内存,RHEL7.5;新配置:英特尔 至强 金牌 6444Y 处理器,256 GB 总内存,RHEL 7.5,通过比较 TPS = 5000 时两种配置的普通买入委托上行延迟性能中位数结果得出。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。
2 金证科技截至 2023 年 7 月的内部测试结果。测试配置 — 原风控进程配置:英特尔 至强 金牌 6250 处理器,128 GB 总内存,RHEL 7.5;新风控进程配置:英特尔 至强 金牌 6444Y 处理器,256 GB 总内存,RHEL 7.5。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。
3https://www.amac.org.cn/researchstatistics/report/zgsmjjhysjbg/202308/P020230818629745714316.pdf
4https://www.amac.org.cn/researchstatistics/report/zgsmjjhysjbg/202307/P020230727632823396771.pdf
5 通过对比 2023 年 6 月和 7 月的数据计算得出。
6,7 金证科技截至 2023 年 7 月的内部测试结果。测试配置 — 基准配置:英特尔 至强 金牌 6250 处理器,128 GB 总内存,RHEL 7.5;新配置:英特尔 至强 金牌 6444Y 处理器,256 GB 总内存,RHEL 7.5,通过比较 TPS = 5000 时两种配置的普通买入委托上行延迟性能中位数结果得出。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。
8,9 金证科技截至 2023 年 7 月的内部测试结果。测试配置 — 原风控进程配置:英特尔 至强 金牌 6250 处理器,128 GB 总内存,RHEL 7.5;新风控进程配置:英特尔 至强 金牌 6444Y 处理器,256 GB 总内存,RHEL 7.5。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。
10 数据援引自 IDC 发布《中国证券业 IT 解决方案市场份额,2021:市场永不眠,核心交易系统波澜再起》。
-
英特尔
+关注
关注
61文章
9949浏览量
171687 -
cpu
+关注
关注
68文章
10854浏览量
211568
原文标题:英特尔® 软硬件,让金证极速交易系统“起飞”
文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论