软件生态上超越CUDA，究竟有多难？-德赢Vwin官网网

电子发烧友网报道（文/周凯扬）近日，英伟达凭借持续上涨的股价，正式超过了微软成为全球市值最高的公司，这固然离不开GPU这一AI 硬件的火热，但之所以能一举做到世界第一，也离不开软件的加持，真正将其推向神坛的，还是围绕CUDA打造的一系列软件生态。

英伟达——CUDA的绝对统治

相信对GPU有过一定了解的都知道，英伟达的最大护城河就是CUDA。CUDA在后端架构上处于绝对的统治地位，随着AI发展越快，英伟达GPU+CUDA的开发生态发展愈发壮大，甚至到了很多竞争对手望其项背的水平。CUDA自2006年推出以来，即便在AI和深度学习没有成为主流的时期，也在不断发展并行计算，为开发者提供丰富的库、工具和算法。

时至今日，CUDA已经为全球开发者打造了一个庞大的社区，几乎所有的深度学习框架，包括TensorFlow、Pytorch等都对CUDA做了优化。为了尽快切入市场，绝大多数开发者都更倾向于选择CUDA作为首要计算平台。

与此同时，英伟达也在围绕着CUDA在硬件架构上做更深入的创新和升级，借助更先进的工艺和封装技术提升计算性能和效率。比如随着Volta架构中引入Tensor核心后，英伟达GPU的矩阵运算得到大幅加强，深度学习训练和推理的性能实现飞跃。两者结合之下，使得CUDA坐稳了第一的宝座。

在游戏软件领域，英伟达的DLSS可以说是市面上最先进的专有超分技术，且得益于持续的训练，每一次版本升级都能带来图形渲染领域的突破。

最后是生产力工具相关的软件生态上，英伟达在这块的优势就更加足了，过去苹果与AMD还在GPU上合作之际，不少生产力工具还是针对AMD的GPU做了不少硬件优化的。然而随着苹果走向Arm架构，英伟达慢慢在这个市场壮大起来。

无论是Adobe旗下的多媒体处理软件，还是一些独立开发商打造的软件，很多都有英伟达CUDA硬件加速的支持，甚至连英特尔的核显在一些软件支持上，都要好于AMD。正因如此，除了一些特效制作相关的工作外，工作站里的AMD GPU越来越少。

尽管谷歌、英特尔和高通等科技巨头也在寻找打破CUDA垄断地位的契机，但对于软件生态而言，合作并不一定意味着共赢，最后很可能只是为市场提供更多的可选择项，但在易用性、性能等方面，仍不如没有驻足一路狂奔的CUDA。

AMD

AMD对于其GPU软件生态则持以较为开放的态度，且极其重视开源开发社区。AMD的ROCm对标的正是英伟达的CUDA，但其并没有对硬件做出限制，除了Radeon、Instinct系列的GPU外，也在扩展至其他硬件厂商的设备。这也得益于AMD没有在硬件内引入Tensor核心这样的专有硬件，但也正是因为如此，导致其ROCm在某些任务上略显逊色。

ROCm作为开源平台，也提供多种库和框架支持，也有一整套的开源工具链。正因如此，在HPC和云计算等领域，厂商其实更宁愿使用AMD的GPU，而不必要忍受英伟达的专用软件栈。但苦于英伟达先行的软件生态，他们不得不首选英伟达的GPU。

AMD即便有了ROCm，整体软件生态的成熟度依然不敌英伟达，对于HPC中部分不以商业成功为目标的项目而言，AMD已经斩获了不少份额，比如TOP500中前十的几台超算。但以整个TOP500榜单来看，英伟达依然占据主导地位。然而对于云供应商来说，短时间内依然没法摆脱英伟达的统治，因为租用这些云服务的客户们，更愿意在英伟达的CUDA平台上开发。

在驱动软件上，尤其是针对Linux的显卡驱动，AMD采取了开源和闭源两条路线，持续更新闭源驱动的同时，也允许开源社区定制化开源驱动。以基于Linux系统中AMD Radeon显卡打造的Vulkan驱动AMDVLK为例，就支持了光线追踪。然而，尽管开源驱动由于手动配置和社区贡献的原因，兼容性要更高一些，但如果追求的是更高的性能，那么闭源驱动还是更具优势。

摩尔线程

国产GPU主要分为两个方向，分别是支持图形渲染的和不支持图形渲染的，后者仍然想在AI领域内突破，前者在推进C端产品的同时，也在布局B端的一系列AI GPU产品。在国产GPU产品中，在软件生态上做得比较好的当属摩尔线程了，他们在AI和图形渲染上的软件支持都有喜人的进展。

基于MUSA这一统一架构，摩尔线程打造了MTT S80这样的桌面显卡，以及面面向服务器应用的MTT S3000等。与之配套的，是摩尔线程打造的软件开发平台，包括AI开发平台、MUSA SDK、MT Smart Media和MTVerse XR等。

而且摩尔线程打造的这套生态架构中，可以充分兼容现有软件生态，借助MUSIFY工具实现代码零成本迁移到MUSA平台。与AMD的ROCm一样，MUSA做的也是兼容CUDA的路线，而不是像ZLUDA一样重新编译二进制代码，所以并不违反英伟达的EULA条款。

从摩尔线程近来官方发布的消息看来，他们在AI上选择了逐步对大模型完成适配支持的路线。在摩尔线程的夸娥千卡智算集群上，他们已经完成了30亿到700亿参数的大模型训练和推理适配。摩尔线程的GPU在算力上对比国际大厂还是略有逊色，不过随着未来他们在IP、硬件设计上进一步突破，相信他们也能打造出高性能的AI算力底座。

在针对消费级图形显卡的驱动程序上，摩尔线程也在不断更新优化性能。以5月底发布的v260.70版本驱动为例，除了提供对OpenGL 4.0功能的支持和优化Blender 3.6 LTS体验外，也为诸多热门游戏在DirectX 11下的性能做了明显优化。尽管这类驱动更新的规模比起英伟达还有所差距，但也代表了厂商持续优化性能表现的决心。

写在最后

其实从越来越多的厂商进军GPU，越来越多的GPU厂商发力AI就可以看出，即便CUDA有着深厚的生态积累，但在日新月异的AI中，其他厂商仍有分一杯羹的机会，甚至可能在某个应用中后来者居上。但在图形渲染相关的软件生态上，厂商面临的技术壁垒更加厚。不仅要带着钻研十数年的决心，还要持续打磨硬件产品，与产业软件生态圈合作，挖掘和培养更多的图形研究人才。