一文搞懂 CPU、GPU 和 TPU-德赢Vwin官网网

张量处理单元（TPU）是一种定制化的 ASIC 芯片，它由谷歌从头设计，并专门用于机器学习工作负载。TPU 为谷歌的主要产品提供了计算支持，包括翻译、照片、搜索助理和 Gmail 等。

在本文中，我们将关注 TPU 某些特定的属性。

在我们对比 CPU、GPU 和 TPU 之前，我们可以先了解到底机器学习或神经网络需要什么样的计算。如下所示，假设我们使用单层神经网络识别手写数字。

如果图像为 28×28 像素的灰度图，那么它可以转化为包含 784 个元素的向量。神经元会接收所有 784 个值，并将它们与参数值（上图红线）相乘，因此才能识别为「8」。其中参数值的作用类似于用「滤波器」从数据中抽取特征，因而能计算输入图像与「8」之间的相似性：

这是对神经网络做数据分类最基础的解释，即将数据与对应的参数相乘（上图两种颜色的点），并将它们加在一起（上图右侧收集计算结果）。如果我们能得到最高的预测值，那么我们会发现输入数据与对应参数非常匹配，这也就最可能是正确的答案。

简单而言，神经网络在数据和参数之间需要执行大量的乘法和加法。我们通常会将这些乘法与加法组合为矩阵运算，这在我们大学的线性代数中会提到。所以关键点是我们该如何快速执行大型矩阵运算，同时还需要更小的能耗。

CPU 如何运行

因此 CPU 如何来执行这样的大型矩阵运算任务呢？一般 CPU 是基于冯诺依曼架构的通用处理器，这意味着 CPU 与软件和内存的运行方式如下：

图：CPU 如何运行

CPU 最大的优势是灵活性。通过冯诺依曼架构，我们可以为数百万的不同应用加载任何软件。我们可以使用 CPU 处理文字、控制火箭引擎、执行银行交易或者使用神经网络分类图像。

但是，由于 CPU 非常灵活，硬件无法一直了解下一个计算是什么，直到它读取了软件的下一个指令。CPU 必须在内部将每次计算的结果保存到内存中（也被称为寄存器或 L1 缓存）。内存访问成为 CPU 架构的不足，被称为冯诺依曼瓶颈。

虽然神经网络的大规模运算中的每一步都是完全可预测的，每一个 CPU 的算术逻辑单元（ALU，控制乘法器和加法器的组件）都只能一个接一个地执行它们，每一次都需要访问内存，限制了总体吞吐量，并需要大量的能耗。

GPU 如何工作

为了获得比 CPU 更高的吞吐量，GPU 使用一种简单的策略：在单个处理器中使用成千上万个 ALU。现代 GPU 通常在单个处理器中拥有 2500-5000 个 ALU，意味着你可以同时执行数千次乘法和加法运算。

图：GPU 如何工作

这种 GPU 架构在有大量并行化的应用中工作得很好，例如在神经网络中的矩阵乘法。实际上，相比 CPU，GPU 在深度学习的典型训练工作负载中能实现高几个数量级的吞吐量。这正是为什么 GPU 是深度学习中最受欢迎的处理器架构。

但是，GPU 仍然是一种通用的处理器，必须支持几百万种不同的应用和软件。这又把我们带回到了基础的问题，冯诺依曼瓶颈。在每次几千个 ALU 的计算中，GPU 都需要访问寄存器或共享内存来读取和保存中间计算结果。

因为 GPU 在其 ALU 上执行更多的并行计算，它也会成比例地耗费更多的能量来访问内存，同时也因为复杂的线路而增加 GPU 的物理空间占用。

TPU 如何工作

当谷歌设计 TPU 的时候，我们构建了一种领域特定的架构。这意味着，我们没有设计一种通用的处理器，而是专用于神经网络工作负载的矩阵处理器。

TPU 不能运行文本处理软件、控制火箭引擎或执行银行业务，但它们可以为神经网络处理大量的乘法和加法运算，同时 TPU 的速度非常快、能耗非常小且物理空间占用也更小。

其主要助因是对冯诺依曼瓶颈的大幅度简化。因为该处理器的主要任务是矩阵处理，TPU 的硬件设计者知道该运算过程的每个步骤。因此他们放置了成千上万的乘法器和加法器并将它们直接连接起来，以构建那些运算符的物理矩阵。

这被称作脉动阵列（Systolic Array）架构。在 Cloud TPU v2 的例子中，有两个 128X128 的脉动阵列，在单个处理器中集成了 32768 个 ALU 的 16 位浮点值。

我们来看看一个脉动阵列如何执行神经网络计算。首先，TPU 从内存加载参数到乘法器和加法器的矩阵中。

图：TPU 如何工作

然后，TPU 从内存加载数据。当每个乘法被执行后，其结果将被传递到下一个乘法器，同时执行加法。因此结果将是所有数据和参数乘积的和。在大量计算和数据传递的整个过程中，不需要执行任何的内存访问。

这就是为什么 TPU 可以在神经网络运算上达到高计算吞吐量，同时能耗和物理空间都很小。

因此使用 TPU 架构的好处就是：成本降低至 1/5。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
455

文章
50711

浏览量
423103
cpu

cpu

+关注

关注
68

文章
10854

浏览量
211563
谷歌

谷歌

+关注

关注
27

文章
6161

浏览量
105295

原文标题：一文搞懂 CPU、GPU 和 TPU

文章出处：【微信号：FPGAer_Club，微信公众号：FPGAer俱乐部】欢迎添加关注！文章转载请注明出处。

【一文看懂】大白话解释“GPU与GPU算力”

随着大模型的兴起，“GPU算力”这个词正频繁出现在人工智能、游戏、图形设计等工作场景中，什么是GPU，它与CPU的区别是什么？以及到底什么是GPU算力？本篇文章主要从以下5个角度，让您

发表于 10-29 08:05 •544次阅读

【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白话解释“<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b>算力”

【「大模型时代的基础架构」阅读体验】+ 第一、二章学习感受

常用的机器学习算法，重点剖析了一元线性回归算法，由此引出机器学习算法的运算特征，此后分别描述了使用CPU、GPU、TPU和NPU运行机器学习算法的特点，比如

发表于 10-10 10:36

从TPU v1到Trillium TPU，苹果等科技公司使用谷歌TPU进行AI计算

，在训练尖端人工智能方面，大型科技公司正在寻找英伟达以外的替代品。不断迭代的谷歌TPU 芯片随着机器学习算法，特别是深度学习算法在各个领域的广泛应用，对于高效、低功耗的AI计算硬件需求日益增长。传统的CPU和GPU在

发表于 07-31 01:08 •3347次阅读

CPU渲染和GPU渲染优劣分析

使用计算机进行渲染时，有两种流行的系统：基于中央处理单元(CPU)或基于图形处理单元(GPU)。CPU渲染利用计算机的CPU来执行场景并将其渲染到接近完美。这也是执行渲染的更传统方式。

发表于 05-23 08:27 •587次阅读

<b class='flag-5'>CPU</b>渲染和<b class='flag-5'>GPU</b>渲染优劣分析

X-Silicon发布RISC-V新架构实现CPU/GPU一体化

X-Silicon 的芯片与其他架构不同，其设计将 CPU 和 GPU 的功能整合到单核架构中。这与英特尔和 AMD 的典型设计不同，前者有独立的 CPU 内核和 GPU 内核。

发表于 04-08 11:34 •578次阅读

X-Silicon发布RISC-V新架构实现<b class='flag-5'>CPU</b>/<b class='flag-5'>GPU</b><b class='flag-5'>一</b>体化

RISC-V芯片新突破：CPU与GPU一体化核心设计

X-Silicon 的芯片与其他架构不同，其设计将 CPU 和 GPU 的功能结合到单核架构中。这与 Intel 和 AMD 的典型设计不同，后者有独立的 CPU 核心和 GPU 核心

发表于 04-07 10:41 •727次阅读

RISC-V芯片新突破：<b class='flag-5'>CPU</b>与<b class='flag-5'>GPU</b><b class='flag-5'>一</b>体化核心设计

一文详解GPU硬件与CUDA开发工具

CPU 和 GPU 的显著区别是：一个典型的 CPU 拥有少数几个快速的计算核心，而一个典型的 GPU

发表于 03-21 10:15 •1160次阅读

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轰动，超越了传统GPU和谷歌TPU。

发表于 02-26 10:24 •1026次阅读

gpu是什么和cpu的区别

GPU和CPU是两种常见的计算机处理器，它们在结构和功能上有很大的区别。在这篇文章中，我们将探讨GPU和CPU的区别，并详细介绍它们的原理、应用领域和性能特点。

发表于 02-20 11:24 •1.9w次阅读

gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU服务器是一种专门用于处理图形运算的服务器，而

发表于 01-30 15:31 •856次阅读

为什么GPU比CPU更快？

GPU比CPU更快的原因并行处理能力：GPU可以同时处理多个任务和数据，而CPU通常只能一次处理一

发表于 01-26 08:30 •2392次阅读

tpu材料的用途和特点

TPU材料，即热塑性聚氨酯（Thermoplastic Polyurethane），是一种聚合物材料，具有广泛的应用领域和独特的特点。 TPU材料的主要用途如下：鞋类行业：TPU材料

发表于 01-16 10:17 •3212次阅读

GPU是显卡吗 cpu和gpu哪个算力强

GPU（图形处理器）是显卡（显像处理器）的一种，它是一种专门用于图形计算的处理器。显卡是计算机中的一个重要组件，负责处理和渲染图形，使它们能够在显示屏上显示出来。

发表于 01-10 15:45 •5249次阅读

TPU-MLIR开发环境配置时出现的各种问题求解

按照 TPU-MLIR 开发指南进行环境配置： 2.1. 代码下载 代码路径: https://github.com/sophgo/tpu-mlir 克隆该代码后, 需要在Docker中编译

发表于 01-10 08:02

CPU与GPU散热器设计的异同及其重要性

计算机的稳定和性能不受影响，散热器成为了必要的组件。本文将详述CPU和GPU散热器的设计异同以及其重要性。一、设计异同 1. 散热原理： CPU和

发表于 01-09 14:00 •1281次阅读

搜索历史

一文搞懂 CPU、GPU 和 TPU

评论

【一文看懂】大白话解释“GPU与GPU算力”

【「大模型时代的基础架构」阅读体验】+ 第一、二章学习感受

从TPU v1到Trillium TPU，苹果等科技公司使用谷歌TPU进行AI计算

CPU渲染和GPU渲染优劣分析

X-Silicon发布RISC-V新架构实现CPU/GPU一体化

RISC-V芯片新突破：CPU与GPU一体化核心设计

一文详解GPU硬件与CUDA开发工具

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

gpu是什么和cpu的区别

gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

为什么GPU比CPU更快？

tpu材料的用途和特点

GPU是显卡吗 cpu和gpu哪个算力强

TPU-MLIR开发环境配置时出现的各种问题求解

CPU与GPU散热器设计的异同及其重要性