推理芯片的最大挑战

半导体行业观察 allaboutcircuits

2023-09-27

ChatGPT对每次查询成本的影响使其在商业上具有挑战性。摩根士丹利估计，2022年Google搜索查询（3.3万亿次查询）的每次查询成本为0.2英镑（被视为基准）。同一分析表明，ChatGPT-3上的每次查询成本在3到14欧元之间，比基准高15-70倍。

在不到一年的时间里，生成式人工智能通过OpenAI的ChatGPT（一种基于Transformer的流行算法）获得了全球声誉和使用。基于Transformer的算法可以学习对象不同元素（例如句子或问题）之间的复杂交互，并将其转换为类似人类的对话。

在Transformer和其他大型语言模型(LLM)的引领下，软件算法取得了快速进展，而负责执行它们的处理硬件却被抛在了后面。即使是最先进的算法处理器也不具备在一两秒的时间范围内详细阐述最新ChatGPT查询所需的性能。

为了弥补性能不足，领先的半导体公司构建了由大量最好的硬件处理器组成的系统。在此过程中，他们权衡了功耗、带宽/延迟和成本。该方法适用于算法训练，但不适用于部署在边缘设备上的推理。

功耗挑战

虽然训练通常基于生成大量数据的fp32或fp64浮点算法，但它不需要严格的延迟。功耗高，成本承受能力高。

相当不同的是推理过程。推理通常在fp8算法上执行，该算法仍会产生大量数据，但需要关键的延迟、低能耗和低成本。

模型训练的解决方案来自于计算场。它们运行数天，使用大量电力，产生大量热量，并且获取、安装、操作和维护成本高昂。更糟糕的是推理过程，碰壁并阻碍了GenAI在边缘设备上的扩散。

边缘生成人工智能推理的最新技术

成功的GenAI推理硬件加速器必须满足五个属性：

petaflops范围内的高处理能力和高效率（超过50%）
低延迟，可在几秒钟内提供查询响应
能耗限制在50W/Petaflops或以下
成本实惠，与边缘应用兼容
现场可编程性可适应软件更新或升级，以避免工厂进行硬件改造

大多数现有的硬件加速器可以满足部分要求，但不能满足全部要求。老牌CPU是最差的选择，因为执行速度令人无法接受；GPU在高功耗和延迟不足的情况下提供相当快的速度（因此是训练的选择）；FPGA在性能和延迟方面做出了妥协。

完美的设备将是定制/可编程片上系统(SoC)，旨在执行基于变压器的算法以及其他类型算法的发展。它应该支持合适的内存容量来存储法学硕士中嵌入的大量数据，并且应该可编程以适应现场升级。

有两个障碍阻碍了这一目标的实现：内存墙和CMOS器件的高能耗。

内存墙

人们在半导体发展历史的早期就观察到，处理器性能的进步被内存访问的缺乏进步所抵消。

随着时间的推移，两者之间的差距不断扩大，迫使处理器等待内存传送数据的时间越来越长。结果是处理器效率从完全100%利用率下降（图1）。

为了缓解效率的下降，业界设计了一种多级分层内存结构，采用更快、更昂贵的内存技术，靠近处理器进行多级缓存，从而最大限度地减少较慢主内存甚至较慢外部内存的流量（图2）。

CMOS IC的能耗

与直觉相反，CMOS IC的功耗主要由数据移动而非数据处理决定。根据马克·霍洛维茨教授领导的斯坦福大学研究（表1），内存访问的功耗比基本数字逻辑计算消耗的能量高出几个数量级。

加法器和乘法器的功耗从使用整数运算时的不到一皮焦耳到处理浮点运算时的几皮焦耳。相比之下，在DRAM中访问数据时，访问高速缓存中的数据所花费的能量会跃升一个数量级，达到20-100皮焦耳，并且会跃升三个数量级，达到超过1,000皮焦耳。

GenAI加速器是以数据移动为主导的设计的典型例子。

内存墙和能耗对延迟和效率的影响

生成式人工智能处理中的内存墙和能耗的影响正变得难以控制。

几年之内，为ChatGPT提供支持的基础模型GPT从2019年的GPT-2发展到2020年的GPT-3，再到2022年的GPT-3.5，再到目前的GPT-4。每一代模型的大小和参数（weights,tokens和states）的数量都增加了几个数量级。

GPT-2包含15亿个参数，GPT-3模型包含1750亿个参数，最新的GPT-4模型将参数规模推至约1.7万亿个参数（尚未发布官方数字）。

这些参数的庞大数量不仅迫使内存容量达到TB范围，而且在训练/推理过程中同时高速访问它们也会将内存带宽推至数百GB/秒（如果不是TB/秒）。为了进一步加剧这种情况，移动它们会消耗大量的能量。

昂贵的硬件闲置

内存和处理器之间令人畏惧的数据传输带宽以及显着的功耗压倒了处理器的效率。最近的分析表明，在尖端硬件上运行GPT-4的效率下降至3%左右。为运行这些算法而设计的昂贵硬件在97%的时间内处于闲置状态。

执行效率越低，执行相同任务所需的硬件就越多。例如，假设1 Petaflops（1,000 Teraflops）的要求可以由两个供应商满足。供应商（A和B）提供不同的处理效率，分别为5%和50%（表2）。

那么供应商A只能提供50 Teraflops的有效处理能力，而不是理论处理能力。供应商B将提供500 Teraflops。为了提供1 petaflop的有效计算能力，供应商A需要20个处理器，但供应商B只需2个。

例如，一家硅谷初创公司计划在其超级计算机数据中心使用22,000个Nvidia H100 GPU。粗略计算，22,000个H100 GPU的售价为8亿美元——这是其最新融资的大部分。该数字不包括其余基础设施的成本、房地产、能源成本以及本地硬件总拥有成本(TCO)中的所有其他因素。

系统复杂性对延迟和效率的影响

另一个例子，基于当前最先进的GenAI训练加速器，将有助于说明这种担忧。硅谷初创公司的GPT-4配置将需要22,000个Nvidia H100 GPU副本以八位字节的形式部署在HGX H100或DGX H100系统，总共产生2,750个系统。

考虑到GPT-4包括96个解码器，将它们映射到多个芯片上可能会减轻对延迟的影响。由于GPT结构允许顺序处理，因此为总共96个芯片为每个芯片分配一个解码器可能是一种合理的设置。

该配置可转换为12个HGX/DGX H100系统，不仅对单芯片之间、电路板之间和系统之间移动数据带来的延迟提出挑战。使用增量变压器可以显着降低处理复杂性，但它需要状态的处理和存储，这反过来又增加了要处理的数据量。

底线是，前面提到的3%的实施效率是不现实的。当加上系统实现的影响以及相关的较长延迟时，实际应用程序中的实际效率将显着下降。

综合来看，GPT-3.5所需的数据量远不及GPT-4。从商业角度来看，使用类似GPT-3的复杂性比GPT-4更具吸引力。另一方面是GPT-4更准确，如果可以解决硬件挑战，它会成为首选。

最佳猜测成本分析

让我们重点关注能够处理大量查询的系统的实施成本，例如类似Google的每秒100,000个查询的量。

使用当前最先进的硬件，可以合理地假设总拥有成本（包括购置成本、系统运营和维护成本）约为1万亿美元。据记录，这大约相当于世界第八大经济体意大利2021年国内生产总值(GDP)的一半。

半导体行业正在积极寻找应对成本/查询挑战的解决方案。尽管所有尝试都受到欢迎，但解决方案必须来自新颖的芯片架构，该架构将打破内存墙并大幅降低功耗。

责编：高蝶

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：gaochanggong@szw.org.cn

今日头条号

搜狐号

订阅号

服务号

推理芯片的最大挑战