中国算力产业链的短板与突围策略
在全球经济复苏面临较大不确定性的同时,数字经济依然保持强劲增长,算力已经成为经济增长的重要驱动引擎。IDC(国际数据公司)从对全球多个行业的Top30企业的跟踪研究中发现,IT投入的增加会带来不同程度的实际收益,IT每投入1美元,在互联网行业可拉动22美元的营收额与2美元利润产出,在制造行业可拉动45美元的营收额和6美元利润产出。
AI技术不断取得创新突破并得到更大范围普及,催生了对算力的更大需求和更大焦虑。以前我们认为靠机器难以解决的很多问题,现在都有了可操作性较高的解决方法,比如自动驾驶、自然语言处理(NLP),甚至是内容创作(AIGC),靠AI都可以实现。人类已经从电力时代进入算力时代,数据是新的生产资料,算力是新的生产力。可是,我国算力的提升长期面临着明显瓶颈。
算力产业链的上下游可以分为前后两端:前端是云计算厂商为企业提供算力服务,设备厂商为云厂商提供服务器,全球市场只有美国和中国拥有规模化的云厂商,美国是三大云厂商(亚马逊AWS、微软Azure、谷歌云)、中国是四大科技公司的云业务(阿里云、腾讯云、华为云、百度云),以及三大电信运营商云(移动云、天翼云、联通云)。后端是芯片供应商向服务器厂商销售芯片,芯片制造商为芯片供应商做代工,这就非常考验一个国家的半导体产业实力。中国的算力产业链在前端具备较强竞争力,后端则需要作出长期努力,我们还有很多短板需要补强。
近年来,因为AI需求驱动,诸多行业领域对算力的需求呈指数级增长,而算力的供给受限于高性能芯片的供给,只能做到线性增长,导致供不应求,甚至“算力焦虑”。算力产业链的格局重塑已经开始,国内计算产业正在发生史无前例的重大变化。
重塑科技创新的一般范式
现今最重要的五个创新赛道,包括云计算、人工智能、元宇宙、量子计算、脑机融合,无疑都是由算力驱动的。近年不断发展成熟的新能源电动车,也已不单纯是一种动力设备,更多是一种算力驱动的信息产品。
根本上讲,现代科技创新的一般范式就是提高计算能力和信息组织效率,调动能量,改变自然现象,满足人的需求。信息调动能量的起点是能够处理信息、能够传输信息、能够存储信息。能够处理、传输和存储的信息总量,就是算力。发电量和算力被视作现代经济的硬指标,发电量的背后是一台一台的发电机,算力的背后是一台一台的服务器和不计其数的各类半导体芯片。
单位算力成本的不断下降,正在并将继续深度改变这个时代。1946年世界上第一台计算机诞生,2016年AlphaGo下棋赢了柯洁,如果用1946年的算力来支持AlphaGo下这盘棋,就需要用上百万个三峡水电站的发电量来实现。今天,我们只需消耗较少的能量就能实现过去难以想象的计算能力,可见算力的演进有多快。近年来算力的指数级提升,使得很多技术领域面临的发展天花板被打开了。长期看来,算力产业链持续的技术升级是大势所趋。就数字经济长远发展所需要的算力结构而言,可以作出以下算力分类。
通用算力
通用算力是由基于CPU芯片的服务器提供的算力,主要用于基础通用计算,包括云计算、边缘计算等。
云计算就是把计算任务从本地挪到远程,往往是挪到一个大的计算中心。那里完成计算以后,再把计算结果返回本地。这样,本地就不用部署很强的硬件搞计算了。云计算平台提供的算力相当于插头220V的交流电,你到哪里,带上一个插头插上就能用。当云计算平台提供更多的算力时,企业、家庭都可以做各种各样和计算相关的事情,企业和家庭的智能化程度也就变高了,社会的智能化随之得到提高。
边缘计算则是把一部分计算任务放在分散各处的本地去完成,这样,可以减少云服务器的计算压力,也能缓解传输带宽上的压力。边缘计算特别适用于物联网(IoT)、智能汽车等应用场景。IoT现在处于起步阶段,将来会越来越多,IoT的一个特殊应用是车联网,里面涉及很多计算问题。比如公路上的自动驾驶汽车,操控车辆就要用到AI,不仅传感器返回的信息需要大量的计算资源进行数据处理,更要马上做出判断、规划相应路径等操作,这些都离不开可靠的算力支撑。
智能算力
智能算力是由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力,主要用于人工智能的训练和推理计算,比如语音、图像和视频的处理。
过去,人们因为难以承受太高的算力成本,觉得AI不实用,如今随着持续下降的单位算力成本,服务器计算能力越来越强大,使得AI的实用化、商用化的临界点已经到来。
为什么AI的创新发展如此消耗算力呢?根本原因是AI改变了解决问题的基本范式。比如我们解数学题,一般需要搞懂问题的基本原理,通过逻辑推理得到最终答案。但是AI重新踏出了一条解决问题的思路,不需要知道原理,依靠强大的计算能力把可能的答案都挨个进行试错,也能找到正确答案。就像谷歌的围棋人工智能AlphaGo,是自己跟自己下棋,进行无数次的试错(也叫“暴力计算”),最后战胜了人类顶尖棋手。
计算机不能自主产生智能和知识,但可以通过大量的计算来获得数据背后的统计规律。包括语音识别、图像识别、自然语言处理、用户画像等基础AI技术,完全不需要人类教会机器声学、光学和电磁学原理,让机器像人类工程师一样工作。今天AI技术的创新只需要算法和数据,好的算法会不断产生有价值的数据,有价值的数据又会推进算法的升级改进,这一切就是一轮轮高消耗的计算,但前提是拥有超强的计算能力。换句话说,只要算力足够强大,很多问题都可以转化为计算问题。
超算算力
超算算力是由超级计算机提供的算力,主要用于尖端科学领域的计算,比如行星模拟、药物分子设计、基因分析等。
为什么你能感觉到现在的天气预报比原来精准多了?以前天气预报只能告诉你“局部地区有雨”,现在可以让你随时在手机APP上查看未来几个小时精准的降雨云图,这就是算力提升的结果。算力提升的好处也反应在生物医药研究上,可以使新药研发鉴定的周期从5000天缩短到100天。
目前只有少数几家中国公司真正具备超算能力,就是有大型服务器、可以实现非常复杂的超级算力。国内这几家超算公司中多数拥有自研芯片,核心技术相对自主可控。没有自研芯片的中国超算公司也有自己的特殊优势,就是更能通过国际合作的加持推动产品的广泛商用。
面临明显短板
2022年12月,OpenAI推出对话AI ChatGPT。这种依靠AI大模型和AI算力训练出来的生成式AI,正在重塑软件、芯片产业,甚至影响了很多传统产业的智能化转型,必然会触发算力资源的紧张。除了IT行业本身,制造业(智慧工厂)也是算力消耗的大户。
清华大学全球产业研究院已经注意到算力在经济发展过程中能够发挥倍增效应,对于“数实融合”有很强的促动和催化作用。相关数据显示,2022年制造行业中算力投入规模达125.8亿美元,同比增速为29.0%,制造业的算力水平已经超过金融业排名第二。IT行业、制造业,及金融业等各个行业领域都在推动智能化或者AI化,算力资源的供需之间出现了一道鸿沟。
ChatGPT和智慧工厂只是智能算力蓬勃发展的一个表象,其实质是投入成本、技术门槛更高的智能算力将主导未来很长时间的算力扩张。管理咨询机构罗兰贝格预测,从2018年到2030年,智能出行对算力的需求将增加390倍,智慧工厂需求将增长110倍,主要国家人均算力需求将从今天的不足500 GFLOPS(每秒10亿次的浮点运算数),增加20倍,到2035年将达到10000 GFLOPS。算力结构正在发生的重大转变(智能算力的增长规模远超通用算力),已经明显暴露我国算力产业链的短板。
“聪明的算力”很稀缺
为什么算力资源的供给短期难以出现更大的增长以跟上需求节奏?这还要从现在人工智能的技术路线说起。今天,几乎所有AI的成果都来自于“以数量实现质量”。ChatGPT和AlphaGo都是“以数量实现质量”的代表,也就是大量数据+大计算量,算力为王。数据、算力和模型是当今人工智能的基础,算力最为基础。
ChatGPT的前身是2020年诞生的一个NLP模型GPT-3,可以写诗、写剧本、写产品说明书。GPT-3有1750亿个参数,要比竞争对手英伟达公司的语言模型Megatron(有80亿个参数)、微软的“图灵NLG”(有170亿个参数)都要多很多。就AI技术当前的发展阶段来看,“大”就是一种创新,量变即质变。
国内很多科研院所、互联网企业在AI领域有一定技术积累,也推出一些对标ChatGPT的大模型产品。这其中,算法和数据的差距可能不难追上,但算力的差距则是短期难以解决的。ChatGPT的底层技术是GPT-3.5语言大模型,包含近1800亿个参数。尽管参数规模相比GPT-3增长不多,但美国市场研究机构TrendForce经过测算,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚。
这些参数在训练过程中需要不断调整和更新,没有足够高性能芯片支撑起的强大算力,就不能快速更新这些参数。如果要加快推进训练进度,大模型往往还要采取分布式训练,也就是将模型分布在多个计算节点上进行训练,每个节点都需要足够的算力(芯片)来完成自己的任务。这就是一个算力黑洞,多多益善。
在更早的2022年11月,微软Azure云服务平台上就部署了数万枚英伟达A100/H100高性能芯片。运行ChatGPT至少需要一万枚英伟达的A100芯片。然而,国内GPU芯片持有量超过一万枚的企业已经屈指可数。时至今日,国内企业和科研院所甚至已经买不到A100/H100这等技术水平的芯片了。高性能GPU芯片代表着这个时代“顶级聪明的算力”,这个水平的芯片面临缺货,正在成为我国发展高水平AI技术的主要限制因素。
是否能得到“聪明的算力”
智算中心、超算中心,及云计算中心等各种计算中心,提供算力的核心是服务器,服务器的核心是半导体芯片。目前世界主流高性能芯片的工艺制程已经达到7纳米,甚至5纳米的水平,而国内的芯片制造精度短期内还无法达到这一水平。芯片无疑是中国算力产业链的最大短板,不容忽视。没有最好的芯片,是否还能得到“聪明的算力”?也许可以这样理解:如果暂时无法得到“顶级聪明的算力”,能够针对很多具体的应用场景做到“恰当的聪明”也不错。
真正的算力竞争,并不是各个企业、科研院所单纯比拼谁每秒计算多少次,而是针对每一个应用场景的具体需求,看谁能够实现“恰当聪明的算力”,看谁成本更低,效果更好,表现更加稳定,更好满足一个一个具体的应用需求。归根到底,算力的布局和应用都是针对很多小的细分市场。
比如,ChatGPT和AlphaGo智慧程度很高,背后有很强的算力支持,但是你无法让ChatGPT下棋,也无法让AlphaGo回答问题,即应用场景受限。这没关系,中国市场还处于AI算力、大模型商业化的起步期,国内已经有自动驾驶、金融等领域的少数企业开始采用AI算力。已经有电动汽车制造商采用国内的智算中心进行自动驾驶的模型训练。国内很多银行的反欺诈中心通常只需要租赁使用数百枚性能较低的GPU优化(反欺诈)模型。缺乏足够的高性能GPU做大规模AI模型训练,完全可以先针对各个细分行业做小模型(或者行业模型)。
另外,AI技术的创新突破,也需要从底层去重构“根技术”。以深度学习为代表的AI技术所需要的智能算力和以冯·诺依曼架构为核心的通用计算,存在很大不同。通用计算的很多能力(高精度计算、庞大的操作指令集)并不能给深度学习带来太多助力,深度学习所需要的数据精度较低、计算相对简单。
而深度学习真正需要的强大数据处理能力(一个大模型就包含数千亿个参数),根本无法依靠哪个芯片、哪台机器的独立性能单独完成任务,而是需要以“异构”的方式把多个算力单元叠加起来,共同完成任务,此时大量芯片之间的通信能力也就更加重要了。由此看来,“根技术”的创新突破可能成为未来化解国内算力产业链短板(缺乏高性能芯片)的一个契机。
突围策略
纵观全局,全球算力需求的急剧膨胀主要是结构性的。算力本质上由芯片决定,并不是所有地方、任何时候都是“芯片荒”。“芯片荒”很大部分原因是摩尔定律逐渐进入瓶颈,单芯片的算力已经没有多少提升空间了,成本越来越高。当然,影响算力资源可获得性的关键要素,除了硬件瓶颈,网络因素也是不可忽视的,构建更大范围的算力网络就是正在探索中的可行思路。
算力网络的特殊重要性,在于让算力流动起来,更大程度释放算力的利用率。IDC数据显示,(全球主要经济体)企业分散的小算力利用率,目前仅为10%~15%,存在很大浪费。激活现有的算力资源,精准服务用户,要比单纯堆砌算力、死磕芯片制程更有价值。
其实,国家推动的“东数西算”工程,就是算力网络理念的一次落地实践。东部地区明显对算力需求更高,西部地区因为制冷成本低(气温低),能源便宜(运输成本低),算力成本自然更低。借助成熟可靠的通信网络基础设施,将低时延要求的算力迁往西部地区,全国统一资源调配,可以实现更好的算力性价比。
算力资源彻底“融入”通信网络的最大好处,就是能以更加整体的形式、以最符合用户需求的节奏提供算力资源服务,就像我们家里的水、电和燃气那样。要真正做到这一点,需要有可持续的商业化驱动和体系化驱动。
商业化驱动:决定了算力网络能否进入良性循环
构建算力网络的技术起点是云计算设施,特别巧合的是,算力产业链利润最丰厚的部分目前也是云计算服务,其次是服务器和通信设备。而特别尴尬的是,中国的云计算厂商整体上是不赚钱的。
2022年,美国三大云计算厂商亚马逊AWS、微软智能云和谷歌云掌握了全球66%的市场份额,营业利润总和超过500亿美元。而中国七大云计算厂商加起来,全球份额低于20%,年营业亏损总和超百亿元。基于这个“战略性亏损”的现状,指望中国企业立足云计算基础设施的有限资本支出投资智算集群、AI大模型,是不现实的。所以,中国本土企业面临的最大压力,是长期在全球算力产业链的价值分配中处于劣势,使之难以进入商业可持续的良性循环。
我们需要看到,强大算力网络的背后其实是强大的企业用户集群和正向的技术、商业内循环。以微软自有的算力网络为例,2022年,微软在云计算基础设施上的投入超过250亿美元,当年微软智能云的营业利润就超过400亿美元。微软可以持续大规模投资智能算力、AI大模型业务,与其财务状况匹配。微软的200多家核心客户(包括制药公司拜耳、审计公司毕马威等),通常会在微软云上租赁数千枚高性能GPU,进行AI模型训练。微软云已经形成云+企业软件+AI计算三条轮动增长曲线,2022年微软公有云Azure营收增速超过30%,软件业务营收增速超过50%,AI算力营收增速超过100%。
国外主要云计算厂商(微软、亚马逊)已经有了成熟的商业模式和稳定的利润回报,自然能够进行更高强度的研发投入,并获得更大的技术优势,进入一个不断自我强化的正循环。中国云计算厂商整体上还没有进入这个正循环状态,仍处于探索和突围之中。加上国内的芯片制造精度与国际主流水平还有很大距离,致使国内的算力产业链出现较多短板。
体系化驱动:让千万聪明人直面千万个挑战性问题
国内希望通过构建“一体化的算力网络体系”(“东数西算”),反哺自主算力产业链,就像当年的高铁、通信网络也从产业链价值分配中的劣势地位开始追赶,经过统一调度和高强度研发,实现了强势崛起。然而,国内算力产业链的实际情况比较特殊:一是各个云计算厂商的服务器、芯片、算法都有自己的一套标准,要把很多机器连在一起做事会很费劲;二是AI和云计算还处在技术快速迭代时期,统一调度会限制科技公司紧跟国际技术变革、推进创新突破的意愿。
归根到底,算力产业链的进化迭代是一个系统工程。以上提到的算力网络、异构计算、行业(小)模型都可以融入自主算力产业链创新突围的策略当中。这个过程不仅会创造一大批订单,更重要的是会有一大批挑战性的问题出现。
我国发展自主可靠的算力产业链的目标,可以被拆解成为一个一个非常具体的、细小的问题和需求,一些小的技术环节可能面临瓶颈,一些核心零部件即使眼下还造不出来,但是目标清晰了,这个体系内无数的聪明人都会知道该怎么奋斗。另外,没有孤立存在的算力产业链,相关的周边产业链(比如通信、电力等)在很多具体的要求下,也能快速成长,甚至能够外溢到其他产业里去,促成中国工业体系整体性的创新崛起。
(周倩 本刊特约撰稿人)