国产GPU的一大力作 ”中国英伟达”能否就此诞生?
标签:
GPU
来源:华强电子网
作者:NV
时间:2021-12-23 14:22
摘要:“GPU赛道足够大,目前英伟达的市值有七千多亿,而芯动科技的目标就是做中国的英伟达”,芯动科技工程副总毛鸣明说道。
GPU 是每台电脑不可缺少的组件,缺少 GPU,我们的笔记本将无法正常显示图像。即便我们每天都在运用 GPU,但是大家真的了解 GPU吗?
GPU又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备上图像运算工作的微处理器。在没有GPU之前,基本上所有的任务都是交给CPU来做的。有GPU之后,二者就进行了分工,CPU负责逻辑性强的事物处理和串行计算,GPU则专注于执行高度线程化的并行处理任务(大规模计算任务)。为什么这么分工?这是由二者的硬件构成决定的。可以看出,CPU是“主(host)”而GPU是“从(device)”,GPU无论发展得多快,都只能是替CPU分担工作,而不是取代CPU。
GPU生态是芯片圈最为残酷的生态,除了英伟达经过30年的成长历练和生态培养,在业界大口吃肉顺风顺水,其他家都活得不算好。Inter做了这么多年显示芯片,到现在还是没有一块独显。GPU生态圈对新进厂商极不友好,以这样的地狱级别难度,国内厂商能做一块Windows下的亮机卡都算是很不错的成绩。
以数据中心产品为例,今天英伟达Ampere架构下的云端训练A100显卡FP32浮点性能19.5T FLOPS,INT8算力1,248 TOPS,而这两天的消息称,英伟达的下一代GPU Hopper FP32浮点性能将达到24.2 TFLOPs,几乎是A100 显卡的2.5倍。
因为GPU这些年的高速发展带来了技术壁垒的不断高筑,GPU战场三四年前还有很多家,而现在只剩下三家。高端技术的垄断代表了议价权,现在一张高端的GPU显卡,市场售价高达十几万元,相当于一辆普通小轿车的价格。再加上国内需求的差异化,巨头们在定制方面确实存在心力不足的问题,所以GPU自主可控下的国产化势在必行。
在这样的大环境下,近几年本土GPU厂商如雨后春笋般冒出来。不过真正能出产品,实现量产的也没几家,并且算力比较低。比如景嘉微2020开始量产出货的JM7200单精度算力只有0.5T FLOPS,2021年刚流片回来的JM9231实测浮点算力能达到1.5T FLOPS。所以上个月芯动科技发布的4K级显卡GPU芯片“风华1号”变得格外抢眼。
根据芯动云计算总裁敖海的介绍,“‘风华1号’GPU成倍提升了现有国产GPU水平,单芯片A卡渲染能力达到160GPixel/s,FP32浮点性能达到5T FLOPS,AI性能为25TOPS(INT8),3D图形渲染处理管线定制优化,支持Linux/龙芯/Windows/安卓操作系统图形框架,支持32路SRIOV虚拟化。”
芯动科技SoC体系架构师何颖表示:“如果单从芯片的算力来看,‘风华1号’双芯片B卡的FP32浮点性能达到10T FLOPS,渲染能力达到320GPixel/s,可以对标英伟达Tesla T4 GPU(FP32 / 8.1T FLOPS,渲染能力/254.4 GPixel/s)。”
“GPU赛道足够大,目前英伟达的市值有七千多亿,而芯动科技的目标就是做中国的英伟达”,芯动科技工程副总毛鸣明说道。
那么芯动科技用的GPU架构是什么样的?我们都知道芯动科技拿了Imagination的GPU核 IP授权,而这个授权的GPU IP正是移动端级别的,所以在能效比上存在天生的架构优势。
拿了Imagination的IP,国产GPU还算自主可控吗?
讲到这里,你是否会提出疑问,架构级IP都是买来的,能算是自主可控吗?举个例子,苹果从A4到A10X所有的芯片都是用Imagination的IP,到10之后苹果有了自己的GPU架构,但是它依然是基于Imagination的TBDR架构,所以进行了专利授权,它是Imagination TBDR重要的分支。
当从单核、双核扩大到8核、16核、32核时,就不是简单的堆核了,如何讲这些核有机地调用起来,协调好通讯,就必须有芯片厂商自己的方案。所以苹果有苹果的方案,而芯动科技的方案特色就是Chiplet,通过Chiplet来打破算力的限制。此外,做大核还必须要配合API接口的升级,图像GPU领域趋势的跟进,以及尽量把算力做起来。
说到算力,其实前面也有提到“风华1号”用的是一个移动端的架构,虽然有它功耗和做云游戏的天生优势,但也存在一些架构弱势,所以如何把原生移动端的架构拓展到高性能计算、云计算的场景也是芯动科技要做的最重要的事情之一,这时候就需要修改GPU内核了。
如此,即使是拿了架构授权,其实要做的事情还是很多,这也是目前市场上GPU门槛居高不下的原因所在。根据何颖的介绍,“风华1号”80%以上的IP都是属于自主研发。
不过,哪天真的上了美国的黑名单,不让流片的风险总是会存在的,这不是一家公司能解决的问题。真到那个时候,芯动科技已经流片好几代,并且已经拿到的授权对方是拿不走的,就像当初华为被禁的时候已经有了ARM授权,后面还能用是一个意思,所以相对自主可控。
“桌面市场如果一上来就想跟行业巨头正面地进行竞争,你会死得很惨”,毛鸣明如是说,“每个市场都有很细分的点,比如做桌面,可以先做线上市场,做国产化的统信70的操作系统,先找到一个点站住脚,再去考虑挑战国外的巨头。”
确实,桌面市场是一个存量市场,所以对于一家本土GPU厂商而言,正面PK不可行,所以在中国政策的扶持下,信创市场是一个可行的切入口。
对于国内的信创桌面,目前大家用的最多的还是AMD的卡,ARM服务器和AMD显卡这套方案很成熟,但大家的反馈是一个字“贵”,所以这里面有很大的国产替代空间。
不过如果只有桌面市场,英伟达也不会是万亿级别公司的体量,是AI和元宇宙的加持才成就了今天的英伟达。因此,对于像芯动科技这样的GPU厂商而言,信创市场不是终极目标,而是一个大鱼进不来的小池塘,方便练兵站稳脚跟,从而向更为广阔和通用的云市场过渡。
除了前面提到的信创市场还有其他吗?答案是云游戏市场。前面提到了“风华1号”其实用的是一款移动端内核架构,有做云游戏的天生优势。
前面讲了本土GPU技术和市场侧的一些分析,下面我们来聊点“俗话题”。最近,就算是半导体的圈外人也多多少少对GPU的市场热有所了解,高规格、市场容量大、国体替代紧迫等关键词是这个赛道能够大批量吸收市场热钱的原因所在。
正是在这样的大背景下,你可能不会相信芯动科技竟然是在无融资的条件下完成了GPU的架构授权、设计、流片、内部测试,到量产版本的发布工作。12nm的流片的费用不说,这年头光是养几百人的GPU研发团队都是一笔不菲的开销。
面对这个问题,毛鸣明给出的答案是——“风华1号”正在和腾讯、联通等大厂进行适配,中国年以后会开始讨论订购、采购的细节,后面我们每半年会迭代流片一款产品,每一年到一年半做真正意义上的大的架构迭代,如果我们做得好的话,可能在1-2年内就可以回本。
迭代这么快,还能在短期内赚钱,自信哪来?“信创市场一年有几百万张卡的体量,服务器显卡一年有十万张或者几十万张的体量,而且服务器端的成长特别快,单卡的价格也是信创的十倍、几十倍的体量。所以我们觉得在信创市场上做盈利比较难,因为它本身偏向于中低端的市场,但是在服务器端的盈利还是比较有希望的。” 毛鸣明补充道。
对于Chiplet技术下的GPU来讲,如果能做接口等技术上的提前验证,是一件事半功倍的事情。那么你认为芯动科技真的能成为中国的英伟达吗?