人工智能公司Cerebras Systems正在推出有史以来最大的半导体芯片“晶圆级引擎”(WSE,Wafer Scale Engine)。这款芯片每边宽约22厘米(约8.5英寸),比一台iPad还要大。
(图源:Cerebras Systems)
Cerebras Wafer Scale Engine拥有1.2万亿个晶体管。这是什么概念?1971年,英特尔首款4004处理器拥有2300个晶体管,最近的AMD处理器拥有320亿个晶体管。如今Cerebras Systems则成为打破纪录的那颗新星!
WSE还包含3,000倍的高速片上存储器,并且具有10,000倍的存储器带宽。
其芯片尺寸是英伟达“V100”芯片的57倍,拥有的存储器电路达到18千兆字节,是“V100”的3000倍。
这块芯片面积达到了46,225平方毫米,而英伟达旗舰GPU“Titan V”的核心面积也仅有815平方毫米。
这款里程碑式的芯片来自Andrew Feldman领导的团队,后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD后,又到AMD做了两年半的副总裁。该公司位于美国加州,拥有194名员工。自成立以来,Cerebras Systems已经悄然完成三轮融资,筹集1.12亿美元,估值飙升至8.6亿美元,其投资者包括了Benchmark,以及AMD前CTO Fred Weber、OpenAI科学家Ilya Sutskever等业界大牛。
虽然一直行事低调,Cerebras Systems的伟大项目终于还是浮出了水面:他们想将所有数据都保存在一个巨大的芯片上,以便加快系统运行速度,节省数据在芯片之间传递所造成的不必要的消耗。Cerebras表示,WSE可以把处理复杂数据所需的时间从几个月缩短到几分钟。总结来看,WSE芯片具有三大特征:超强AI算力、高效存储、高带宽通信。
芯片尺寸在AI中非常重要,因为更大面积的芯片可以更快地处理信息,在更短的时间内得出答案。减少洞察时间或“培训时间”,使研究人员能够测试更多想法,使用更多数据并解决新问题。谷歌、Facebook、OpenAI、腾讯、百度和许多其他头部企业和参与者认为,当下人工智能的基本限制就在于——培训模型需要很长时间。因此可以说,缩短培训时间,就消除了整个行业进步的一大核心瓶颈。
当然,芯片制造商通常不会制造如此大的芯片。在单个晶片上,在制造过程中通常会发生一些瑕疵。如果一种瑕疵会导致芯片发生故障,那么晶圆上的一些瑕疵就可能导致一些芯片报废。实际制造产量仅占实际工作芯片的百分比。如果晶圆上只有一个芯片,它有瑕疵的几率是100%,而瑕疵会使芯片报废。但Cerebras的芯片是冗余式的设计,一种瑕疵不会让整个芯片陷入“瘫痪”。如果有的核心出了问题,内部链接可以跳过坏掉的核心。这种方法大大降低了芯片的制造成本。
WSE超级芯片专为AI设计而设计,包含了基础创新,通过解决过去限制芯片尺寸数十年的技术挑战——例如交叉光罩(cross-reticle)连接、成品率、功率输送和封装,从而推动了最先进技术的发展。
“每个架构决策都是为了优化AI工作的性能。结果是,Cerebras WSE根据工作量提供了数百或数千倍的现有解决方案的性能,只需很小的功耗和空间。”Cerebras首席执行官Feldman表示,“WSE训练AI系统的速度可以比现有硬件快100-1000倍。”
通过加速神经网络训练的所有元素,实现了这些性能提升。神经网络是多级计算反馈回路。输入在循环中移动越快,循环学习的速度——或“训练”——就会越快。在循环更快地实现移动输入的方法,关键在于加速循环内的计算和通信。
Linley Group首席分析师Linley Gwennap在一份声明中说:“Cerebras凭借其晶圆级技术实现了巨大的飞跃,在单片硅上实现了比任何人想象的更多的处理性能。”“为了实现这一壮举,该公司已经解决了一系列艰辛的工程挑战,这些挑战几十年来阻碍了该行业,包括实施高速芯片到芯片通信,解决制造缺陷,封装如此大的芯片,以及提供高密度电源和冷却。通过将各种学科的顶级工程师聚集在一起,Cerebras在短短几年内创造了新技术并交付了一个产品,这是一项令人印象深刻的成就。“
芯片面积比最大的图形处理单元多56.7倍,Cerebras WSE提供更多内核进行计算,更多内存靠近内核,因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上,因此所有通信都保留在芯片上,这意味着它的低延迟通信带宽是巨大的,在此基础上内核组可以以最高效率进行协作。
WSE面积为46,225平方毫米,包含400,000个AI优化、无缓存、无开销的计算内核,和18千兆字节(Gigabytes)的本地、分布式、超高速SRAM内存,作为内存层次结构的唯一级别。内存带宽为9 PByte/S。这些内核通过细粒度,全硬件,片上网状连接通信网络连接在一起,可提供每秒100 petabits的总带宽。更多内核、更多本地内存和低延迟高带宽结构,共同构成了加速AI工作的最佳架构。
(图源:Cerebras Systems)
“虽然AI在一般意义上使用,但没有两个数据集或AI任务是相同的。新的人工智能工作负载不断涌现,数据集继续增长,“Tirias Research首席分析师兼创始人Jim McGregor在一份声明中表示。“随着人工智能的发展,硅和平台解决方案也在不断发展。Cerebras WSE是半导体和平台设计领域令人惊叹的工程成就,可在单晶圆级解决方案中提供超级计算机的计算、高性能存储器和带宽。
这些公司表示,如果没有多年与全球最大的半导体代工厂或合约制造商台积电及先进工艺技术的领导者密切合作,那么Cerebras WSE的创纪录成就是不可能实现的。WSE由台积电基于其先进的16nm工艺技术制造。
“我们非常高兴与Cerebras Systems合作制造Cerebras Wafer Scale Engine,这是晶圆级开发的行业里程碑,”台积电运营部门高级副总裁J.K. Wang表示:“台积电的卓越制造和对质量的严格关注使我们能够满足严格的缺陷密度要求,以支持Cerebras创新设计前所未有的芯片尺寸。”
核心,更多的核心
WSE包含400,000个AI优化的计算核心。被称为稀疏线性代数核心(Sparse Linear Algebra Cores)的SLAC,计算核心灵活,可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性,确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。
由于SLAC针对神经网络计算基元(compute primitives)进行了优化,因此它们可实现业界最优的利用率——通常是图形处理单元的3-4倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,以加速稀疏工作负载(包含0的工作负载)的计算性能,如深度学习。
Zeros在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是0。然而,搭载0相当于是在浪费硅、功率和时间,因为没有新的信息。
由于图形处理单元和张量处理单元是密集的执行引擎,它们被设计为永远不会遇到0的引擎,即使遇到也会算上每个元素。当50-98%的数据为零时,如深度学习中的情况一样,大多数乘法运算都被浪费了。想象一下,当你的大部分步骤没有让你走向终点时,试图快速前进完全就是在浪费精力。而Cerebras的稀疏线性代数核不会乘以零,所有零数据都会被过滤掉,并且可以在硬件中跳过,从而可以在其位置上完成有用的工作。
内存
内存是每个计算机体系结构的关键组件。更接近计算的内存转换为更快的计算,更低的延迟和更好的数据移动功效。高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和存储器之间的紧密接近,这在图形处理单元中并非如此,其中绝大多数存储器是缓慢且远离的(片外)。
而WSE包含更多内核,具有比迄今为止任何芯片更多的本地内存,并且在12小时内可以通过其核心访问18 GB的片上内存。WSE上的核心本地内存集合可提供每秒9 PB的内存带宽——比领先的图形处理单元多3,000倍的片上内存和10,000倍的内存带宽。
通信结构
Swarm通信结构是WSE上使用的处理器间通信结构,它以传统通信技术的功耗的一小部分实现突破性带宽和低延迟。Swarm提供低延迟、高带宽的2D网格,可连接WSE上的所有400,000个核心,每秒带宽为100 petabits。Swarm支持单字活动消息,可以通过接收内核来处理,而无需任何软件使用。
Cerebras WSE的总带宽为每秒100 petabits。不需要诸如TCP/IP和MPI之类的通信软件,因此避免了它们的性能损失。该架构中的通信能量成本远低于每比特1焦耳,这比图形处理单元低近两个数量级。通过结合大量带宽和极低的延迟,Swarm通信结构使Cerebras WSE能够比任何当前可用的解决方案更快地学习。
目前,Cerebras如何让40万个内核高效协同仍有待观察,不过从结果来看,Cerebras做了相当振奋人心的尝试,未来潜力让人期待!