算力资源有限,调度优化问题紧迫。OpenAI 此前在技术博客《Scaling Kubernetes to2,500 nodes》中提到,OpenAI k8s 集群从500 nodes 扩展到2500 nodes 时遇到诸多存储、网络和资源初始化问题,通过可视化监控工具Datadog 发现ETCD(一种Key-Value 存储服务)写数据存在几百毫秒延迟,list API 被频繁调用、Fluentd 和DataDog 频繁侵占资源等问题。


(相关资料图)

什么是算力调度?在云计算中,资源调度是一个非确定性多项式优化问题,往往会出现“拆东墙补西墙”这样的情况,因此云计算的算力调度必须考虑每个算力资源请求的需求边界,比如OpenAI 团队使用“balloons”占位策略解决资源排队问题:

用一个低优先级pod 占着整个节点,要用节点的时候被自动驱逐掉;使用污点策略手动分配每个训练请求能使用的节点。

GPU 超算集群中,暴露出的不只是算力调度问题。在此前对英伟达AI 超算的研究中,我们的结论是:通信网络是制约数据中心算力高低的关键因素。在多线程并行计算下,通信成为制约算力的短板,只要有一条交换链路出现网络阻塞或丢包,就会产生I/O 延迟;又如GH200 新增显存互联功能,我们认为,相对于无显存互联的超算,GH200 对API server 的并发访问量是指数级增长,将对硬件资源调度提出更高挑战。

多点硬件部署监控效率更高。我们注意到,OpenAI 在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致OOM(Out of Memory,内存溢出),从而不得不削减查询频率;每次初始化pod,Prometheus 都要重写WAL(Write-aheadlogging,预写式日志)拉长启动时间。我们认为,以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。我们认为,在传统的计算式和I/O 式云计算中,外部串接监控服务器即可满足监控需求,而GPU 集群时代,需要并接部署“联邦集群”并进行不同监控服务器的功能划分,最后进行北向汇聚,有望提升监控采集效率、降低超算本身的资源侵占。

网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大。

在北美,目前主流的监控工具是Netscout、Prometheus、Datadog 等,都是基于在超算本地化部署;但在多点硬件部署的AI 超算中,软硬件结合的厂商成长性有望更为充分,经过多年经验积累的相关国内DPI 厂商,形成了高容量下的数据监控能力,有望成为全球算力调优的上游关键角色。

投资建议:

1)重视GPU 超算集群中交换网络性能的重要性,而光通信是现有技术下几乎无法替代的交换网络方案,关注光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技;算力设备:中兴通讯、紫光股份、锐捷网络、菲菱科思、恒为科技、工业富联、寒武纪、震有科技。

2)重视网络可视化及算力资源调优策略的软硬件厂商,该品种目前存在较大预期差,关注恒为科技、浩瀚深度、中新赛克。

风险提示:AI 发展不及预期,算力需求不及预期。

知前沿,问智研。智研咨询是中国一流产业咨询机构,十数年持续深耕产业研究领域,提供深度产业研究报告、商业计划书、可行性研究报告及定制服务等一站式产业咨询服务。专业的角度、品质化的服务、敏锐的市场洞察力,专注于提供完善的产业解决方案,为您的投资决策赋能。

转自国盛证券有限责任公司 研究员:宋嘉吉/黄瀚/赵丕业/邵帅

推荐内容