要仰望星空的平台,也要脚踏实地的回报。只有这样,才能让最优秀的大脑心甘情愿地留下来,去打那场最硬的仗。」
寒夜中,两人悄声商量着。
第二天清晨,拓方大厦32楼,模型二组的会议室里气氛严肃而略显紧张。
方青叶和白藕在秘书路雅楠和助理肖艾的陪同下步入会议室时,周胜炫率领的核心团队全体起立。方青叶摆手让大家坐下,目光在众人脸上扫过,最后落在周胜炫身上。
「开始吧,胜炫。」
周胜炫深吸一口气,走到投影幕布前。他的汇报条理清晰,数据详实,将崩溃的根源剖析得淋漓尽致。
「————综上所述,方董,白总,这次事故的根本原因,在于软体架构与硬体容量双双面临了远超预期的极限挑战。我们的预案并非没有,而是基于过往经验的乐观三倍冗余」模型,但现实是,昨晚的瞬时流量峰值达到了我们预案设计容量的十倍以上!」
他切换幻灯片,屏幕上显示出复杂的系统架构图,几个关键节点被标红放大。
「在软体层面,预设的负载均衡策略在百万级并发连接的冲击下,会话保持能力迅速达到极限,导致流量分配不均,部分伺服器过载宕机,进而引发雪崩效应。与之关联的资料库连接池,也在瞬间被耗尽,新的请求无法得到响应。」
接着,他又调出硬体监控数据截图。
「而在硬体层面,问题更为严峻。我们核心的gpu推理集群,其hb高带宽显存在秒级内被海量请求队列完全占满,nvlk互联带宽彻底饱和,算力无法有效扩展。更致命的是,长期满负载运行使得a100晶片的散热系统逼近热设计功耗(dp)极限,触发了硬体级的过热降频保护机制,算力输出出现断崖式下跌。可以说,从计算、存储到散热,整个硬体栈的物理极限都被一次性击穿了。」
周胜炫的汇报持续了将近四十分钟,期间方青叶和白藕偶尔插话询问细节,技术团队的其他成员也适时补充。
汇报结束时,周胜炫将一份厚达数十页的《关于新思newd大模型公测服务中断的事故分析报告》郑重地递到方青叶面前。
方青叶接过报告,并没有立刻翻阅,只是轻轻放在手边。他环视全场,脸上露出大家都很熟悉的笑容。
「报告很详细,解决问题的思路也很清晰。技术上的挑战,我相信在胜炫和黄桦的带领下,团队一定能攻克。今天我来,除了听复盘更要宣布集团的两项重要决定。」