连接,数据流转,都以不同的颜色,像水流一样呈现在他的眼前。
gpu、服务器、交换机、光纤、端口、链路,所有这些东西都变成了一张复杂到超出人理解能力的、复杂的地图。
这张图即使拿到其他人眼前,他们也无法看懂。
太复杂了。
但是韩路一理解起来却全无障碍。
他几乎是一瞬间就定位了数据阻塞的来源。
有几组推理组之间的通信出了问题,节点和节点之间没有物理直连,却在逻辑上被分在了一起,数据从一个地方绕远路跑到另一个地方,再绕远路回来。
看似只是一个小小的点,但这种细微的差别在大模型推理的并行通信里,这一小点会被反复放大。
韩路一开口了:“不是模型的问题。”
赵文渊一愣,韩总,你已经解决了?这么快吗?
韩路一回头看了赵文渊一眼,发现他没有要问问题的意思。
他随后用对讲机和外面联系了一下。
“问题在网络拓扑。”韩路一说。
声音通过对讲机、再通过视频传到了江松然耳朵里。他马上在电脑上翻找起原始的网络拓扑图来。
这是他自己设计的,为的就是把集群的效率打满。
张彪很快就换好衣服,拿着打印好的拓扑图走了进来。
图和实际一对比,很快就能看出问题了。
江松然原本设计的是为了降低推理组之间通信延迟,把几个关键节点尽量放在同一个低延迟域里。
但云垠实际交付的时候,却没有完全按照这张图来进行部署。
他们使用了自己内部更标准、更容易维护的方法。
普通的、对通信延迟不敏感的服务器,这种接法完全没问题,属于为了可维护性做的小小牺牲,大家都可以容忍。
但是对大模型的使用场景来说,这一点小延迟就会被放大很多倍。
单点测试当然没问题,整机测试也没问题,因为问题出在服务器间的通信。
江松然的推断其实是对的,再给他一段时间,加上赵文渊的现场排查,他们应该也能查出来。
只是没有韩路一这么快罢了。
赵文渊看着两份图,脸色变得很难看。
他昨晚查了一整夜,什么gpu、驱动、配置、算子、服务、调度,全都查了,结果问题不在他能看到的任何软件层面。
而在机房