第二百四十四章他还没看过图吧？_首富从AI浪潮开始

连接，数据流转，都以不同的颜色，像水流一样呈现在他的眼前。

gpu、服务器、交换机、光纤、端口、链路，所有这些东西都变成了一张复杂到超出人理解能力的、复杂的地图。

这张图即使拿到其他人眼前，他们也无法看懂。

太复杂了。

但是韩路一理解起来却全无障碍。

他几乎是一瞬间就定位了数据阻塞的来源。

有几组推理组之间的通信出了问题，节点和节点之间没有物理直连，却在逻辑上被分在了一起，数据从一个地方绕远路跑到另一个地方，再绕远路回来。

看似只是一个小小的点，但这种细微的差别在大模型推理的并行通信里，这一小点会被反复放大。

韩路一开口了：“不是模型的问题。”

赵文渊一愣，韩总，你已经解决了？这么快吗？

韩路一回头看了赵文渊一眼，发现他没有要问问题的意思。

他随后用对讲机和外面联系了一下。

“问题在网络拓扑。”韩路一说。

声音通过对讲机、再通过视频传到了江松然耳朵里。他马上在电脑上翻找起原始的网络拓扑图来。

这是他自己设计的，为的就是把集群的效率打满。

张彪很快就换好衣服，拿着打印好的拓扑图走了进来。

图和实际一对比，很快就能看出问题了。

江松然原本设计的是为了降低推理组之间通信延迟，把几个关键节点尽量放在同一个低延迟域里。

但云垠实际交付的时候，却没有完全按照这张图来进行部署。

他们使用了自己内部更标准、更容易维护的方法。

普通的、对通信延迟不敏感的服务器，这种接法完全没问题，属于为了可维护性做的小小牺牲，大家都可以容忍。

但是对大模型的使用场景来说，这一点小延迟就会被放大很多倍。

单点测试当然没问题，整机测试也没问题，因为问题出在服务器间的通信。

江松然的推断其实是对的，再给他一段时间，加上赵文渊的现场排查，他们应该也能查出来。

只是没有韩路一这么快罢了。

赵文渊看着两份图，脸色变得很难看。

他昨晚查了一整夜，什么gpu、驱动、配置、算子、服务、调度，全都查了，结果问题不在他能看到的任何软件层面。

而在机房

第二百四十四章 他还没看过图吧？（3 / 4）