li-),总部在鹏城,也是个创业公司,去年刚开始量产第一款产品,叫l100,算力600tflops,片间互联带宽600gb/s,对标的是英伟达的h100。硬件的料很足,而且还有一个对我们来说是优点的缺点——他们的软件做的很差,完全没有训练的落地配套,买家全是在做推理。”
“所以硅明对咱们来说格外合适,五千多万的单子,对他们来说是救命稻草,而且他们的销路不好,有现货。”江松然把自己的思考都说了出来,“再加上他们的软件弱,硬件强,按硬件单价算性价比就特别高。而我们根本不用他们的配套软件,相当于采购的钱全花在硬件上了。”
这话说完,江松然也心里打鼓。
他明确表示了这是他提前调查过的厂家,韩路一会不会怀疑他吃了回扣?
他心里默默想了一句话:他以国士待我,我当以国士报之。
韩路一面上不动声色,只是眼睛发亮。
他没什么犹豫,直接说道:“江博士你费心了,确实很适合源智现在的需求。这样,你不方便出差,一会我让我的助理过来找你,你和他交代清楚,让他跑一趟鹏城。”
江松然心里松了一口气。
不让他经手他感到挺庆幸的,至少可以避嫌。
正事聊完,韩路一最后又说了一句:“你既然说有信心,我很期待咱们把自己的集群搭起来的那天。”
实际上江松然说的还保守了,他不只是有信心。这个事情他做过一遍了,再做一遍当然是十拿九稳。
实际上现在见识过了源智科技的技术潜力,他觉得不止是五百卡、千卡的集群,就算是万卡也不是不能尝试。
要知道,想把显卡集群做大,其中的技术难度是指数级上升的。
因为真正的挑战来源于在使用过程中,集群里的各个节点之间的通信。想要完成大模型的训练,就要让各个节点之间数据完全同步。假设只有十个人,想要让他们互相交流一个信息,不是什么太难的事情;可是如果扩大到一百个、一千个人,每个人都各自在做自己的事情,即使是简单的信息同步也很难做到。
而且万卡集群比起千卡集群,运算速度并不能提升十倍,受通信带宽的限制,能达到七八倍就不错了。
成本极高,收益不大,既然这样,那为什么还要做万卡集群呢?直接做很多个小集群不行吗?
那是因为万卡集群能做到千卡集群做不到的事情,就是训练超大模型。