“每个算子都有对应的性能测试,”韩路一说,“和n卡cudnn的基准线对比,最低的80,最高的91。read里有完整数据。”
江松然点开了一个read,扫了一下数据表格。确实不是个玩具项目,是认真做过对照的。
“多卡通信验证了吗?”
“4卡和8卡都跑过。all-reduce是自己写的。”
江松然又看了一下提交记录。最早的提交在上个月,最新的在今天早晨。
十个算子,一个月。
不,还不到一个月。
江松然震惊地抬起头来,看向韩路一。
随即他又否定了自己。
不,不可能,可能是他们把别的地方的成果迁移过来,时间戳不对。
他在硅谷那家公司做类似的事,五个人的小组,一个算子平均要打磨两到三周——那还只是微调,不是重写。
“你们有多大的团队?”江松然问道。
“十几个人。”韩路一说,“加一个ai。”
听到这个回答,江松然陷入了久久的沉默。
“源智科技,是吧,想要我做什么?”
韩路一合上电脑:“我们的初步计划是在张家口建一个训练和推理集群,全部用国产卡来搭建,现在正在做全栈适配。赵文渊是技术负责人,但他没有基础设施的工程经验,源智需要一个做过大规模集群部署的人。”
江松然暗暗点头,你们找对人了。
但是——张家口,你们找错人了。
“你们有多少卡?”
“首批计划购入五百张,先租三十二台机柜,三月初上线。”
三十二台机柜,在他待过的地方,这算是小的了。但在国产卡上从零搭训练栈,三十二台确实已经足够让人头秃了。
“需要我去张家口?”江松然问了他最关心的问题。
“不需要。”
“不需要?”江松然反问道,他以为自己听错了。
韩路一看向江松然,江松然只觉得对方眼神发亮。
“所有的工作都可以远程完成。”韩路一说,“集群现场有专门的运维团队,有任何需要看的东西,我们用视频来看。你不用离开海城,不用出差,一次都不用。”
江松然没说话。
做基础设施的人不去机房,这在行业里几乎是不可能的事。机柜的物理布局、线缆走线、散热气流、电力分配,