,除了十个已经标绿的,还有二十三个已经过了60的线。”
江松然说到这,低头看了一下屏幕,自己纠正自己道:“二十四个,加起来是三十四个。”
江松然坐回椅子,把椅子往屏幕前挪了挪,开始在表格里圈算子。
“反向、优化器更新、梯度同步,这几类先排后,三月初的推理用不到,等四月调训练的时候再回来做。”
赵文渊点了点头,这几类在表里占了不少,确实都是训练才用得到的,先放一放完全合理。
“再看推理路径。”江松然把光标移到表格的前半段,“矩阵乘、yernor、softax、激活,这几类已经标绿了。注意力相关的算子在哪儿?”
赵文渊往下翻了翻,指了一项:“标准attention,61。fsh-attention那一版还没排上。”
“fsh不用,先用标准的,能跑就行。”江松然说,“kv-cache的读写呢?”
“这里,64。”
“够了。”江松然往后靠了靠,“再加一个采样,一个rsnor。这两个简单,融合不融合都行,先有了再说,我数一下啊。”
他在表里点了点,停在最后。
“差两个。”
赵文渊愣了一下。
他原本打算的是把所有的算子都做到80,卡住的地方直接呼叫随身老爷爷韩路一,按现在的速度可能要做到二月底了,到时候再做端到端。
但是现在被江松然这么一拆——
只差两个了。
“你这……”赵文渊一时不知道怎么接话了,“这两个我让组里今天就开。”
“不急。”江松然摆了摆手,“先把已经达标的这三十四个用现成的脚手架串起来,跑一遍空载,把链路打通,这两个等做好了再补进去,到时候哪儿不对一目了然。”
赵文渊点头,站起来转身去喊人。
他一边走一边又有点儿懊恼。
今天又装逼失败了。
——这是哪儿来的神仙啊。
赵文渊把手下的组员都叫过来,交代了任务,今天就开始搭脚手架,尝试用最小模型拉一个链路出来,在8卡环境下跑一圈。
周围的工程师都是一愣:“今天?”
江松然在旁边补了一句:“跑的时候把profiler打开,不要只看最后的成败,每一步的耗时、等待时间、内存拷贝、通信比例,这些数据