词所在的位置。短文本里问题不明显,可一旦上下文拉长到十六k,显卡那边的三角函数近似误差就开始增多的厉害。之前测试的时候,前八k还算正常,到了后面,生成结果就会出现莫名其妙的错位。
赵文渊他们试了两天,一直在精度和性能之间来回拉扯。精度压下去,速度掉得厉害;速度提上来,误差又爆。
韩路一坐下之后,只看了一遍日志,就让智能体把s/s查表的粒度重新切了一档,又把缓存策略改成按block复用。
五分钟后,十六k长上下文测试通过,性能损耗从原来的百分之四十七降到了百分之十八。
第二个是yernor。
这个算子看起来简单,可训练里调用频率极高,慢一点点,整条训练链路都会被拖住。韩路一改了两个访存顺序,又让智能体把向量化读写补上,性能直接从n卡基准的百分之五十二拉到百分之八十一。
赵文渊当时看着那两个绿色pass,心情已经很平静了。
平静到有点麻木。
解决完问题,韩路一制止了赵文渊想要接着工作的势头。
“停一下,我有别的事要和你商量。”
赵文渊看向韩路一。
“nex那边开始动作了,我预测他们四月开始就不会再给我们提供api接口,所以在那之前我们要把汤圆10做出来,确保汤圆能接住kaiwu海外版迁移过来的流量。”
赵文渊听完之后在电脑上切了一下屏幕,看了看训练进度,然后对韩路一说:“韩总,时间上有点赶,但是应该来得及。只是,我比较担心的是双语适配问题。”
赵文渊调整了一下坐姿,面向韩路一,谨慎的分析起来。
“预训练倒是问题不大,用的互联网上的原始数据,本身就是英文居多。关键是后训练,模型的理解能力主要来源于后训练的提高,你现在提供的那批标注虽然质量极高,但都是中文的,对英文能力的提升恐怕……”
赵文渊的话没说完整,但意思到位了。
然后他用期待的眼神看向韩路一:“韩总,不知道英文的标注,你能不能——”
这就是赵文渊的新策略。
有需求,找韩总。
你别管他是怎么解决的,反正他能给你解决。
直接问就完了。
韩路一看着赵文渊期待的眼神,沉默了一会儿,才缓缓地点了点头:“……你确保训练进度,标注的事,我来