第一百八十七章随身老爷爷_首富从AI浪潮开始

词所在的位置。短文本里问题不明显，可一旦上下文拉长到十六k，显卡那边的三角函数近似误差就开始增多的厉害。之前测试的时候，前八k还算正常，到了后面，生成结果就会出现莫名其妙的错位。

赵文渊他们试了两天，一直在精度和性能之间来回拉扯。精度压下去，速度掉得厉害；速度提上来，误差又爆。

韩路一坐下之后，只看了一遍日志，就让智能体把s/s查表的粒度重新切了一档，又把缓存策略改成按block复用。

五分钟后，十六k长上下文测试通过，性能损耗从原来的百分之四十七降到了百分之十八。

第二个是yernor。

这个算子看起来简单，可训练里调用频率极高，慢一点点，整条训练链路都会被拖住。韩路一改了两个访存顺序，又让智能体把向量化读写补上，性能直接从n卡基准的百分之五十二拉到百分之八十一。

赵文渊当时看着那两个绿色pass，心情已经很平静了。

平静到有点麻木。

解决完问题，韩路一制止了赵文渊想要接着工作的势头。

“停一下，我有别的事要和你商量。”

赵文渊看向韩路一。

“nex那边开始动作了，我预测他们四月开始就不会再给我们提供api接口，所以在那之前我们要把汤圆10做出来，确保汤圆能接住kaiwu海外版迁移过来的流量。”

赵文渊听完之后在电脑上切了一下屏幕，看了看训练进度，然后对韩路一说：“韩总，时间上有点赶，但是应该来得及。只是，我比较担心的是双语适配问题。”

赵文渊调整了一下坐姿，面向韩路一，谨慎的分析起来。

“预训练倒是问题不大，用的互联网上的原始数据，本身就是英文居多。关键是后训练，模型的理解能力主要来源于后训练的提高，你现在提供的那批标注虽然质量极高，但都是中文的，对英文能力的提升恐怕……”

赵文渊的话没说完整，但意思到位了。

然后他用期待的眼神看向韩路一：“韩总，不知道英文的标注，你能不能——”

这就是赵文渊的新策略。

有需求，找韩总。

你别管他是怎么解决的，反正他能给你解决。

直接问就完了。

韩路一看着赵文渊期待的眼神，沉默了一会儿，才缓缓地点了点头：“……你确保训练进度，标注的事，我来

第一百八十七章 随身老爷爷（4 / 5）