路一已经在本子上画出了一个简单的示意图,用笔在其中一个地方点了一下。
“在这里,前面喂的数据已经足够多,足够杂了,但是都是些背景知识,想要让模型的基础能力提升,在这个阶段要单独给很多高质量的语料,例如经过筛选的代码库、文学出版物之类的。”
韩路一画完,觉得解释的似乎还不够通俗易懂,于是又加了一句:“如果说一开始的阶段是从小学到高二上课学知识,现在就是高三复习刷真题,不是什么都学了,而是只学最经典、最有代表性的题。”
然后他把笔记本转回给张彪。
张彪接过笔记本,对韩路一举的例子并没有什么感同身受——他没刷过真题。
但是他感觉自己这一回听两个高材生讨论,已经不像以前那么一头雾水了。
“这个阶段一般来说耗时比较短。”韩路一说完,转向赵文渊,“你预计还需要多久?”
赵文渊伸出一只手:“最慢最慢,五天就够了。”
然后他把手收回去,端起拿铁喝了一口。
“退火数据是我和团队之前就准备好的,三千万条高质量的代码片段,一批精选的各领域书籍和学术论文。”
“原因呢?”韩路一问,“是大年初一修了那次数据问题之后,曲线更稳了?”
“那是一部分。”赵文渊点头,“主要的原因是您前面写的那套清洗规则的收益比预期高,原始数据的质量显著高于业内的标准。无效数据少了以后,同样的训练步数,实际有效学习效率高很多。”
韩路一点了点头,视哥出品,让人放心。
赵文渊说着,拿出手机,调出一张曲线图。
“这是修正前后的对比,之前我担心最后阶段会震荡,所以留了比较大的冗余。但现在看,没有必要,可以直接上退火数据。”
韩路一看着曲线,没有立刻说话。
赵文渊继续说道:“退火结束以后,我们可以先做一轮基础能力评测,代码、数学、中文理解、长上下文,还有通用知识,都跑一遍,只要底座能力过线,就可以进入后训练,到时候标注数据才开始发力。”
“不要只看公开榜单。”韩路一说,“评测集要分开两层,一层是对外可比较的基础能力,另一层是我们自己的产品前置任务。”
他说着把身子往前倾了倾:“和一般的研究机构不一样,我们做汤圆不是为了发论文,御风、开物,我们已经有了真实的应用场景,这是我们的优