第二百一十七章说说吧，什么进度？_首富从AI浪潮开始

路一已经在本子上画出了一个简单的示意图，用笔在其中一个地方点了一下。

“在这里，前面喂的数据已经足够多，足够杂了，但是都是些背景知识，想要让模型的基础能力提升，在这个阶段要单独给很多高质量的语料，例如经过筛选的代码库、文学出版物之类的。”

韩路一画完，觉得解释的似乎还不够通俗易懂，于是又加了一句：“如果说一开始的阶段是从小学到高二上课学知识，现在就是高三复习刷真题，不是什么都学了，而是只学最经典、最有代表性的题。”

然后他把笔记本转回给张彪。

张彪接过笔记本，对韩路一举的例子并没有什么感同身受——他没刷过真题。

但是他感觉自己这一回听两个高材生讨论，已经不像以前那么一头雾水了。

“这个阶段一般来说耗时比较短。”韩路一说完，转向赵文渊，“你预计还需要多久？”

赵文渊伸出一只手：“最慢最慢，五天就够了。”

然后他把手收回去，端起拿铁喝了一口。

“退火数据是我和团队之前就准备好的，三千万条高质量的代码片段，一批精选的各领域书籍和学术论文。”

“原因呢？”韩路一问，“是大年初一修了那次数据问题之后，曲线更稳了？”

“那是一部分。”赵文渊点头，“主要的原因是您前面写的那套清洗规则的收益比预期高，原始数据的质量显著高于业内的标准。无效数据少了以后，同样的训练步数，实际有效学习效率高很多。”

韩路一点了点头，视哥出品，让人放心。

赵文渊说着，拿出手机，调出一张曲线图。

“这是修正前后的对比，之前我担心最后阶段会震荡，所以留了比较大的冗余。但现在看，没有必要，可以直接上退火数据。”

韩路一看着曲线，没有立刻说话。

赵文渊继续说道：“退火结束以后，我们可以先做一轮基础能力评测，代码、数学、中文理解、长上下文，还有通用知识，都跑一遍，只要底座能力过线，就可以进入后训练，到时候标注数据才开始发力。”

“不要只看公开榜单。”韩路一说，“评测集要分开两层，一层是对外可比较的基础能力，另一层是我们自己的产品前置任务。”

他说着把身子往前倾了倾：“和一般的研究机构不一样，我们做汤圆不是为了发论文，御风、开物，我们已经有了真实的应用场景，这是我们的优

第二百一十七章 说说吧，什么进度？（3 / 5）