第一百八十四章处理过了，干净_首富从AI浪潮开始

让这条曲线一路往下走。

这条曲线确实在往下走，但走得比他预期的快。

刘大海把时间轴拉长，把上一轮的曲线叠进来对比。差异很明显，不像是误差范围内的波动，应该是系统性的提升。

他在心里排除了几个可能的原因：学习率没改，模型架构没动，算力配置没变。难道这批数据有特殊？

刘大海立刻站起来，动身去了数据组。

数据组的负责人叫吴英豪，三十出头，戴眼镜。数据组主要的工作就是收集和清洗数据。

这是个脏活，累活，在大模型开发的产业链里比较底层。

刘大海过去的时候他正在核对一份入库日志。

“英豪，这轮训练咱用了什么新数据没有？”刘大海拍了下他的椅背。

吴英豪转过来，打了个招呼。又翻了翻日志：“最近的新入库的，我看看……几天前外部采购的了一批，放进去用了。”

刘大海点点头，说：“这批数据质量贼拉好了，loss下来了，还比上一轮快不少，应该少不了这批数据的功劳。”

吴英豪愣了一下，随即起身往刘刘大海耳边凑了凑，语气里带了点小心翼翼的热切：“大海老师，这批数据进来的时候噪音很多的，是我们自己花时间处理的，好几个同事加班跑的清洗流程，您觉得效果好？”

吴英豪笃定了刘大海不会追问数据的具体来源，因为他从不过问，这也不是他的职责范围。

“洗得好啊！”刘大海说，语气很认真，“这批比之前做的都好，你们继续保持。”

吴英豪笑着应下，连连点头，快速地扫了下周围确认没有往这里留意他们谈话的同事。

刘大海回到工位，打开本周的训练周报，在进展一栏里加了几行：

「预训练本轮数据质量较上轮明显提升，loss收敛速度加快约9。初步判断与新入库语料质量相关，数据组本轮清洗工作到位。坤元预训练阶段进展顺利，按计划推进。」

他看了一遍，改了两个字，提交。

周报发出去，进了林绍峰的收件箱。林绍峰是负责算法和ai的副总裁，每周五下午会把各组的周报汇总，转给需要知道的人。这是固定流程，四五页纸，今天的内容不少，坤元这段藏在第三页中间，不长，没有标红，没有加粗。

当天晚上，张弛在手机上收到林绍峰转发过来的汇总周报。

他快速往下划，找和算力相关的部分。坤元的

第一百八十四章 处理过了，干净（3 / 4）