让这条曲线一路往下走。
这条曲线确实在往下走,但走得比他预期的快。
刘大海把时间轴拉长,把上一轮的曲线叠进来对比。差异很明显,不像是误差范围内的波动,应该是系统性的提升。
他在心里排除了几个可能的原因:学习率没改,模型架构没动,算力配置没变。难道这批数据有特殊?
刘大海立刻站起来,动身去了数据组。
数据组的负责人叫吴英豪,三十出头,戴眼镜。数据组主要的工作就是收集和清洗数据。
这是个脏活,累活,在大模型开发的产业链里比较底层。
刘大海过去的时候他正在核对一份入库日志。
“英豪,这轮训练咱用了什么新数据没有?”刘大海拍了下他的椅背。
吴英豪转过来,打了个招呼。又翻了翻日志:“最近的新入库的,我看看……几天前外部采购的了一批,放进去用了。”
刘大海点点头,说:“这批数据质量贼拉好了,loss下来了,还比上一轮快不少,应该少不了这批数据的功劳。”
吴英豪愣了一下,随即起身往刘刘大海耳边凑了凑,语气里带了点小心翼翼的热切:“大海老师,这批数据进来的时候噪音很多的,是我们自己花时间处理的,好几个同事加班跑的清洗流程,您觉得效果好?”
吴英豪笃定了刘大海不会追问数据的具体来源,因为他从不过问,这也不是他的职责范围。
“洗得好啊!”刘大海说,语气很认真,“这批比之前做的都好,你们继续保持。”
吴英豪笑着应下,连连点头,快速地扫了下周围确认没有往这里留意他们谈话的同事。
刘大海回到工位,打开本周的训练周报,在进展一栏里加了几行:
「预训练本轮数据质量较上轮明显提升,loss收敛速度加快约9。初步判断与新入库语料质量相关,数据组本轮清洗工作到位。坤元预训练阶段进展顺利,按计划推进。」
他看了一遍,改了两个字,提交。
周报发出去,进了林绍峰的收件箱。林绍峰是负责算法和ai的副总裁,每周五下午会把各组的周报汇总,转给需要知道的人。这是固定流程,四五页纸,今天的内容不少,坤元这段藏在第三页中间,不长,没有标红,没有加粗。
当天晚上,张弛在手机上收到林绍峰转发过来的汇总周报。
他快速往下划,找和算力相关的部分。坤元的