这顿饭韩路一吸取教训,确认不用再加菜之后,手速很快地从小程序早早买了单。
吃完正要起身,赵文渊的电话打进来了,韩路一又重新坐下接起电话。
“韩总,最新一轮的结果出来了!”赵文渊的声音带着那种连续熬夜之后特有的沙哑,但语气很亢奋:“意图理解基准从837涨到了852,其他几项基础指标也在上升,语义连贯提了08个点,多轮推理提高了12个点!”
“综合性能呢?”
“综合得分比之前那版高了将近两个百分点。这个提升幅度,在7b参数的量级上已经很夸张了。”赵文渊停了一下,“业内现在的主流猜测一直都认为数据标注的质量能提高模型的上限,但是我是真没想到影响能这么大。从结果来看,之前一定没有人用这种质量的数据训练过大模型!”
“提升的空间还有吗?”
“基本到头了,我下午换了学习率策略,看看接下来两天能不能再挤一点。”
“学习率那边别动了,”韩路一说,“两个点的提升够用了。你明天看看能不能先把模型部署下来,我们做些场景测试。”
赵文渊愣了一下:“这么快就上实测?”
“训练集上再刷分意义不大,实测一下真实场景的实际用例,周二去给鼎盛一点小小的震撼。”
“哈哈哈!”赵文渊觉得跟着韩路一自己的心态都变年轻了,虽然他本来也不老,“我这辈子没调过这么爽的参数。”
挂了电话,这两个曾经狼狈离开鼎盛的人,此刻都迫不及待想地要杀回那扇大门。
苏念念听完这通电话,虽然不知道对面说了啥,但听说要去给鼎盛一点震撼,知道一定是好消息。
韩路一没有立刻起身,陷入了短暂的沉思:原来刚才经验值的变化是从这来的,上午看的时候还是7,刚才变成8。现在韩路一可以确定是因为赵文渊跑完这一轮微调带来的经验值上涨。
控制变量,基本可以肯定模型训练和视界经验值之间存在正相关,就这么干下去,下一级触手可及。
那之前训练天工代码模型的时候没有涨经验,是因为没有使用他自己的标注数据吗?这到底和标注的被使用量有关还是和产出的模型准确率有关?
“走吗?”苏念念说话间已经站起来穿上了外套。
被这么一叫,韩路一回过神,说:“念念,我发现我还是挺擅长推理的。”
苏念念不置可否。