独占了半层,招了十几个人之后坐不下了,上个月刚扩的。
“关门吗?”赵文渊问。
韩路一点点头。
赵文渊用脚后跟把门带上,在沙发上坐下来,打开笔记本,转过屏幕让韩路一看。
屏幕上是一张曲线图。
横轴是训练轮次,纵轴是准确率。五个点标在曲线上,第五个点的数字是——
847。
“第五轮微调训练跑完了,”赵文渊说,“初次生成准确率八十四点七。”
韩路一看着这个数字。
乾元最新公布的基准是85。
只差03个百分点。
“演示看看。”
赵文渊点开几个测试用例,几个使用不同编程语言在不同应用场景下进行的代码生成,生成完之后再放进bugkiller扫一遍,看错误率。韩路一同时打开视界看了看模型直接生成的代码。
生成质量确实上了一个台阶。
但赵文渊的表情不像是来报喜的。
他翻到下一页,是一张更详细的曲线。五轮训练的提升幅度标得很清楚:第一轮上次会议分享过了,768;第二轮到第三轮,提了5个点;第三轮到第四轮,28个点;第四轮到第五轮,01个点。
曲线在快速变平。
“847已经是后训练能做到的极限了,”赵文渊说,“再往上走,就不是加数据加显卡能解决的问题了。”
韩路一看着那条曲线。
他想起上次开会的时候,赵文渊在会议室投屏上放的同一条s形曲线。当时的状况,准确率还处在scalgw的前半段。
数据点在曲线的极速上升阶段。
现在数据点走到高原了,大力出奇迹,这招在这不再好使了。
“也就是说,”韩路一的手点在办公桌上,“我们用开源底座做微调这条路,走到头了。”
“不是走到头了,是走到平台了。”赵文渊纠正他,“就像减肥,平台期是可以突破的,但是你得换一种方式才能突破。”
“什么方式?”
赵文渊合上笔记本,从腋下抽出那个本子。韩路一瞄了一眼,牛皮纸封面,上面用黑笔密密麻麻写了一堆英文缩写和箭头,像上学时候的笔记本。
赵文渊翻到其中一页,把本子摊在茶几上。
“三条路。”
他指着第一行。
“第一条,继续走