两人来到韩路一的办公室,正准备就刚才的视频会议,谈谈应对策略。
这时,门外传来了急促的敲门声。
“韩总,在吗?”
是赵文渊的声音。
韩路一和苏念念对视了一眼。
韩路一走过去把门打开,赵文渊手里抱着笔记本电脑,一脸兴奋。
“韩总!真神了!”他一边说一边走进来,才突然注意到苏念念也在房间里,一愣。
随即他的表情放松下来,把笔记本电脑放在办公桌上。
“正好,苏总你也在,一起看看。”赵文渊说道,“第一轮训练的结果出来了。”
他翻开屏幕,手指在触控板上快速滑动,调出一个表格。
“先看基础数据。”赵文渊切到第一页,“7b的开源基座微调,参数量不到gpt-4的二十分之一。知识问答、逻辑推理、数学计算、代码生成,常规指标在同量级模型里中游偏上,没有惊喜。7b就是7b,没法跟几百b的大家伙比。”
他看了韩路一一眼,期待着他的反应。
“重点在下一页。”
赵文渊翻到第二页。
屏幕上是一张柱状图。横轴排列着十几个模型的名字,纵轴是分数。
韩路一认出了几个:gpt、rcury、gei。
这些名字旁边的柱子高度差不多,分数集中在71到78之间。
最右边有一根单独的浅蓝色柱子,明显高出一截。
模型名称是px-7b-post_traed-v01。
顶端的数字是837。
“意图理解维度的评测结果。”赵文渊的声音压低了,语速却很快。“评测集用的是ifeval标准框架加上我自己设计的深层意图还原测试,一共一千二百道题,覆盖十六个垂直场景。”
他拿手指点了点那根浅蓝色的柱子。
“837,断层领先。”
“第二名,gpt,782。”
“第三名,gei,769。”
韩路一自己看了一下rcury31——就是刚才瑞恩展示的那个,得分是748。
办公室安静了三秒钟。
韩路一没有说话。苏念念也没有。
“我跑了三遍验证。”赵文渊说。“第一遍以为评测代码写错了。第二遍换了评测框架,分数不同,但是结果排序一样。第三遍打乱评测集做交叉