周二上午,韩路一坐在办公室里,屏幕上是一排排标注好的数据。
他之前花了一段时间研究怎么把批量标注这部分能力拿出来,规模化的做。
毕竟只靠他自己太累了。
结果发现,最可行的模式是用这些标注去训练模型,然后再用模型去标注。
这成了一个鸡生蛋、蛋生鸡的问题。
完了,卡bug了。
直接用基于7b模型的汤圆来做标注?
这个办法也不是不行,但是受限于模型大小,出来的质量还是显著低于视界本体的,是一种牺牲了质量的次优选。
最后想一想,第一批标注只能自己肝出来了。
还好预训练结束的时候,怎么也要两个月之后,只要在这两个月之内搞出五万条数据,就不会拖累后训练的速度。
想到这,韩路一揉了揉额头,为自己接下来的两个月默哀。
还好,还有一个好消息,从昨天赵文渊开始用韩路一优化过的数据管线进行全量数据清洗之后,视界好久没动过的经验条又涨了,从8到了10。
标注数据不涨,用标注数据微调开源模型却涨;优化数据管线不涨,使用管线进行数据清理却涨。
韩路一感觉,视界在引导他深度参与大模型训练的生命周期。
他有一种强烈的预感,等到源智的第一个大模型训练出来的时候,视界就会升到第四级。
视哥,下一级解锁什么能力啊?
这时,桌上的电话响了起来,打断了韩路一摸鱼时的胡思乱想。
“你好?”韩路一接起电话。
“韩总,您好。”电话那头是个职业女性的声音,礼貌、专业,“我是弘远资本行政总监张康。”
“张总,你好。”
“是这样的,按照之前贺总的安排,公司给您配的随行安保和汽车租赁,到这个月底就正式结束了。从一月一号开始停止,我先和您打个招呼,看您后续有什么需要,我们这边可以再做对接。”张康说道。
韩路一当然不会不识趣地直接上去说“我还需要你别停”。
“知道了,谢谢张总。”
“不客气。”
电话挂断,韩路一思考了一下贺云深的态度。
他大概对自己的先斩后奏还是有点儿不满,但同时也是换了一个视角来看待和源码科技、和韩路一的合作。
由投资人来负担创始人的安保开销