rlhf,强化学习加人类反馈。”
rlhf,rercentlearngfrohuanfeedback,强化学习加人类反馈。简单说,就是让真实用户来当裁判,用户觉得生成得好,模型记住;用户觉得不行,模型改。久而久之,模型就能学会“用户认为好的内容”。
韩路一没说话,等他往下讲。
“思路很简单,开物上线这几个月,真实用户的操作数据我们全都留着。用户觉得生成得好的,点了采纳;觉得不行的,手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型,然后用强化学习让天工去拟合这个奖励函数。”
“有别于之前我们基于bugkiller数据的反馈训练,这种训练可以让模型更加理解用户输入所对应的意图,这是超越bug修复的部分,更偏向于语义理解。”
“成本呢?”
“标注基础设施加上奖励模型训练和迭代,大概五百到一千万,时间三到六个月。上限嘛,”赵文渊想了想,“估计能再提三到五个点,到八十八左右。”
“这个提升不算大。”
“在这个阶段每一点提升都很艰难,而且这条路的核心优势不在上限。”赵文渊说,“开物的真实用户行为数据,是我们独有的资产。别人花钱也买不到。”
韩路一点了下头。
“第二条,”赵文渊翻到下一页,“oe,混合专家模型。”
oe,ixtureofexperts,混合专家模型。不是把一个模型训得什么都会,而是训一群各有专长的小模型,遇到问题再决定派谁上。像一家公司,与其要求每个员工全能,不如让专业的人做专业的事。
“这个主要是架构层面的改变。不改基座,不改训练方法,改调用方式、推理方式。把一个大模型拆成多个专精的子模型——一个擅长python、一个擅长前端、一个擅长数据库。推理时根据任务类型自动路由到最合适的专家,同算力下效果更好,应该也能提三到五个点。”赵文渊接着说。
“成本?”韩路一问道。
“一千到两千万,架构要重写,模型要重训,时间四到八个月。”赵文渊说,“技术上挑战不算太大,成本主要是要调的模型多。但是需要补人,我们现在的团队在oe方面没有经验,至少要招两到三个做过类似架构的人。”
“最后说第三条。”赵文渊又翻了一页,语气中有点儿兴奋——是他作为科