第一百一十七章平台期_首富从AI浪潮开始

rlhf，强化学习加人类反馈。”

rlhf，rercentlearngfrohuanfeedback，强化学习加人类反馈。简单说，就是让真实用户来当裁判，用户觉得生成得好，模型记住；用户觉得不行，模型改。久而久之，模型就能学会“用户认为好的内容”。

韩路一没说话，等他往下讲。

“思路很简单，开物上线这几个月，真实用户的操作数据我们全都留着。用户觉得生成得好的，点了采纳；觉得不行的，手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型，然后用强化学习让天工去拟合这个奖励函数。”

“有别于之前我们基于bugkiller数据的反馈训练，这种训练可以让模型更加理解用户输入所对应的意图，这是超越bug修复的部分，更偏向于语义理解。”

“成本呢？”

“标注基础设施加上奖励模型训练和迭代，大概五百到一千万，时间三到六个月。上限嘛，”赵文渊想了想，“估计能再提三到五个点，到八十八左右。”

“这个提升不算大。”

“在这个阶段每一点提升都很艰难，而且这条路的核心优势不在上限。”赵文渊说，“开物的真实用户行为数据，是我们独有的资产。别人花钱也买不到。”

韩路一点了下头。

“第二条，”赵文渊翻到下一页，“oe，混合专家模型。”

oe，ixtureofexperts，混合专家模型。不是把一个模型训得什么都会，而是训一群各有专长的小模型，遇到问题再决定派谁上。像一家公司，与其要求每个员工全能，不如让专业的人做专业的事。

“这个主要是架构层面的改变。不改基座，不改训练方法，改调用方式、推理方式。把一个大模型拆成多个专精的子模型——一个擅长python、一个擅长前端、一个擅长数据库。推理时根据任务类型自动路由到最合适的专家，同算力下效果更好，应该也能提三到五个点。”赵文渊接着说。

“成本？”韩路一问道。

“一千到两千万，架构要重写，模型要重训，时间四到八个月。”赵文渊说，“技术上挑战不算太大，成本主要是要调的模型多。但是需要补人，我们现在的团队在oe方面没有经验，至少要招两到三个做过类似架构的人。”

“最后说第三条。”赵文渊又翻了一页，语气中有点儿兴奋——是他作为科

第一百一十七章 平台期（3 / 4）