书香阁 > 科幻灵异 > 首富从AI浪潮开始 > 第一百一十七章 平台期

第一百一十七章 平台期(3 / 4)

rlhf,强化学习加人类反馈。”

rlhf,rercentlearngfrohuanfeedback,强化学习加人类反馈。简单说,就是让真实用户来当裁判,用户觉得生成得好,模型记住;用户觉得不行,模型改。久而久之,模型就能学会“用户认为好的内容”。

韩路一没说话,等他往下讲。

“思路很简单,开物上线这几个月,真实用户的操作数据我们全都留着。用户觉得生成得好的,点了采纳;觉得不行的,手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型,然后用强化学习让天工去拟合这个奖励函数。”

“有别于之前我们基于bugkiller数据的反馈训练,这种训练可以让模型更加理解用户输入所对应的意图,这是超越bug修复的部分,更偏向于语义理解。”

“成本呢?”

“标注基础设施加上奖励模型训练和迭代,大概五百到一千万,时间三到六个月。上限嘛,”赵文渊想了想,“估计能再提三到五个点,到八十八左右。”

“这个提升不算大。”

“在这个阶段每一点提升都很艰难,而且这条路的核心优势不在上限。”赵文渊说,“开物的真实用户行为数据,是我们独有的资产。别人花钱也买不到。”

韩路一点了下头。

“第二条,”赵文渊翻到下一页,“oe,混合专家模型。”

oe,ixtureofexperts,混合专家模型。不是把一个模型训得什么都会,而是训一群各有专长的小模型,遇到问题再决定派谁上。像一家公司,与其要求每个员工全能,不如让专业的人做专业的事。

“这个主要是架构层面的改变。不改基座,不改训练方法,改调用方式、推理方式。把一个大模型拆成多个专精的子模型——一个擅长python、一个擅长前端、一个擅长数据库。推理时根据任务类型自动路由到最合适的专家,同算力下效果更好,应该也能提三到五个点。”赵文渊接着说。

“成本?”韩路一问道。

“一千到两千万,架构要重写,模型要重训,时间四到八个月。”赵文渊说,“技术上挑战不算太大,成本主要是要调的模型多。但是需要补人,我们现在的团队在oe方面没有经验,至少要招两到三个做过类似架构的人。”

“最后说第三条。”赵文渊又翻了一页,语气中有点儿兴奋——是他作为科

最新小说: 我是如何当神豪的最新章节 国潮1980最新章节 开局签到荒古圣体全文免费阅读 盖世双谐最新章节 外科教父海与夏 重生之狂暴火法全文免费阅读 重生之狂暴火法最新章节 国潮1980镶黄旗 白骨大圣全文免费阅读 阴阳石最新章节