第一百二十八章算我借你的_首富从AI浪潮开始

条。

一个用户输入“做一个会议纪要模板”，实际行为是把生成的模板删到只剩一个表格框架，然后手动加了“待办跟进人”和“下次检查日期”两个字段。第四列标注：用户不是要做会议纪要，是要做项目进度追踪看板，因为公司没有项目管理工具，她在用会议纪要当替代品。

赵文渊挑了这条做验证。用户删掉模板只留表格，行为数据对得上。手动加跟进人和检查日期，操作记录里有。标注的结论：用会议纪要替代项目管理工具。

他想了想，觉得说得通。甚至不只是说得通，如果真的是在做项目管理，那用户接下来的需求大概率是甘特图或者看板视图，而不是更好的会议纪要模板。

这个标注精度已经不是“标得准”了。

是标注者理解了用户的工作场景。

赵文渊抬起头看韩路一。

“这是深加工标注？”赵文渊问，“用来继续提升天工的？”

“不是用来做天工的，算是示例。”

赵文渊皱了下眉，不是做天工，那做什么？天工是代码专项模型，这些开物数据的标注跟天工很贴合啊——

“如果用户行为的公开数据集也能有这个精度的标注呢？”韩路一说。

赵文渊直接摇头。

“不可能，你这个精度是因为有开物的行为闭环，用户怎么改的、重新生成了几次、最终保留了什么，这些全是客观信号。公开数据集没有这些，光靠人工标注就是在纯猜。”

韩路一没争辩。

他做不到，视界能做到。

他转了个方向：“做一个原型要多少数据？”

赵文渊愣了一下，反应过来韩路一在说的是什么，不是提升天工，是在开源的通用基座上跑意图理解方向的微调。

“通过微调，验证意图理解能力的变化？”赵文渊想了想，“五千到八千条这个质量的就够有很明显的提升了。”

顿了一下，他又补了一句：“但做出来也没意义，小模型微调的再好，拿去跟gpt-4一比，性能上不是一个量级。”

韩路一说：“我拿它去见投资人。”

赵文渊明白了。

原型不是产品，是proofofncept，证明可行性。到时候就这么说：你看我几千条数据在一个7b模型上就能做到这个效果，如果有了大算力和大数据呢？

“两到三周能给到吗？”赵文渊问。

“可以。

第一百二十八章 算我借你的（2 / 4）