条。
一个用户输入“做一个会议纪要模板”,实际行为是把生成的模板删到只剩一个表格框架,然后手动加了“待办跟进人”和“下次检查日期”两个字段。第四列标注:用户不是要做会议纪要,是要做项目进度追踪看板,因为公司没有项目管理工具,她在用会议纪要当替代品。
赵文渊挑了这条做验证。用户删掉模板只留表格,行为数据对得上。手动加跟进人和检查日期,操作记录里有。标注的结论:用会议纪要替代项目管理工具。
他想了想,觉得说得通。甚至不只是说得通,如果真的是在做项目管理,那用户接下来的需求大概率是甘特图或者看板视图,而不是更好的会议纪要模板。
这个标注精度已经不是“标得准”了。
是标注者理解了用户的工作场景。
赵文渊抬起头看韩路一。
“这是深加工标注?”赵文渊问,“用来继续提升天工的?”
“不是用来做天工的,算是示例。”
赵文渊皱了下眉,不是做天工,那做什么?天工是代码专项模型,这些开物数据的标注跟天工很贴合啊——
“如果用户行为的公开数据集也能有这个精度的标注呢?”韩路一说。
赵文渊直接摇头。
“不可能,你这个精度是因为有开物的行为闭环,用户怎么改的、重新生成了几次、最终保留了什么,这些全是客观信号。公开数据集没有这些,光靠人工标注就是在纯猜。”
韩路一没争辩。
他做不到,视界能做到。
他转了个方向:“做一个原型要多少数据?”
赵文渊愣了一下,反应过来韩路一在说的是什么,不是提升天工,是在开源的通用基座上跑意图理解方向的微调。
“通过微调,验证意图理解能力的变化?”赵文渊想了想,“五千到八千条这个质量的就够有很明显的提升了。”
顿了一下,他又补了一句:“但做出来也没意义,小模型微调的再好,拿去跟gpt-4一比,性能上不是一个量级。”
韩路一说:“我拿它去见投资人。”
赵文渊明白了。
原型不是产品,是proofofncept,证明可行性。到时候就这么说:你看我几千条数据在一个7b模型上就能做到这个效果,如果有了大算力和大数据呢?
“两到三周能给到吗?”赵文渊问。
“可以。