“训练不用开物的数据。”韩路一说。
赵文渊放下手里的咖啡:“刚才那两百多条——”
“专门给你看质量的,既然质量达标,就按这个标准来。”韩路一说,“既然我们要做的是通用对话模型,得让它理解各行各业的人在说什么。天工积累的这些代码相关的数据就不太用的上了,我们需要更多元的数据。”
“你以前在谷歌的时候有经验,他们是怎么做的?”韩路一问道。
赵文渊想了想:“大模型出来这几年,流程已经摸索的差不多了。大厂做对话模型,数据管线一般分三步:先是海量采集,爬虫加授权数据源,数据pb级起步,恨不得把整个互联网都存下来;然后清洗,去重、去噪,砍掉百分之八九十的垃圾;最后是标注,上千人的团队按标注规范一条一条标,光标注成本一年就能烧几千万。”
他看了韩路一一眼:“我们没那个资源,但做原型到也不需要那么大的量,开源语料库里有现成的公开数据集、社区问答、百科、论坛,采集和基础清洗别人已经做过一轮了,剩下的是精洗和标注。五千条高质量标注,就算找外包,也得十几万加两三周,但是质量——”
赵文渊的话没说完,开源语料,找外包标注,和韩路一刚才给他看的标注质量比,那是一个地下一个天上。他技术再自信,也不敢说这种方法做出来的东西可以出去拉投资。
“我也是这个想法。你放心,数据交给我,保证都是刚才的那个质量。”韩路一保证道。
赵文渊狐疑的看了他一眼,你知道自己在说什么吗?
开物的数据能标是你有数据源,有用户场景,有深度理解——开源语料有什么?
赵文渊尽量让自己的语气听起来没那么冒犯:“开源数据谁都能拿到,标注出来都大差不差,能有什么区别?”
好问题,我自有办法。
韩路一看出他不信,也不纠缠:“总之交给我,你先搭训练管线就行。”
两人聊完,赵文渊回十三楼继续工作去了。
韩路一靠在椅背上,想着接下来的事。
赵文渊说得没错,开源语料谁都能拿到,标注出来都大差不差,但那是对普通标注员而言。
数据标注是什么?说白了,数据标注就是做阅读理解,给你一篇文章,问“这个人到底想干什么”,标注员写一个标准答案。现在业内的做法是流水线作业:清洗管线负责去重、去噪、统一格式,标注员拿到干净的文本,按