第一百二十九章鼎支付_首富从AI浪潮开始

“训练不用开物的数据。”韩路一说。

赵文渊放下手里的咖啡：“刚才那两百多条——”

“专门给你看质量的，既然质量达标，就按这个标准来。”韩路一说，“既然我们要做的是通用对话模型，得让它理解各行各业的人在说什么。天工积累的这些代码相关的数据就不太用的上了，我们需要更多元的数据。”

“你以前在谷歌的时候有经验，他们是怎么做的？”韩路一问道。

赵文渊想了想：“大模型出来这几年，流程已经摸索的差不多了。大厂做对话模型，数据管线一般分三步：先是海量采集，爬虫加授权数据源，数据pb级起步，恨不得把整个互联网都存下来；然后清洗，去重、去噪，砍掉百分之八九十的垃圾；最后是标注，上千人的团队按标注规范一条一条标，光标注成本一年就能烧几千万。”

他看了韩路一一眼：“我们没那个资源，但做原型到也不需要那么大的量，开源语料库里有现成的公开数据集、社区问答、百科、论坛，采集和基础清洗别人已经做过一轮了，剩下的是精洗和标注。五千条高质量标注，就算找外包，也得十几万加两三周，但是质量——”

赵文渊的话没说完，开源语料，找外包标注，和韩路一刚才给他看的标注质量比，那是一个地下一个天上。他技术再自信，也不敢说这种方法做出来的东西可以出去拉投资。

“我也是这个想法。你放心，数据交给我，保证都是刚才的那个质量。”韩路一保证道。

赵文渊狐疑的看了他一眼，你知道自己在说什么吗？

开物的数据能标是你有数据源，有用户场景，有深度理解——开源语料有什么？

赵文渊尽量让自己的语气听起来没那么冒犯：“开源数据谁都能拿到，标注出来都大差不差，能有什么区别？”

好问题，我自有办法。

韩路一看出他不信，也不纠缠：“总之交给我，你先搭训练管线就行。”

两人聊完，赵文渊回十三楼继续工作去了。

韩路一靠在椅背上，想着接下来的事。

赵文渊说得没错，开源语料谁都能拿到，标注出来都大差不差，但那是对普通标注员而言。

数据标注是什么？说白了，数据标注就是做阅读理解，给你一篇文章，问“这个人到底想干什么”，标注员写一个标准答案。现在业内的做法是流水线作业：清洗管线负责去重、去噪、统一格式，标注员拿到干净的文本，按

第一百二十九章 鼎支付（1 / 4）