书香阁 > 科幻灵异 > 首富从AI浪潮开始 > 第一百二十九章 鼎支付

第一百二十九章 鼎支付(1 / 4)

“训练不用开物的数据。”韩路一说。

赵文渊放下手里的咖啡:“刚才那两百多条——”

“专门给你看质量的,既然质量达标,就按这个标准来。”韩路一说,“既然我们要做的是通用对话模型,得让它理解各行各业的人在说什么。天工积累的这些代码相关的数据就不太用的上了,我们需要更多元的数据。”

“你以前在谷歌的时候有经验,他们是怎么做的?”韩路一问道。

赵文渊想了想:“大模型出来这几年,流程已经摸索的差不多了。大厂做对话模型,数据管线一般分三步:先是海量采集,爬虫加授权数据源,数据pb级起步,恨不得把整个互联网都存下来;然后清洗,去重、去噪,砍掉百分之八九十的垃圾;最后是标注,上千人的团队按标注规范一条一条标,光标注成本一年就能烧几千万。”

他看了韩路一一眼:“我们没那个资源,但做原型到也不需要那么大的量,开源语料库里有现成的公开数据集、社区问答、百科、论坛,采集和基础清洗别人已经做过一轮了,剩下的是精洗和标注。五千条高质量标注,就算找外包,也得十几万加两三周,但是质量——”

赵文渊的话没说完,开源语料,找外包标注,和韩路一刚才给他看的标注质量比,那是一个地下一个天上。他技术再自信,也不敢说这种方法做出来的东西可以出去拉投资。

“我也是这个想法。你放心,数据交给我,保证都是刚才的那个质量。”韩路一保证道。

赵文渊狐疑的看了他一眼,你知道自己在说什么吗?

开物的数据能标是你有数据源,有用户场景,有深度理解——开源语料有什么?

赵文渊尽量让自己的语气听起来没那么冒犯:“开源数据谁都能拿到,标注出来都大差不差,能有什么区别?”

好问题,我自有办法。

韩路一看出他不信,也不纠缠:“总之交给我,你先搭训练管线就行。”

两人聊完,赵文渊回十三楼继续工作去了。

韩路一靠在椅背上,想着接下来的事。

赵文渊说得没错,开源语料谁都能拿到,标注出来都大差不差,但那是对普通标注员而言。

数据标注是什么?说白了,数据标注就是做阅读理解,给你一篇文章,问“这个人到底想干什么”,标注员写一个标准答案。现在业内的做法是流水线作业:清洗管线负责去重、去噪、统一格式,标注员拿到干净的文本,按

最新小说: 外科教父海与夏 我是如何当神豪的最新章节 国潮1980镶黄旗 重生之狂暴火法最新章节 重生之狂暴火法全文免费阅读 盖世双谐最新章节 白骨大圣全文免费阅读 阴阳石最新章节 开局签到荒古圣体全文免费阅读 国潮1980最新章节