第一百五十九章这样下去你就废了！_首富从AI浪潮开始

虽然韩路一刚说了苏念念，可是其实他也给自己安排了视频会议。

和赵文渊。

赵文渊自从请假之后就没来办公室上班了，最近一直在家搭数据管线，在鼎盛那边的程序走完之前做准备工作。

两人先把训练的策略过了一遍，会议结尾，韩路一问了一下时间线。

“文渊，鼎盛那边账户大概这两天就能配好，你这边什么时候能开跑？”

电话那头，赵文渊停顿了一会，似乎在组织语言，然后才开口道：“韩总，就算算力到位了，开跑之前还有一道坎。”

“什么坎？”

“上周五我和你说的，预训练数据的预清洗。”

韩路一坐在办公桌前想了想，是有这么回事。

“咱们现在手里有什么了？坎在哪？”韩路一问道。

“有oncrawl里的数据，还有公共版权的书籍资料，我想在清洗这块优化一下，但是搞了几天还没头绪。”赵文渊解释道。

“嗯……我晚上回去看看。”

挂断视频，韩路一在办公室里思索起来。

韩路一想起来赵文渊的属性面板。

【赵文渊】

【技术s（研究ss）｜协作c｜稳定a】

【特技：大模型训练｜大模型后训练】

后训练是他的强项，预训练这边可能就没有那么熟悉了。

当然了，大模型现在也出来几年了，论文发了那么多，大家没吃过猪肉也见过猪跑了。技能是可以迁移过来的，摸索摸索，预训练也没有那么难。

想要从头做大模型，真正的瓶颈还在数据和算力。

数据也分两块，原始数据和标注数据。

标注数据这块，靠着视界，韩路一已经拿到了世界顶尖的标注。

数量还不太够，但是肝一肝总会有的。

但是原始数据还得想办法。

一般的厂商数据来源主要有几个，除了那些出版物或者特定行业的资料，还要去互联网上收集资料。

互联网的资料也有不同的来源：可以自己在互联网上爬——这就是各显神通了，爬到什么算你的本事；也可以用oncrawl。

oncrawl是开源的语料库，大模型时代的“数字公共图书馆”。

它是一个非营利组织，目标是“爬取和存档整个互联网”，并将这些数据免费提供给所有人。这个愿景很伟大，也确实

第一百五十九章 这样下去你就废了！（1 / 7）