虽然韩路一刚说了苏念念,可是其实他也给自己安排了视频会议。
和赵文渊。
赵文渊自从请假之后就没来办公室上班了,最近一直在家搭数据管线,在鼎盛那边的程序走完之前做准备工作。
两人先把训练的策略过了一遍,会议结尾,韩路一问了一下时间线。
“文渊,鼎盛那边账户大概这两天就能配好,你这边什么时候能开跑?”
电话那头,赵文渊停顿了一会,似乎在组织语言,然后才开口道:“韩总,就算算力到位了,开跑之前还有一道坎。”
“什么坎?”
“上周五我和你说的,预训练数据的预清洗。”
韩路一坐在办公桌前想了想,是有这么回事。
“咱们现在手里有什么了?坎在哪?”韩路一问道。
“有oncrawl里的数据,还有公共版权的书籍资料,我想在清洗这块优化一下,但是搞了几天还没头绪。”赵文渊解释道。
“嗯……我晚上回去看看。”
挂断视频,韩路一在办公室里思索起来。
韩路一想起来赵文渊的属性面板。
【赵文渊】
【技术s(研究ss)|协作c|稳定a】
【特技:大模型训练|大模型后训练】
后训练是他的强项,预训练这边可能就没有那么熟悉了。
当然了,大模型现在也出来几年了,论文发了那么多,大家没吃过猪肉也见过猪跑了。技能是可以迁移过来的,摸索摸索,预训练也没有那么难。
想要从头做大模型,真正的瓶颈还在数据和算力。
数据也分两块,原始数据和标注数据。
标注数据这块,靠着视界,韩路一已经拿到了世界顶尖的标注。
数量还不太够,但是肝一肝总会有的。
但是原始数据还得想办法。
一般的厂商数据来源主要有几个,除了那些出版物或者特定行业的资料,还要去互联网上收集资料。
互联网的资料也有不同的来源:可以自己在互联网上爬——这就是各显神通了,爬到什么算你的本事;也可以用oncrawl。
oncrawl是开源的语料库,大模型时代的“数字公共图书馆”。
它是一个非营利组织,目标是“爬取和存档整个互联网”,并将这些数据免费提供给所有人。这个愿景很伟大,也确实