第一百四十三章把他的数据供应商，挖过来_首富从AI浪潮开始

郑晓波这句话一出口，刘大海就知道自己不用再说了。

郑晓波是真的懂。

执掌鼎盛这样一个巨头，确实得有两把刷子，知识储备到了，至少沟通成本能低不少。

而且ai赛道正在风口上，哪家大厂也不敢掉队，对行业的关注甚至不比领域内的投资人和从业者少。

scaleai，硅谷最炙手可热的独角兽之一，他们不做模型，不做产品，只专注做一件事——数据标注，可以说是ai时代的卖铲人。

就凭这一项业务，scaleai的估值做到了几百亿美金。

这是什么概念？小半个鼎盛了。

于是刘大海在文档里连翻了几页，跳过了准备好的铺垫，直接翻到一张对比图。

“2023年6月，微软研究院发了一篇论文，叫《textbooksareallyouneed》（你只需要教科书），用精心筛选的教科书级别的数据训了一个十三亿参数的小模型，phi-1，在代码生成任务上打赢了市面上那些参数量是它十倍、训练数据是它一百倍的大模型。”

程远插了一句：“刘博士，这是什么概念？”

“当时除了gpt没有一个模型跑得过它。”刘大海说，“只有十三亿的参数，8张a100训练了4天，就这么点成本。这篇论文证明了一件事，数据质量够高，小模型就能干翻大模型。”

他转向郑晓波。

“这和汤圆的情况完全吻合。7b，就是七十亿的参数，一万条训练数据，意图理解打赢了坤元。关键不是模型有多大，是数据质量得好。”

最近几年，这几乎已经成为ai行业的共识了：谁的标注质量高，谁的模型就强。架构变化不大，算力的边际效益递减，但高质量的数据标注才还有很长的进步空间。

问题是，所有人都知道数据标注重要，却没人知道数据标注得好到什么程度才足够。

openai、anthropic、ta，每年砸几十亿美金在数据标注上，模型的表现确实是一代比一代强，但进步也越来越慢，谁也不知道什么时候会撞墙，也没人知道极限在哪。

不管资本炒的多么火热，这个行业的所有从业者，大家都在一望无际的大海上摸索前行。

直到看到汤圆，刘大海确信自己看到了未来的信标。

郑晓波没说话。

刘大海的语速慢下来了，声音压低了半度。

“从

第一百四十三章 把他的数据供应商，挖过来（1 / 4）