郑晓波这句话一出口,刘大海就知道自己不用再说了。
郑晓波是真的懂。
执掌鼎盛这样一个巨头,确实得有两把刷子,知识储备到了,至少沟通成本能低不少。
而且ai赛道正在风口上,哪家大厂也不敢掉队,对行业的关注甚至不比领域内的投资人和从业者少。
scaleai,硅谷最炙手可热的独角兽之一,他们不做模型,不做产品,只专注做一件事——数据标注,可以说是ai时代的卖铲人。
就凭这一项业务,scaleai的估值做到了几百亿美金。
这是什么概念?小半个鼎盛了。
于是刘大海在文档里连翻了几页,跳过了准备好的铺垫,直接翻到一张对比图。
“2023年6月,微软研究院发了一篇论文,叫《textbooksareallyouneed》(你只需要教科书),用精心筛选的教科书级别的数据训了一个十三亿参数的小模型,phi-1,在代码生成任务上打赢了市面上那些参数量是它十倍、训练数据是它一百倍的大模型。”
程远插了一句:“刘博士,这是什么概念?”
“当时除了gpt没有一个模型跑得过它。”刘大海说,“只有十三亿的参数,8张a100训练了4天,就这么点成本。这篇论文证明了一件事,数据质量够高,小模型就能干翻大模型。”
他转向郑晓波。
“这和汤圆的情况完全吻合。7b,就是七十亿的参数,一万条训练数据,意图理解打赢了坤元。关键不是模型有多大,是数据质量得好。”
最近几年,这几乎已经成为ai行业的共识了:谁的标注质量高,谁的模型就强。架构变化不大,算力的边际效益递减,但高质量的数据标注才还有很长的进步空间。
问题是,所有人都知道数据标注重要,却没人知道数据标注得好到什么程度才足够。
openai、anthropic、ta,每年砸几十亿美金在数据标注上,模型的表现确实是一代比一代强,但进步也越来越慢,谁也不知道什么时候会撞墙,也没人知道极限在哪。
不管资本炒的多么火热,这个行业的所有从业者,大家都在一望无际的大海上摸索前行。
直到看到汤圆,刘大海确信自己看到了未来的信标。
郑晓波没说话。
刘大海的语速慢下来了,声音压低了半度。
“从