刘大海是北方人,特别能唠嗑,绝不会把话落在地上。他把笔记本往桌上一放,就开始接线调试。
程远把这个内部会议的时间提前了半小时,也是借这个机会对自己模型组的最新进度先深入了解一下,对齐颗粒度。郑总似乎很挂心这事,他也得赶紧把优先主次调整清楚了。
刘大海调完设备,坐下来喝了口水。
“今天来的谁(sei)啊?”
“源码科技,一个ai创业公司。”程远简短地说,“做应用层的,最近想往大模型方向走。”
刘大海抬了一下眉毛:“啥?多大规模?”
“五十人左右,a轮。”
刘大海皱着眉头,头顶飘着两个为什么——
为什么五十人就敢做大模型,光数据清洗的团队都凑不齐,虎了吧唧的。
为什么这么不切实际的公司今天能来鼎盛开会,还是郑总发话,需要他亲自来给演示。
“郑总的意思,你把坤元最新的评测结果给对方演示一下就行。”程远说。
“坤元”是鼎盛内部通用大模型的代号。乾元是代码大模型,已经公开发布了。坤元是通用模型,还在内部测试阶段,没有对外公布过。
“现在我们内部做到什么水平了?刘博士,能不能先给我解解惑?”
刘大海点了点头,打开了演示界面,顺手调出了一组数据。
“上周刚跑完的结果,”刘大海指着屏幕,“咱们最强的在这,意图理解直接干到了78,比上一版提了将近两个点,老猛了!”
刘大海切到一张对比图,纵轴是综合得分,横轴排着国内外十几家模型。
“你瞅这,综合跑分这个位置,”刘大海用手指点了一下点状图最高的那个点,“gpt-4o。”
然后他的手指往左移了两格:“咱在这,差距大概三个百分点,放在国内这是第一梯队,稳稳当当的!”
接着他切了一张图:“只看意图理解这个单项,咱和openai的差距已经缩到不到02个点了,而且在中文场景下咱还能加加,支棱支棱超过去也不是啥大问题。”
程远看着那张图,心里踏实了不少,这个数字拿出去,足够让任何一个创业公司掂量掂量自己几斤几两。
“刘博士,演示的时候你把这张对比图放出来就行,不用太详细,点到为止。”
“嗨,妥妥的。”刘大海关掉了屏幕,“说实话我不太乐意整这种对外演示,但郑总发