总。”林绍峰开门见山,“坤元的内部测评已经完成了,从综合能力来看,坤元10的各项能力已经进入全球第一梯队。”
开篇先强调了一下成绩,林绍峰环顾了一下观众,重点注意了吕云的反应,但是没看出什么来。
他按了一下手中的翻页器,大屏幕上出现了一张综合数据。
数学,代码,多语言理解,长上下文,逻辑推理,知识问答,意图理解。
每一项都有分数、排名、对标模型。
“如果只看通用能力,坤元10目前落后于gpt最新一代旗舰模型,但是差距已经不大。”林绍峰说道:“和gei、水星的最新版本相比,我们在部分项目上互有胜负。尤其是在中文任务、企业场景、复杂指令遵循这几个维度,坤元的表现非常突出。”
然后他切到下一页。
这一页的标题是:中文意图理解专项评测。
屏幕上是一组更夸张的数据。
坤元10在中文复杂需求理解、隐含条件识别、业务流程补全、用户真实意图判断这些项目上,全面高于所有对标模型。而且不是小幅领先,而是跨越式的高。
断层碾压。
会议室里响起了低声的讨论声。
大部分人都知道这个结果意味着什么。
大模型研究在国内是后发,如果能做出第一个在单项领域全世界登顶的大模型,对鼎盛的行业地位都有重大意义。
林绍峰紧接着讲了具体的测评标准,包括公开测试集、内部自建题库、第三方公开任务集,和企业真实场景脱敏数据。
“国产大模型最大的问题,是大家做的比较像。正落到业务场景里,经常听不懂人话。用户说一句‘帮我弄一下这个’,模型不知道‘这个’是什么,用户说‘老板要看’,模型不知道重点应该放在风险、结果还是汇报口径上。”
会议室里不少业务线负责人都点了点头,他们对这些场景都深有体会。
大部分大模型演示的时候看起来很强,真正接入业务系统,就像一个刚毕业的实习生。
做业务的能力比写代码的能力差多了。
这也不怪大模型,代码本身是可验证的,对就是对,错就是错,做业务可不是这样,模糊的地方很多。
到了问答环节,市场部的负责人先站出来说话了。
他知道今天会议的目的,就是为坤元的发布定计划。
刚才林绍峰展示的数据很好看,拿