第二百二十六章幽灵设备_首富从AI浪潮开始

总。”林绍峰开门见山，“坤元的内部测评已经完成了，从综合能力来看，坤元10的各项能力已经进入全球第一梯队。”

开篇先强调了一下成绩，林绍峰环顾了一下观众，重点注意了吕云的反应，但是没看出什么来。

他按了一下手中的翻页器，大屏幕上出现了一张综合数据。

数学，代码，多语言理解，长上下文，逻辑推理，知识问答，意图理解。

每一项都有分数、排名、对标模型。

“如果只看通用能力，坤元10目前落后于gpt最新一代旗舰模型，但是差距已经不大。”林绍峰说道：“和gei、水星的最新版本相比，我们在部分项目上互有胜负。尤其是在中文任务、企业场景、复杂指令遵循这几个维度，坤元的表现非常突出。”

然后他切到下一页。

这一页的标题是：中文意图理解专项评测。

屏幕上是一组更夸张的数据。

坤元10在中文复杂需求理解、隐含条件识别、业务流程补全、用户真实意图判断这些项目上，全面高于所有对标模型。而且不是小幅领先，而是跨越式的高。

断层碾压。

会议室里响起了低声的讨论声。

大部分人都知道这个结果意味着什么。

大模型研究在国内是后发，如果能做出第一个在单项领域全世界登顶的大模型，对鼎盛的行业地位都有重大意义。

林绍峰紧接着讲了具体的测评标准，包括公开测试集、内部自建题库、第三方公开任务集，和企业真实场景脱敏数据。

“国产大模型最大的问题，是大家做的比较像。正落到业务场景里，经常听不懂人话。用户说一句‘帮我弄一下这个’，模型不知道‘这个’是什么，用户说‘老板要看’，模型不知道重点应该放在风险、结果还是汇报口径上。”

会议室里不少业务线负责人都点了点头，他们对这些场景都深有体会。

大部分大模型演示的时候看起来很强，真正接入业务系统，就像一个刚毕业的实习生。

做业务的能力比写代码的能力差多了。

这也不怪大模型，代码本身是可验证的，对就是对，错就是错，做业务可不是这样，模糊的地方很多。

到了问答环节，市场部的负责人先站出来说话了。

他知道今天会议的目的，就是为坤元的发布定计划。

刚才林绍峰展示的数据很好看，拿

第二百二十六章 幽灵设备（3 / 4）