书香阁 > 科幻灵异 > 首富从AI浪潮开始 > 第二百二十六章 幽灵设备

第二百二十六章 幽灵设备(3 / 4)

总。”林绍峰开门见山,“坤元的内部测评已经完成了,从综合能力来看,坤元10的各项能力已经进入全球第一梯队。”

开篇先强调了一下成绩,林绍峰环顾了一下观众,重点注意了吕云的反应,但是没看出什么来。

他按了一下手中的翻页器,大屏幕上出现了一张综合数据。

数学,代码,多语言理解,长上下文,逻辑推理,知识问答,意图理解。

每一项都有分数、排名、对标模型。

“如果只看通用能力,坤元10目前落后于gpt最新一代旗舰模型,但是差距已经不大。”林绍峰说道:“和gei、水星的最新版本相比,我们在部分项目上互有胜负。尤其是在中文任务、企业场景、复杂指令遵循这几个维度,坤元的表现非常突出。”

然后他切到下一页。

这一页的标题是:中文意图理解专项评测。

屏幕上是一组更夸张的数据。

坤元10在中文复杂需求理解、隐含条件识别、业务流程补全、用户真实意图判断这些项目上,全面高于所有对标模型。而且不是小幅领先,而是跨越式的高。

断层碾压。

会议室里响起了低声的讨论声。

大部分人都知道这个结果意味着什么。

大模型研究在国内是后发,如果能做出第一个在单项领域全世界登顶的大模型,对鼎盛的行业地位都有重大意义。

林绍峰紧接着讲了具体的测评标准,包括公开测试集、内部自建题库、第三方公开任务集,和企业真实场景脱敏数据。

“国产大模型最大的问题,是大家做的比较像。正落到业务场景里,经常听不懂人话。用户说一句‘帮我弄一下这个’,模型不知道‘这个’是什么,用户说‘老板要看’,模型不知道重点应该放在风险、结果还是汇报口径上。”

会议室里不少业务线负责人都点了点头,他们对这些场景都深有体会。

大部分大模型演示的时候看起来很强,真正接入业务系统,就像一个刚毕业的实习生。

做业务的能力比写代码的能力差多了。

这也不怪大模型,代码本身是可验证的,对就是对,错就是错,做业务可不是这样,模糊的地方很多。

到了问答环节,市场部的负责人先站出来说话了。

他知道今天会议的目的,就是为坤元的发布定计划。

刚才林绍峰展示的数据很好看,拿

最新小说: 开局签到荒古圣体全文免费阅读 阴阳石最新章节 外科教父海与夏 重生之狂暴火法最新章节 国潮1980镶黄旗 重生之狂暴火法全文免费阅读 白骨大圣全文免费阅读 国潮1980最新章节 我是如何当神豪的最新章节 盖世双谐最新章节