好半晌,刘大海缓过劲来,没有从题库里选第二道,而是直接在输入框里现场打了一段话。
他有点儿怕是题流出去了,他在被人做局。
“某公司技术负责人收到通知,要求参加下午两点与外部公司的业务对接会。他回复:「收到,我把最新的评测数据整理一下带过去。对了,这个会大概多长时间?我四点有个组内的技术评审会。」”
打完这段,同样粘贴到坤元,两边同时发出指令。
坤元的回复是:“该技术负责人确认参会,并计划准备评测数据作为支撑材料。同时需协调下午四点的技术评审会时间,建议提前做好日程管理。”
汤圆的思考过程是:
“该技术负责人不想参加这个会议。「把评测数据整理一下带过去」——将自身角色限定为技术展示而非业务讨论,暗示他认为自己只需要走个过场。「大概多长时间」——不是时间管理,是在确认最早什么时候可以离开。「四点有个技术评审会」——预设的退出机制,高概率不存在或可以改期。综合判断:参会原因是上级安排,非自身意愿。”
赵文渊没有错过刘大海的反应——
他呼吸都急促了起来。
刘大海不再和程远交流,转身打开自己的笔记本电脑,翻出一个文件夹。那是他做基准测试用的私人题库,鼎盛内部都没几个人见过。
他挑了一道最难的,传送到韩路一的电脑上,直接粘贴进对话框。
题目很长,涉及多角色、多目标、隐含冲突的复杂决策场景,其中藏了一个他自己设计的陷阱:表面上的主要需求,其实是用来掩盖真实的次要需求的。
上次内部评测的时候,坤元没通过这道题。
汤圆“思考”了十几秒后,结果出来了。
它精准地识别出了三层嵌套的隐含意图,当然也包括那个陷阱。
刘大海的手停在键盘上,僵住了一样,没有声音也没有动作。
整个会议室都安静了下来。
韩路一把电脑转回来,打开了一份文档,又把屏幕转过去。
“对了,这是我们完整的基准测试数据。意图理解,852。”
852。
比坤元高了七个百分点。
不是零点几。
七个点!
比openai的gpt也高了七个点!
程远整个人也僵在椅子上一言不发。
他的脑