填进去,又把密钥贴好,调用写好的大模型测评脚本。
运行。
他一边看着终端输出结果,一边身体靠在人体工学椅上后仰,把脚搭在了桌子上。
头还有点儿晕。
再一看,前十题都过了。
二十题,也都过了。
章闻铎皱了皱眉头,把脚从桌子上放了下来。
三十题,还是全对。
怎么回事?
章闻铎把椅子往前拉了拉。
脚本已经运行到五十题了,依旧是全对。
章闻铎感觉有点儿凉,摸了摸头,出了一层细汗。
没去继续关注正在运行的脚本,章闻铎点开其中一题,看了看汤圆的输出。
逻辑很严密啊!
行家一出手,就知有没有,这些章闻铎特意收集起来的题,强调的就是任务的复杂性,按照一般大模型的处理方式,在这么复杂的条件下,很容易就会出现注意力分散,关键条件被忽略的问题。
可是这个问题在汤圆的答案上一点儿没出现。
章闻铎静静地看着终端里的脚本跑完,最后一百二十七题里面对了一百二十题,错了七道。
但是这七道里还有不同寻常的事。
其中有一道题,汤圆回答的是——“我不知道”。
作为一个ai模型的研究者,章闻铎知道这有多难。
光凭提高数据质量就可以做到这一步吗?
章闻铎突然觉得脸上有点儿热,而且越来越热。
他摸了摸脸,这个酒后劲儿这么大的吗?
又上头了。
章闻铎拿起手杯去接了杯水,然后一饮而尽。
他拿出手机,找到刚才加的韩路一的微信好友。
聊天记录里有一句话:
“我通过了你的朋友验证请求,现在我们可以开始聊天了”
章闻铎盯着输入框看了好一会儿,开始打字。
【韩总,刚才吃饭的时候我说话有点】
打到这,他停住了。
有点儿什么呢?冒犯?没分寸?自以为是?
他皱着眉,把这几个字删掉了,又重新打。
【韩总,我刚才验证了一下汤圆,是我之前的判断太武断了】
这个也不行,显得太傲慢了吧。
章闻铎想了想,还是算了,人家也许不介意呢。
水平这么高,