晚上十点了,瑞恩还坐在办公室里。
透过透明玻璃墙看出去,外面的办公区也灯火通明,一个个研究员、程序员、产品经理以及市场团队成员坐在自己工位上,都在加班。
一般这个时间,所有的人都下班了,但是今天不一般。
今天上午,nexai刚刚完成了一场本该载入公司历史的发布会。
过去大半年秘密训练的金星模型发布,榜单登顶,实现ats智能体的工程能力飞跃,再加上严格的访问限制公布。
这本来应该成为媒体这一星期的头条。
然而,仅仅两个小时之后,openai发布了gpt-v和gpt-voni。
nexai的金星模型发布会变成了笑话。
这样突如其来的打击,让每一个员工都像被人在脸上狠狠得抽了一个耳光。没人愿意走,也没人真的能静下心来工作。所有人都憋着一股劲,想把今天丢掉的脸找回来。
收回目光,瑞恩伸出手揉了揉自己的太阳穴,整个人往椅背上靠了一下。
然后他又强打精神,直起身来,在电脑上打开了一个新的网页。这是一个第三方大模型能力测评的聚合网站。
瑞恩也说不出为什么想再看一次。
从金星发布之后,他已经看了好几次了。有短暂的两个小时,金星排在榜首,但是之后就一直是第二名,排在第一名的是那个刺眼的名字——gpt-v。
还是第二名……
瑞恩又扫了一眼榜单,突然觉得不对。
金星不是第二名。
第二名是gpt-v。
那第一名是谁?
瑞恩看着那个陌生的名字,tangyuan-09。
然后他的目光向下移动,看向了榜单下面一点的另一个名字,kunyuan-10。
看到这一幕,瑞恩觉得荒谬可笑。
不是,这些中国公司在搞什么鬼?
搞这些过拟合刷榜有意思吗?
瑞恩太清楚这个套路了。这些榜单的评测集是公开的,只要把训练数据和评测题混在一起,分数自然就上去了,这叫数据污染。
行业里人人都知道,但没人敢干,因为干了就是把自己的信誉扔进垃圾桶里了。nexai做了这么多代模型,老老实实的把真实能力冲上第一,为什么?就是因为一个新公司就算通过微调能刷到榜单第一也没有任何意义,没有人会信的。