数据进了他们用的算力节点,我们这边就有完整副本,他们那边看不出来。”
张弛靠回椅背,语气平稳:“那先把这批预训练的语料导出来用。”
刘亚光有些惊讶:“这批数据没有标注,价值有限,我们自己也有语料——”
“我知道。”张弛说,“我不是为了这批数据。主要是看看这条通道稳不稳,能不能安全导出。先跑一遍,如果他们那边没有动静,路径没问题,后面就好办了。”
他似笑非笑一下,补充道:“反正不用白不用,给坤元那边送过去,用不用看他们了。”
刘亚光点了点头,说:“明白了,张总。”
从张弛办公室出来,刘亚光一路出了鼎盛大厦,坐上了去鼎盛云园区的公交车。
刘亚光的工位在云园区,他今天是特意来给张弛当面汇报的。
下午两点,刘亚光在工位上给张弛发了条消息:“张总,数据弄好了。”
张弛过了几分钟才回复:“干净吗?”
刘亚光:“处理过了,干净。”
张弛:“给数据组发过去吧。”
刘亚光放下手机,在电脑上打开内部通讯,给吴英豪发了个消息:“在吗?”
然后他拿起手机,给吴英豪的微信发了一条:“有新数据。”
不一会,吴英豪发了个戴绿头盔的表情包回来。
刘亚光把一个加密压缩包的链接从内部通讯发了过去。
然后他在微信里给吴英豪有发了一句话:“密码老样子,走数据入库流程,来源写外部采购,批次号我生成好了,你们填进去就行。”
吴英豪的微信消息回复很快:“质量怎么样?”
“洗过的,能用。”
“好。”
吴英豪不是第一次从刘亚光这拿数据了,这事不干净,两人有固定的默契。
数据组每隔一段时间就会有这种批次进来,来源五花八门,有的是爬的,有的是买的,有的是“合作方共享”的。填外部采购是最干净的写法,因为采购来源很杂,审计不容易查到。
这种事不是第一次,也不会是最后一次。
三天后,坤元项目组。
刘大海盯着屏幕上的一条曲线,看了大概三分钟没动。
这是坤元这一轮预训练的loss曲线。
loss是损失值——可以理解成模型犯错的程度,数字越低说明模型学得越好。训练的过程就是