这种报警信息倒是不急着处理,既然看到了,回去再处理也行。
——况且他也没带电脑出来。
大年初一,让显卡集群也放几个小时的假吧。
韩路一没有放下手机,而是打开微信,给张彪发了条消息:“彪哥,别在门口等我,你真出去转转,不然我妈那可不好糊弄。”
等到韩路一和周敏回到家,已经是两个小时以后了。
韩路一回到卧室,打开电脑,登入鼎盛云的账户。
看了看最近的活动日志,这两小时之间一直有访问记录,但是训练还没有重新开始。
看来赵文渊也看到了,正在检修。
但是卡住了。
韩路一皱了皱眉头,能让赵文渊卡两小时的bug,看来不简单。
他看了一眼飞书,赵文渊在线,于是他向对方发起了一个视频通话请求。
很快,视频接通了,赵文渊的脸出现在屏幕中。他穿着一件大红毛衣,看起来喜气洋洋的,但是表情很严肃,和衣服形成了反差。
“怎么样?问题定位了吗?”韩路一开门见山的问道。
“loss飘了,从一点多开始,回滚checkpot不行,重启不行,分布式检查没有问题,参数也没问题。我怀疑是数据问题,新加的过滤规则是小牛他们前几天加的批次,我现在正在对照规则文档看代码。”赵文渊的语速很快,但是并不慌张。
现在这个阶段,每个检查点之间一般间隔十个小时。也就是说,就算最后能修好,至少也要从十个小时前的检查点重跑,再加上这两小时的debug,至少十二个小时白费了。
“不急。”韩路一开口道,“异常batch的数据采样发我一份。”
“好。”
韩路一接收文件,快速的扫了一眼。
此前,韩路一用视界做出来的数据清洗管线,已经把最明显的污染样本打过一遍。
后来为了增加模型能力,赵文渊带着数据团队在这个基础上继续扩展,增加了规则集和数据源。
这是必要的,原始管线再强,也不可能覆盖所有新场景,随着训练数据来源扩大,团队自然会进行工程化。
但是扩大之后的规则集对新场景的覆盖程度比韩路一一开始设计的管线是要低很多的。
这种差异导致训练精度在某个进度的时候会突然发生大的偏离。
现在的关键是找到扩展规则集在哪个部分出