了纰漏。
韩路一一边滑动样本一边在心里过了一遍管线结构。
屏幕另一头,赵文渊还在敲键盘,时不时停下来盯着输出皱眉。
这对普通人来说是很难的,因为数据量太大了,而所谓的数据的好与坏、干净与杂乱,都是人为定义的主观判断标准。
现在赵文渊唯一能看到的症状就是loss值突然剧烈波动,但是在他不熟悉的巨大规则集和更巨大的原始语料里找出问题,不啻于大海捞针。
唯一的办法就是现写脚本帮助诊断,这也是赵文渊正在做的事情。
但是对赵文渊来说难的事情,对韩路一来说却未必难。
或者说,对视界来说不难。
视界,开。
一瞬间,熟悉的颜色浮了上来。
大部分样本是淡蓝色的正常文本。
少量灰色,这些是重复文本,没被剔除,但是问题不大。
几段橙红色的低质量内容已经被规则标记出来,本来不应该进入训练主数据。
但很快,韩路一的目光停在了其中一片奇怪的颜色上。
暗紫色。
这不是之前出现过的颜色。
他微微一怔。
注意力移过去。
视界里弹出一行说明。
【疑似类型:伪结构化残片】
【htl/arkdown/json标记残片混合乱码,现行规则集将其误判为代码片段,词元化后重复符号占比异常,易造成异常长序列,引发训练曲线波动】
韩路一看了一下原始数据。
乍一看,这些片段确实很像代码,但是仔细一看,就发现不合语法,也没有实际意义。
就像是有人专门投的毒。
韩路一迅速的更新了几条新的规则来抓住这些数据,然后在赵文渊发来的异常样本上测试了一下。
有效。
韩路一一边把改好的规则集上传,一边在视频通话里把发现的问题和解决方案跟赵文渊同步了一下。
赵文渊本来正在埋头写检测脚本,才写了一半,听到韩路一的话,茫然地抬起头。
怎么?不是我在给你讲状况吗?
你怎么已经解决了?
但是很快他就释然了。
哦对,韩总是我的随身老爷爷,那没事了。
快速查看了一下规则集里新添加的几条规则,赵文渊把这批原始数