改完之后重新跑了一遍。
再用视界看过去。
橙红色几乎消失了,只剩下零星几个边界条件外的数据在蓝色的水流里若隐若现。那些暗蓝色的误杀数据也大幅减少,偶尔闪过一两条,韩路一记下来,又微调了一轮参数。
第三轮跑完,视界里只剩下干净的蓝色。
关掉视界的时候,已经凌晨两点了。
他靠在椅背上,看着最终的清洗报告。
原始数据的有效留存率从赵文渊之前标注的41降到了29——但这29是真干净的。同时误杀率从12降到了不到3,被之前的管线错杀的好数据也救回来了一批。
清洗质量提升的同时,处理速度也快了不少,时间大概只有之前的一半。
韩路一给赵文渊发了消息,把改好的脚本和清洗报告一起传了过去。
“文渊,你明天试试这版,我改了三个地方,垃圾分类器、语义去重和困惑度过滤。”
赵文渊秒回:“你还没睡啊?”
紧接着第二条消息来了:“我看看。”
又过了半小时,赵文渊发了一条长信息:
“你是怎么一晚上搞出来这个的?一般的团队光迭代这个清洗管线就得两三个月,你刚才发我的这个比行业基准的有效率和误杀率都要优秀!按这个效率和精度,全量数据清洗大概一周能跑完!一周后就可以开始预训练了!两个月就能看见第一版模型了!”
难得赵文渊发这么多感叹号,有这么高质量的原始数据和标注数据,他实在是太期待看见训练出来的结果了。
不过这时候韩路一已经睡了。
……
时间往回拨十几个小时,在太平洋的另一边。
美国太平洋时间。
12月27号,周日,下午。
洛斯阿尔托斯山(losaltoshills),约翰的独立屋坐落在这。
约翰·斯诺(johnsnow)是nexai的cto。
不同于ceo瑞恩,有人工智能领域的博士学位,还一路在ai研究院工作。
约翰只有本科学历,他从斯坦福还没毕业就开始创业,前后一共创立和联合创立过五家企业,其中两家分别被谷歌和ta收购,收购后没过几个月他就又离职,继续创业。
约翰在硅谷的风投和技术圈都有很多人脉,自己也做投资人。
像他这样已经财富自由的人,其