赵文渊闻言睁大了眼睛:“你是说,鼎盛会偷咱们的数据?”
韩路一点了点头。
赵文渊想了想,开口道:“以鼎盛的尿性,做出这种事情也不奇怪。那咱们怎么办?不和他们合作了?”
“合作,但是既然知道他们会来偷,那就先制定好策略。给我张纸。”
赵文渊去书房里找了纸和笔出来,递给韩路一。
韩路一在纸上先画了一个大圆,在里面画了一个小圆。
“最近的数据标注,包括我们第一次训练时的那些,我都统一给它们分成了两类:百分之八十五是必要但不具决定性的条件,剩下百分之十五是那些对模型的能力影响最大的。我们只把那些次重要的标注传给鼎盛,做第一次后训练,最重要的这些,留到最后一轮,在自己的机器上跑。”
“毕竟,只有物理隔离,才是真的安全。”韩路一说道,“而且,我们也需要给他们看到一些「足够好」的数据,引诱他们来偷。”
“钓鱼。”赵文渊秒懂。
赵文渊看着这张图,提出了一个疑问:“等模型训练出来了,可以通过交叉对比检测哪些标注的影响更大;但是现在这个阶段,我们怎么区分呢?还是随便选百分之十五?”
韩路一想了想说:“我有办法,反正比随便选的好。”
赵文渊不再追问,点了点头:“这个办法好,反正等到大模型训练出来、发布出去,他们一定会来蒸馏的。蒸馏出来的模型也能复制百分之八十的能力了。你这个办法至少也能让他们降到百分之八十。”
“嗯,但这不是重点。”韩路一说。“我不只是想防着他们来偷我们的数据。”
“那还有什么?”赵文渊问道。
韩路一没有回答这个问题,而是问赵文渊另一个问题:“前两天签的tersheet,你仔细看了吗?”
赵文渊知道接下来的话题,应该跟这个签好的文件有关,他从手机里找出了副本。
“你说的是哪个条款?”
“就是关于数据保护的那条,股权条款的附加保护机制。”
赵文渊翻过去看了看原文的条款:
---
【股权条款-附加保护机制】
若投资方及其关联方未能证明已对公司提供之数据尽合理保管义务,且发生超出本协议授权范围之使用、转移、备份、采样或衍生使用,视为触发本条款。
一旦触发,公司有权: