模型表现倒推,他们的标注精度恐怕是我从业这些年能想象到的最高水平。不是高一点,是高整整一个量级。”
办公室又安静了。
郑晓波的手指在扶手上轻轻敲了两下。
“那他的数据,会是从哪来的?”
这个问题一出来,刘大海和程远同时看向他。
郑晓波的表情没有变化。
刘大海先开口了:
“郑总,我先给您算一笔账,搂一搂。现在行业里最顶级的标注服务,scaleai的专家级标注,一条大概七八十美金。但那种精度和汤圆的数据比起来,肯定还差了一截。如果按汤圆这个精度去买,市场上根本没有这个服务,硬要估价的话,一条怎么也得一百美金往上。他们说的是不到一万条数据,就算一万条,光数据成本就是一百万美金。”
“这种精度的标注不可能是一两个人手工做的。要么有专业的标注团队,要么有独家数据源,要么是和哪个大型研究机构合作。”
郑晓波看向程远,下了命令:
“让商务情报团队去查,源码科技的工商变更、公开的合作披露,看看他们最近半年有没有和标注公司或数据机构打过交道。再查查他们的招聘岗位,有没有招过标注相关的人。”
程远点头,在文件夹内页空白处快速记了几笔。
“找到他的数据供应商,”郑晓波说,“直接挖过来。”
刘大海补了一句:“如果能找到标注规范文档,那比数据本身还值钱。有了规范至少知道方向在哪,咱们可以试试自己做。”
郑晓波看了他一眼,微微点了点头。
“第二件事,”他的视线回到程远身上,“算力合作可以先谈着。”
程远抬头,好像自己没想通:“谈合作。”
“但是有条件。合作框架里必须包含一条——共享训练数据。”
“如果韩路一不同意呢?”程远问。
“先谈着,但别把姿态摆太高。”郑晓波的声音中气很足,“算力他能找别人要,这个数据我们暂时还找不到第二家。”
“等找到他的供应商,就不用谈了。”
程远露出恍然大悟的神色,赶紧把这句话也记下了。
刘大海在旁边全程看着,觉得这俩人聊天跟演双簧似的。这拍马屁的功夫,比机器学习还难学哦。
郑晓波把转椅一转,面向落地窗。
黄浦江在下面拐了个弯,对岸的写