来训练自己的模型吗?就算是没有资源从头做起,拿市面上的开源基座模型去做微调,也能做出很惊人的成果吧。
怎么一点儿动静都没有呢?
有了这一点儿不对之后,刘大海又去仔细看了这些共享过来的标注数据。
更觉得不对了。
他一条一条的翻过去。
质量高吗?高。
逻辑链条严密吗?严密。
但是刘大海越看,眉头皱的越紧。
旁边一个组员路过,看到他的神情,忍不住问了一句:“刘博士,怎么了?我看着结果超出预期的好啊,您脸色怎么这么难看?”
其实这个组员自己也是个博士,能在大模型组里工作的,不是博士反而比较奇怪。
但是至少在这个组,能叫刘博士的,就只有刘大海,其他人都是直接名字相称。
这自然是因为刘大海的地位最高,鼎盛人工智能首席科学家。
刘大海看了看组员,指着屏幕上的一条标注问他:“你看这个,觉得怎么样?”
组员一头雾水,看了看,说:“挺好的啊。”
刘大海又指着另一条,问:“那你看这个呢?”
组员仔细地读了一遍,又说:“这个也挺好的……吧?”
他已经被刘大海问的有点儿不自信了。
刘大海接着问:“那你看这两条标注,有什么共同点?”
组员想了想,然后试探地说:“质量高?”
刘大海一愣,这倒是说对了,但是明显是没用的信息:“你不觉得,这些标注的语义里,对数据合规的引导太重了?”
啊?组员愣了愣,标注数据引导的是模型的行为模式,或者说,人格。
对合规有要求是很正常的吧,对齐训练不就是干这个的吗?
组员看着刘大海的样子,觉得他有点儿杞人忧天。
这批标注的质量是高,高得惊人。
你要是出去跟别人说,我现在有一批高质量的标注数据,质量太高了,还包含了合规引导。
那不会被当成是抱怨,只会被当成是炫耀。
欠打的那种炫耀。
要知道,鼎盛研究院做大模型的几个组,这段时间最苦恼的就是没有足够的高质量标注数据。
不管是外面外包的标注团队,还是鼎盛内部的标注团队,量是有的,但是质量就一眼难进,有的时候把标注加进去,模型的能力和理解力反