第二百二十二章这个数据不太对_首富从AI浪潮开始

来训练自己的模型吗？就算是没有资源从头做起，拿市面上的开源基座模型去做微调，也能做出很惊人的成果吧。

怎么一点儿动静都没有呢？

有了这一点儿不对之后，刘大海又去仔细看了这些共享过来的标注数据。

更觉得不对了。

他一条一条的翻过去。

质量高吗？高。

逻辑链条严密吗？严密。

但是刘大海越看，眉头皱的越紧。

旁边一个组员路过，看到他的神情，忍不住问了一句：“刘博士，怎么了？我看着结果超出预期的好啊，您脸色怎么这么难看？”

其实这个组员自己也是个博士，能在大模型组里工作的，不是博士反而比较奇怪。

但是至少在这个组，能叫刘博士的，就只有刘大海，其他人都是直接名字相称。

这自然是因为刘大海的地位最高，鼎盛人工智能首席科学家。

刘大海看了看组员，指着屏幕上的一条标注问他：“你看这个，觉得怎么样？”

组员一头雾水，看了看，说：“挺好的啊。”

刘大海又指着另一条，问：“那你看这个呢？”

组员仔细地读了一遍，又说：“这个也挺好的……吧？”

他已经被刘大海问的有点儿不自信了。

刘大海接着问：“那你看这两条标注，有什么共同点？”

组员想了想，然后试探地说：“质量高？”

刘大海一愣，这倒是说对了，但是明显是没用的信息：“你不觉得，这些标注的语义里，对数据合规的引导太重了？”

啊？组员愣了愣，标注数据引导的是模型的行为模式，或者说，人格。

对合规有要求是很正常的吧，对齐训练不就是干这个的吗？

组员看着刘大海的样子，觉得他有点儿杞人忧天。

这批标注的质量是高，高得惊人。

你要是出去跟别人说，我现在有一批高质量的标注数据，质量太高了，还包含了合规引导。

那不会被当成是抱怨，只会被当成是炫耀。

欠打的那种炫耀。

要知道，鼎盛研究院做大模型的几个组，这段时间最苦恼的就是没有足够的高质量标注数据。

不管是外面外包的标注团队，还是鼎盛内部的标注团队，量是有的，但是质量就一眼难进，有的时候把标注加进去，模型的能力和理解力反

第二百二十二章 这个数据不太对（2 / 6）