书香阁 > 科幻灵异 > 首富从AI浪潮开始 > 第一百八十四章 处理过了,干净

第一百八十四章 处理过了,干净(1 / 4)

周一上午十点,鼎盛大厦三十二层。

张弛的办公室朝南,晴天的时候能看到陆家嘴的轮廓。今天有雾,窗外是一片均匀的灰白。

刘亚光进来的时候,张弛正在看一份周报,头没抬:“说。”

“源码那边对接上了。”刘亚光在沙发上坐下来,声音压得很低,“他们往算力集群里送的数据,我们这边实时能拿到副本。”

张弛放下手机,看了他一眼:“现在进来的是什么?”

“预训练的数据。”刘亚光说,“就是洗过的语料。”

张弛皱了一下眉:“洗过的语料是什么意思?他们模型意图理解很强,是用的这个数据吗?”

刘亚光正了正身子,同时摇摇头:“训练大模型不是一步到位的。”

他停顿了一下,思考该怎么说:“我给您解释一下,这分几个阶段。第一步叫预训练。这个阶段喂给模型的是海量的原始文本——网页、书籍、论文、论坛帖子,来源越杂越好,量越大越好,好一点的模型这个阶段要喂几万亿个词。模型在这个阶段做的事很简单,就是反复猜下一个词是什么。给它看「今天天气」,它猜「很好」;给它看「深度学习的本质是」,它猜「优化」。猜对了往前走,猜错了调参数,反复几千亿次,模型就慢慢学会了语言的规律,学会了世界上大量的知识和常识。”

张弛点点头。

刘亚光继续说道:“这个阶段的数据不需要人工标注,有什么文本就喂什么,但要先洗——把乱码、重复内容、低质量的垃圾过滤掉,不然模型学了一堆噪声,反而有害。洗数据这个活听起来简单,但洗得好不好,直接影响预训练出来的模型底子有多扎实。”

“那第二步呢?”

“第二步才是让模型真正聪明起来。”刘亚光说,“要让它理解人的意图,知道同样一句话背后用户真正想要什么,这需要另一批数据,那些专门标注过的,一条一条告诉模型「这个场景下正确答案是这个」。这批数据量小很多,但每一条都要人工判断,很难批量生产。按照您之前告诉我的,源码的模型之所以意图理解强,核心就是这批标注数据。”

张弛听完总结道:“他们现在进来的是第一步的数据,但我们真正想要的是第二步的那批。”

“对。”刘亚光肯定道。

张弛看向窗外思考了几秒,又问:“技术上能确认,他们往云上送的数据,我们全都能拿到?”

“应该能的。”刘亚光说,“只要

最新小说: 开局签到荒古圣体全文免费阅读 重生之狂暴火法全文免费阅读 阴阳石最新章节 我是如何当神豪的最新章节 国潮1980镶黄旗 外科教父海与夏 盖世双谐最新章节 重生之狂暴火法最新章节 国潮1980最新章节 白骨大圣全文免费阅读