视界打开的瞬间,屏幕上正在滚动的日志变得不一样了。
每一条经过清洗管线的数据,在韩路一眼中都浮现出一层薄薄的色彩。
干净的、有信息量的数据泛着淡蓝色的光,像水流一样顺畅地通过管线;被规则正确拦截的垃圾数据是灰色的,在某个节点处被清理出去,不再被下面的环节处理;而那些有问题却没被拦住的数据,发着刺眼的橙红色,混在蓝色的水流中间,格外扎眼。
韩路一还注意到另一种颜色,偶尔有几条数据闪着暗蓝,但在灰色数据中格外显眼,它们被规则误判为垃圾扔了出去,但其实是有价值的内容。
就像站在流水线旁边,别人只能看到传送带上的产品在动,而韩路一的眼睛能给每一个产品,甚至每一条传送带本身做质检。
韩路一盯着屏幕看了大概十分钟,先从最明显的橙红色开始分析,逐渐摸清了规律。
主要是三个问题。
最多的是纯垃圾没有清干净。菠菜广告、瑟瑟引流、关键词堆砌,这些最低级的垃圾,现有的规则只做了关键词匹配,但变体太多了。
用谐音字、用eoji替代、把敏感词拆成两段分别塞进前后文里,简单的正则表达式根本防不住。视界里这类数据发着最亮的橙红色,数量不少。
然后是语义重复。两段话用词完全不同,但表达的意思几乎一样,基于关键词和格式的规则识别不了。
最后一个最隐蔽,是低质量内容的伪装。有些内容的格式、长度、关键词分布都符合优质内容的特征,但实际上是洗稿或者机器生成的填充物,里面的内容好多有事实性错误。
这三个加在一起,占了所有数据的将近七成。
韩路一退出视界,开始改脚本。
用传统的垃圾分类规则,想要全涵盖工程量很大,韩路一直接换了个思路。
汤圆的模型不是还在吗,直接把数据发给汤圆做个检测,意图识别。别管你是怎么变体、怎么拆字、怎么用eoji,只要最后是“引导点击”或者“诱导付费”的内容,一律会被标出来。
同样的,用汤圆给数据做精简化处理,再合并就简单多了。
最后一个识别伪装内容稍微难了一点,但是难不倒视界,在视界的提示下,韩路一加了一层基于困惑度的筛选。
真正有信息量的文本,语言模型预测下一个词的不确定性会更高;而那些洗稿和填充内容,因为套路化严重,困惑度反而很低。