帮助到了很多人。
现在市面上的大模型,做通用场景的,有一个算一个,训练语料里一定包含oncrawl,无非是有的多些有的少些。
但是oncrawl的问题是,它基本没有清洗,里面有互联网上各种各样的原始信息。
就拿中文互联网来说吧,上面最多的内容是什么?知识干货?生活小常识?人生感悟?感人的文学作品?
错了,是垃圾,各种各样的垃圾。
菠菜广告,瑟瑟广告,为了优化搜索结果的重复关键词堆砌。
如果把这些东西当原料直接去制作大模型,你可以期待会看到这样的场景。
你问它:“什么是大模型预训练?”
它回答:“近来大家都对大模型预训练很感兴趣,那么大模型预训练到底是什么呢?小编带大家看一看,看完真的惊呆了!到底该如何评价这件事情?欢迎在评论区留下你的看法!”
所以原料在用之前,先要经过复杂的清洗,这个也不是人工进行的,一般会用传统的基于规则的数据管线筛掉完全无用或有害的信息,然后在剩余的信息中进行去掉语意重复的内容。
对于怎么做,韩路一暂时还没头绪,但是没关系。
晚上问问视哥怎么看。
想到这,他拿出手机看了看时间,已经快六点了。
晚上【404寝室】又约了饭,是张浩然组织的。
本来周末就想约,但是韩路一为了和苏念念准备今天的董事会会议,拖到了今天。
张彪去机场还没回来,韩路一没去坐地铁,奢侈了一把,自己叫了个车。
张浩然订的是一家烤鱼店,比他们的老地方烧烤摊档次高了不少,包厢门口挂了个实木牌子,写着「贵宾席」。
韩路一到的时候,张浩然已经坐在里面了。
两人正打着招呼,马小飞也走了进来,手里举着他的大疆osopocket4p,一边进门一边说:
“这个必须发,从烧烤摊到贵宾席,这是咱们寝室的成长纪录片。”
“你就不能进来先坐下?”张浩然说。
“艺术家需要随时记录,你不懂。”
“什么时候干自媒体也成艺术了。”张浩然吐槽。
“大概是抽象艺术吧。”韩路一补刀。
“笑吧笑吧,我上个月刚过二十万粉了。”马小飞不服气地说。
“二十万?”张浩然有点意外,“上