汤圆模型国产算力适配路线图》
然后赵文渊一下飞机,连家都没回,直接拖着行李箱去了办公室。
他接了一杯咖啡放在桌上,打开电脑,挽起袖子,就准备扯断套在国产显卡上的生态枷锁。
结果,赵文渊一头撞在了墙上。
不,甚至不能说是一堵墙
那简直是一座山。
cuda生态困境,这个当年在谷歌折磨他的噩梦,这次又以更可怕的姿态出现了。
在普通人眼里,显卡就是显卡,国外显卡能算,国产显卡也能算,无非就是性能高点或者低点。
但对做ai大模型的人来说,显卡可不是一块单独的硬件,它背后是一整套生态。
最底层是驱动,驱动之上是运行时,运行时之上是编程模型,编程模型之上是算子库、通信库、编译器、调试器、性能分析工具。
再往上,才是pytorch、tensorflow、jax这些训练框架。
而大模型训练,又站在这些框架之上,调用各种高度优化过的算子和分布式训练能力。
英伟达的cuda生态就像是一座已经修建了十几年的超级城市,水电消防医院等等基础设施都已经运转了好多年了。
而训练大模型就像在这个城市里举办一场大型的体育赛事。
数十万的游客涌进来,对整个城市的承载能力都是巨大的考验。但因为是超级城市,所以在精心调度之下,还能做的到。
而换成别的生态呢?你在大城市旁边的小镇,说我能不能也开个世界杯啊?
当然可以试试,但这不是叫两个足球队过来踢球那么简单,这个小镇从地下管网到商业生态都得重建一遍,等到它也成了超级城市了,就可以了。
更要命的是,全世界的人都已经习惯了这个老城市的规矩了。他们写代码的时候默认cuda可以调用,默认用的是英伟达的显卡,论文上说的也都是在英伟达上才能跑通的用例。
不用英伟达?那你自己试试吧。
本来能跑的代码,把cuda的依赖删掉,一下冒出一千个错误来,修完了第一个错误,又冒出一千个来。
模型能跑,不代表能跑的快;小模型能跑,不代表大模型能跑;单卡能跑,不代表多卡能跑;多卡能跑,不代表千卡集群能稳定训练几十天。
而大模型最可怕的地方就在这里,它不是“能跑”就算成功,它还必须稳定、必须高效、必须