,这些新存入硬盘的二进制文件就会被加载到内存中,被服务器集群使用。
控制台的终端开始滚动日志。
l100backenddetected(检测到l100后台)
runtiitialized(运行时已初始化)
kernelfionenabled(算子融合已启用)
orypnneritialized(显存规划已初始化)
ulti-cardschedulerready(多卡调度准备就绪)
服务加载完成。
21b模型开始进入运行状态。
薛兆恒的呼吸微微有些急促。
他没有去手动输入问题,看模型的回复。
模型回复什么,是做模型的人该考虑的问题。
他只需要考虑硬件的性能和利用效率。
服务器里有硅明平时用来测试的脚本,可以大量生成模型输入,对模型的承载能力进行压测。
薛兆恒没有犹豫,开始运行测试脚本。
监控上的数值开始发生变化。
最先跳动的是显存利用率。
之前跑开源小模型,硅明自己的算子库连显存都分配不好,七成的显存白白空在那里。
现在这个数字远远超过了30。
75……82……88……
最后差不多稳定在了95的位置。
压测脚本在没有检测到回灌压力之前,还在加大并发。
现在实时的吞吐量数字已经达到了二十五万词元/秒。
薛兆恒知道,同样的测试,上一次跑的时候卡在两万就上不去了。
在算力芯片上,真正能衡量软件水平的是一个关键指标,叫模型算力利用率(odelfloputilization,fu)。但是这个指标没有直接显示在面板上,因为要计算它需要使用芯片算力的极限值。
如果理论上芯片能跑1000tflops,你的模型实际只用到了200tflops,那fu就是20。
跑21b模型,每生成一个词元需要2x21b,即大概42gflops。
二十五万词元每秒对应250000x42gflops=10500tflops。
l100的理论算力是600tflops,32卡集群就是32x600=19200tflops。