第二百六十八章得一可安天下_首富从AI浪潮开始

，这些新存入硬盘的二进制文件就会被加载到内存中，被服务器集群使用。

控制台的终端开始滚动日志。

l100backenddetected（检测到l100后台）

runtiitialized（运行时已初始化）

kernelfionenabled（算子融合已启用）

orypnneritialized（显存规划已初始化）

ulti-cardschedulerready（多卡调度准备就绪）

服务加载完成。

21b模型开始进入运行状态。

薛兆恒的呼吸微微有些急促。

他没有去手动输入问题，看模型的回复。

模型回复什么，是做模型的人该考虑的问题。

他只需要考虑硬件的性能和利用效率。

服务器里有硅明平时用来测试的脚本，可以大量生成模型输入，对模型的承载能力进行压测。

薛兆恒没有犹豫，开始运行测试脚本。

监控上的数值开始发生变化。

最先跳动的是显存利用率。

之前跑开源小模型，硅明自己的算子库连显存都分配不好，七成的显存白白空在那里。

现在这个数字远远超过了30。

75……82……88……

最后差不多稳定在了95的位置。

压测脚本在没有检测到回灌压力之前，还在加大并发。

现在实时的吞吐量数字已经达到了二十五万词元/秒。

薛兆恒知道，同样的测试，上一次跑的时候卡在两万就上不去了。

在算力芯片上，真正能衡量软件水平的是一个关键指标，叫模型算力利用率（odelfloputilization，fu）。但是这个指标没有直接显示在面板上，因为要计算它需要使用芯片算力的极限值。

如果理论上芯片能跑1000tflops，你的模型实际只用到了200tflops，那fu就是20。

跑21b模型，每生成一个词元需要2x21b，即大概42gflops。

二十五万词元每秒对应250000x42gflops=10500tflops。

l100的理论算力是600tflops，32卡集群就是32x600=19200tflops。

第二百六十八章 得一可安天下（4 / 6）