第一百九十一章分成两段的人生_首富从AI浪潮开始

配：一个单算子的案例研究）

作者只有一个名字，wenyuanz。

江松然在脑子里把这个名字过了一遍，没什么印象。

他本来想直接划走。

非cuda适配这种东西arxiv上一搜一大把，大多是国产芯片厂出钱让自家工程师挂名做的样子工程，没什么真东西。

但他还是点开了。

因为是单作者。

非cuda适配这种活儿，正常挂名至少四五个：硬件厂的人挂、软件团队挂、算法挂、做评测的挂。

单作者意味着两种可能，要么是没团队，要么是作者把所有人都压下去了，只给自己署名。

这两种可能都挺有意思的，值得看看这篇论文。

pdf加载出来。

摘要的第一句话是：

“本文报告了一款国产的非cuda加速器上内存高效注意力机制的端到端实现：在单节点8卡配置下，吞吐达到对应cudnn参考实现的83，数值误差在23e-6以内。”

江松然把屏幕字体调大一点，接着往下翻。

背景写得简洁，没注水。

实现那一节贴了具体的优化方法和代码片段，不是泛泛而谈。

评估那一节有完整的对照、不同上下文长度下的吞吐曲线、还把每一项优化的贡献单独拆出来量化。这些是做评估的人最容易偷懒的几个地方，他都没偷懒。

最让江松然多看了两遍的，还是局限性那一节。

作者自己写道：“本工作只完成了单算子（sdpa），没涉及yernor、softax、各类optiizer等数十个其他算子；没涉及多卡通信库；也没涉及训练场景下的反向传播与混合精度，不构成一套可用的训练栈。”

非常诚实，不像是来刷脸的。

他又翻上去，看了一下团队，sourcetelligenceai。

是个没听过的公司。

江松然往后靠在折叠椅上，把眼睛揉了揉。

国内居然还真有人在做这种事。

这种吃力不讨好的事。

做出来发不了顶会，打不响知名度，也融不到资金，做的时候也没人知道你在做什么、做的有多难。

最关键是，因为其他的配套都没有，单做一个出来也是真没什么用。

这种活儿他熟，谷歌tpu团队的前两年就是这么熬出来的。

第一百九十一章 分成两段的人生（4 / 5）