配:一个单算子的案例研究)
作者只有一个名字,wenyuanz。
江松然在脑子里把这个名字过了一遍,没什么印象。
他本来想直接划走。
非cuda适配这种东西arxiv上一搜一大把,大多是国产芯片厂出钱让自家工程师挂名做的样子工程,没什么真东西。
但他还是点开了。
因为是单作者。
非cuda适配这种活儿,正常挂名至少四五个:硬件厂的人挂、软件团队挂、算法挂、做评测的挂。
单作者意味着两种可能,要么是没团队,要么是作者把所有人都压下去了,只给自己署名。
这两种可能都挺有意思的,值得看看这篇论文。
pdf加载出来。
摘要的第一句话是:
“本文报告了一款国产的非cuda加速器上内存高效注意力机制的端到端实现:在单节点8卡配置下,吞吐达到对应cudnn参考实现的83,数值误差在23e-6以内。”
江松然把屏幕字体调大一点,接着往下翻。
背景写得简洁,没注水。
实现那一节贴了具体的优化方法和代码片段,不是泛泛而谈。
评估那一节有完整的对照、不同上下文长度下的吞吐曲线、还把每一项优化的贡献单独拆出来量化。这些是做评估的人最容易偷懒的几个地方,他都没偷懒。
最让江松然多看了两遍的,还是局限性那一节。
作者自己写道:“本工作只完成了单算子(sdpa),没涉及yernor、softax、各类optiizer等数十个其他算子;没涉及多卡通信库;也没涉及训练场景下的反向传播与混合精度,不构成一套可用的训练栈。”
非常诚实,不像是来刷脸的。
他又翻上去,看了一下团队,sourcetelligenceai。
是个没听过的公司。
江松然往后靠在折叠椅上,把眼睛揉了揉。
国内居然还真有人在做这种事。
这种吃力不讨好的事。
做出来发不了顶会,打不响知名度,也融不到资金,做的时候也没人知道你在做什么、做的有多难。
最关键是,因为其他的配套都没有,单做一个出来也是真没什么用。
这种活儿他熟,谷歌tpu团队的前两年就是这么熬出来的。