,再做性能优化。”
回车。
智能体又开始勤勤恳恳的劳动了。
五分钟后,一个大大的绿色pass出现在屏幕上。
赵文渊在旁边眼珠子都快要瞪出来了。
“不是……这怎么回事?”
他不顾韩路一还坐在电脑前,把头凑到屏幕前面,把测试报告从头到尾看了一遍。
精度误差:23e-6,远低于1e-5的要求。
性能:n卡实现的83。
不是70,是83。
赵文渊又把生成的代码拉出来,逐行看了一遍。
他越看越沉默。
这段代码根本不是那种“能跑就行”的粗糙实现:softax用的是三阶段onlealgorith,reduce的展开策略干净利落,sharedory的使用几乎没有浪费。
这是一个对底层硬件有深刻理解的人才能写出来的东西。
不,准确地说,是一个对底层硬件有深刻理解的人,才能指导ai写出来的东西。
赵文渊转过头,看着韩路一。
“韩总,你第二次输入的那些提示词——softax三阶段、tile64x64、4-stride展开——你怎么知道的?”
韩路一靠在椅背上:“我看了文档。”
“我去,原来你看了文档啊,不早说。”赵文渊先开了个玩笑,然后声音突然拔高了,“我也看了两天文档,跑了十几个测试,我都没找到这个tile尺寸,你看了几分钟就看出来了?”
韩路一没有回答,只是笑了笑。
赵文渊盯着他看了好一会儿,最后像是泄了气一样靠回椅子上。
“行吧。”他说,“我不问了。”
他之前不是没想过用ai来做这些工作,但是ai根本做不了。每次跑出来的结果,不是卡死,就是偏差太大。
怎么韩路一一上手就好用了?
赵文渊现在只想火速删掉发给韩路一的那个共享文档的标题。
韩路一在他眼前,把他觉得不可能的事情做出来了。
如果这个不是偶然呢?
如果scaled_dot_product_attention可以这样做,那其他算子呢?
什么暂无可行性啊?
什么叫“别想了,没戏”啊?
这不是有戏了吗?
他