书香阁 > 科幻灵异 > 首富从AI浪潮开始 > 第一百八十三章 这不是有戏了吗?

第一百八十三章 这不是有戏了吗?(4 / 6)

cuda算子翻译成国产卡ir实现。要求精度误差小于1e-5,性能不低于n卡实现的70。下面三份文档作为上下文。”

然后把浏览器里的链接地址都打了进去。

很快ai智能体开始自己分解任务、解决任务,最后汇总。

三分钟后,第一版结果出来了。性能接近68,但精度偏差太大了。

一个大大的红色fail显示在屏幕上。

赵文渊在旁边松了一口气。

这才正常嘛。

他对韩路一说:“韩总你看,这就是我说的难点,做不过来——”

韩路一没有回应赵文渊。

他重新打开cuda的源代码,开了视界。

普通人看代码,看到的是字符。赵文渊看代码,看到的是逻辑。

但视界让韩路一看到的是另一层东西,不只是代码在做什么,还有代码为什么这样做。

每一个设计选择背后的权衡,都像批注一样浮现在代码旁边。

为什么softax没有用最直觉的实现方式,而是拆成了三个阶段?因为直觉实现在长序列上会有数值溢出。

为什么矩阵乘的分块是这个尺寸,不大也不小?因为再大sharedory放不下,再小会产生内存冲突。

这些东西没有写在任何文档里。它们是英伟达的工程师经过无数次实验之后沉淀下来的经验,藏在代码的结构里,只有真正理解硬件的人才能读出来。

赵文渊不是读不懂代码,他只是没办法在几天之内,就把别人几年的工程经验全部提炼出来。

但是视界可以,韩路一可以。

韩路一关掉第一版的提示词,重新输入。

这一次,他没有让智能体自由发挥。

而是把视界看到的东西直接输入进去。

“softax必须使用onlealgorith三阶段,不要使用naivesoftax。当前精度问题出在第二阶段reduce,局部最大值和指数和更新顺序要保持一致。”

“矩阵乘tile使用64x64,tile过大sharedory不够,过小会增加banknflict。”

“reduce时按4-stride展开,避免banknflict。”

“k/v矩阵按row-ajor缓存在sharedory,避免跨bank连续冲突。”

“先保证精度

最新小说: 我是如何当神豪的最新章节 国潮1980最新章节 国潮1980镶黄旗 开局签到荒古圣体全文免费阅读 重生之狂暴火法最新章节 重生之狂暴火法全文免费阅读 盖世双谐最新章节 外科教父海与夏 白骨大圣全文免费阅读 阴阳石最新章节