华人团队实现AI自动寻优,矩阵乘法核心首超CUDA闭源库
“矩阵乘法是 CUDA 生态最核心的护城河之一。而我们打造的 CUDA-L2 在大规模、系统性的评测中,超越英伟达针对该核心算子的闭源优化方案。我们不仅实现了超越,而且将方法开源,这对于打破技术壁垒具有标志性意义。”DeepReinforce 公司工程师苏松乔告诉 DeepTech。 近日,苏松乔和合作者打造出一款名为 CUDA-L2 的智能系统,通过结合 AI 模型和强化学习,成功造出能以极高速度在 GPU 上运行的矩阵乘法核心程序。CUDA-L2 能够自动搜索成千上万种可能的程序编写方式,