英伟达AVO自主进化7天,注意力内核性能超越人类专家

英伟达提出智能体式变异算子AVO,用自主编码智能体替代传统进化搜索中的人工设计方法,在Blackwell B200 GPU上连续自主运行7天无需人工干预;AVO生成的注意力内核在BF16精度下达1668 TFLOPS,超越英伟达官方cuDNN最高3.5%,超越FlashAttention-4最高10.5%;该优化可迁移至分组查询注意力,仅需30分钟自主适配即获显著性能提升,研究者称”盲编程是软件工程的未来”。

搜索