特别是在昇腾集群上的验证和部署过程中,团队在算子融合方面取得了显著成果。通过MLA预处理阶段的Vector与Cube异构计算单元并行流水,以及将多个小算子融合重构为原子级计算单元,团队成功消除了小算子下发的开销,MLA前处理时延降低了50%以上,性能得到了 ...