并行框架FlagScale v1.0:构建多框架多芯片插件体系,目标是实现 “一次开发、跨芯片运行、多框架支持”,将复杂的“M x N”适配问题,降维为“M + N”。算子自动生成平台KernelGen 1.0:作为全球首个多芯片Triton算子自动生成平台,实现了算子从生成到跨芯片适配的全生命周期自动化,普通算子开发仅需2分钟,极大加速了算子生态的共建效率。编译器FlagTree v0.4:通过分层设计平衡易用性与性能,支持多种AI芯片,使关键算子的性能可提升20%以上。
编译器的生态兼容与AI赋能:华为通过开放AscendNPU IR接口,利用MLIR技术构建连接编程语言与硬件的通道,其毕昇编译器同样致力于实现 “一次编写,多芯运行”。更前沿的探索是利用AI本身来赋能编译器开发,中科院计算所等团队研究的“AI for Compiler”,旨在利用大模型和自动化工具链加速编译器后端的生成与优化,为快速构建芯片生态提供“智能引擎”。