比较维度 | FireAttention | FlashAttention |
开发者 | Fireworks AI | Stanford Hazy Research 团队 |
初始发布时间 | 2024 初 | 2022(v1),v3 发布于 2024 |
设计目标 | 超高吞吐 & 多精度推理优化,专注于大模型服务场景 | 通用型高效注意力内核,适用于训练和推理 |
优化方向 | 专为推理优化(特别是 MoE/MQA),支持 FP8/FP4 | 训练与推理通用优化,面向长序列 & 更大 batch |
性能指标(推理) | 最多 4× vLLM,FP8/FP4 显著提速(可达 250+ token/s) | 约 1.3–1.5× 吞吐提升(v3);更节省内存 |
精度支持 | FP16 / FP8 / FP4(V4 支持 Blackwell) | FP16 / BF16,v3 有 FP8 支持(实验中) |
MQA / MoE 支持 | 强(如 Mixtral) | v3 开始支持,尚未深度集成于推理堆栈 |
KV Cache 优化 | 高度优化,支持 token streaming 和动态 batch | v3 开始支持,仍以训练为主 |
芯片兼容性 | NVIDIA H100 / B200 / AMD MI300 | NVIDIA A100 / H100 等 |
应用平台/产品化 | 已应用于 Fireworks 全平台,服务 Quora Poe 等 | 多用于 Hugging Face、OpenAI 微调、训练等 |