# 前言

本文介绍 FlashAttention。本文只关注 FlashAttention 前向推理部分的应用。

参考链接：Transformer 模型详解（图解最完整版）， Attention is All You Need，Pytorch 版本的 Transformer 实现、一文了解 Transformer 全貌（图解 Transformer）、大模型推理加速：看图学 KV Cache、手撕大模型｜KVCache 原理及代码解析、FlashAttention 详解：为什么它能让大模型注意力计算又快又省显存？、Flash Attention 原理详解 (含代码讲解)、【手撕 LLM-Flash Attention】从 softmax 说起，保姆级超长文！！、《The Two-Pass Softmax Algorithm》

# 动机

Online Softmax 是 flash attention 的基础，可以提前学习了解下 Online Softmax ：【LLM 推理加速】Online Softmax。
Flash Attention 的核心思想：分块 Tiling。

LLM 的 Attention 计算过程包含巨大的矩阵运算和 softmax，需要存储巨大的注意力矩阵，必然会导致 GPU 显存和 SRAM 之间的频繁数据交换。

存储差异性

上图左边，GPU 中存储是分层的，越往上层速度越快。GPU 显存以 GB 为单位，如 A100 显存 40GB，其速度只有 1.5T/s。而 SRAM 读写速度为 19TB/s，比 HBM 高一个数量级，但是空间只有 20M。GPU 需要将数据拷贝到 SRAM 才能进行运算，因此 HBM 和 SRAM 之间的数据传输成为吞吐量瓶颈。

在没 flash attention 算法的情况下，标准 Attention 会强制生成完整 N×N 注意力分数矩阵，中间张量反复「HBM 写入→再从 HBM 读出」。比如从 HBM 读取整块 Q、整块 K 到 SRAM，计算得到结果 S，需要写回 HBM；再读取 S，计算缩放和掩码 Smask，再写回到 HBM；再之后还需要计算 softmax。

上图右边，pytorch 实现的传统 attention，每一步都需要读写 HBM，效果要比 flash 差的多。

怎么解决呢，就是切块 Tiling。

但 attention 计算中，softmax 涉及到全局求和，为什么能切块呢？

flash attention 算法就是解决这个问题的。

总之，FlashAttention 是一种 IO-aware 的精确注意力计算算法，它通过分块计算和 online Softmax，避免显式存储巨大的注意力矩阵，从而大幅减少 GPU 显存读写。