暮冬Z羡慕的博客 = Пусть этот камень будет более крепким, чем человек = 神经网络推理、加速、AI编译。我必须立刻开始挣扎！

Sticky Posts

2024-05-244.9kwords4 mins.

博客汇总目录

# 暮冬 Z 羡慕的博客文章汇总 # 加速算法【Im2Col】卷积加速算法【1】 NCHW 【Im2Col】卷积加速算法【2】NHWC 【im2col】AScend conv accelerate 【Winograd】卷积加速算法原理及实现【gemm】Gemm 计算加速【gemm】内存对齐【Halide】调度优化【1】【Halide】调度优化【2】【conv 加速】NVDLA 卷积加速算法 # AI 推理引擎【推理引擎】常见推理引擎【推理引擎】NCNN 和 Tengine 量化推理逻辑对比【量化】连续卷积层首尾量化的可

more...

Post List

2026-05-042.9kwords3 mins.

【LLM推理加速】FlashAttention

# 前言本文介绍 FlashAttention。本文只关注 FlashAttention 前向推理部分的应用。参考链接：Transformer 模型详解（图解最完整版）， Attention is All You Need，Pytorch 版本的 Transformer 实现、一文了解 Transformer 全貌（图解 Transformer）、大模型推理加速：看图学 KV Cache、手撕大模型｜KVCache 原理及代码解析、FlashAttention 详解：为什么它能让大模型注意力计算又快又省显存？、Flash Attention 原理详解 (含代码讲解)、【手撕 LLM-Fl

more...

2026-05-015.1kwords5 mins.

【LLM推理加速】PagedAttention

# 前言本文介绍 VLLM 的 PagedAttention。参考链接：Transformer 模型详解（图解最完整版）， Attention is All You Need，Pytorch 版本的 Transformer 实现、一文了解 Transformer 全貌（图解 Transformer）、大模型推理加速：看图学 KV Cache、手撕大模型｜KVCache 原理及代码解析、PagedAttention 论文解读、论文《Efficient Memory Management for Large Language Model Serving with PagedAttention

more...

2026-05-014.3kwords4 mins.

【LLM推理加速】Online Softmax

# 前言本文介绍 VLLM 的 Online Softmax。本文大部分内容来自于【手撕 LLM-Flash Attention】从 softmax 说起，保姆级超长文！！。参考链接：Transformer 模型详解（图解最完整版）， Attention is All You Need，Pytorch 版本的 Transformer 实现、一文了解 Transformer 全貌（图解 Transformer）、大模型推理加速：看图学 KV Cache、手撕大模型｜KVCache 原理及代码解析、FlashAttention 深度解析：从数学原理到工程实现、Flash Attenti

more...

2026-04-266.6kwords6 mins.

LLM基础知识【1】

# 前言本文罗列一些大模型、Transformer 相关的基础知识。可能会有误解和疏漏，谨慎参考。 # 什么是动态图什么是计算图：由「算子节点 + 张量边」组成的 DAG 有向无环图，记录：数据怎么走、谁加谁、谁乘谁、谁做归一化什么是静态图：我们通常把 onnx、TensorRT network IR 等看作静态图。先把整个网络结构完整定义、固化、序列化成一张固定的图，图是永久存在的文件 / 结构体（ONNX 文件、TRT Network IR），图一旦生成，运行中不能随便改分支、不能改循环次数，我们拿这张固定的图跑数据。什么是动态图：每次前向推理之前，才临时构建计算

more...

2026-04-1913kwords11 mins.

Transformer模型

# 前言学习大模型，首先得学习 Transformer。Transformer 由论文《Attention is All You Need》提出，现在已经是大模型的基础。本文介绍 Transformer 模型的结构。 Transformer 太火了，网上能够找到足够多的图和介绍文章，所以本文文章出现的图均来自论文和网络，非本人所画。参考链接：Transformer 模型详解（图解最完整版）， Attention is All You Need，Pytorch 版本的 Transformer 实现、一文了解 Transformer 全貌（图解 Transformer） # Transfor

more...

2026-03-155.2kwords5 mins.

【AI编译】LayerGroup Tiling Tile的疑惑和思考

# 前言 NPU 的设计相对封闭，从市面上先进的 NPU 芯片和其工具链，乃至开发文档中，我只能学习到大方向的设计思路。这远远不够：1. 资料有限，有可能在大方向理解上出现偏差，这导致整个流程相当多的地方走不通或难度过大； 2. 细节上需要经验来自行领悟，细节不通也无法下手。一些开源的项目，如 TVM、NVDLA、和 MLIR，这些工程和现在 NPU 芯片的编译器的优化思路差异很大。前者强调通用性、可移植性。为多种硬件后端提供统一的编译堆栈，通过自动化搜索等搜寻最优调度。而专用 NPU 的硬件已经固定（可拓展也是固定硬件资源的拓展），专家根据硬件特性直接编写最优或近似最优的优化策略（如 G

more...

2026-03-151.2kwords1 mins.

【AI编译】深度优先的Tile调度，万事大吉？

# 前言本篇文章发现了单纯的 “深度优先的 Tile 调度” 存在的问题。先简单介绍一下单纯的深度优先调度，再指出其可能出现的问题。错误在所难免，还望不吝赐教。 # 深度优先调度请允许叫他深度优先调度。本人研究论文不多，我也不知道这种调度方式到底有没有一个官方的、或者大家默认的名称。但是从调度逻辑上，我把他叫做 ——“深度优先调度”。一来是为了指代简单，二来可以方便交流。以下面这个两层卷积网络为例：图中详细展示了输入输出 tensor，和两个卷积层的参数。下图是这个例子的深度优先调度顺序。假设三个 Tensor 是这样切分的：第一个切成 20,20,20,4；第二个切成 10,1

more...

2026-03-103.9kwords4 mins.

【AI编译】多级流水线Tile调度策略

# 前言本篇文章介绍多级流水线 Tile 调度算法作为初学者，错误在所难免，还望不吝赐教。 # 深度优先调度生成指令请允许叫他深度优先调度。我也不知道这种调度方式到底有没有一个官方的、或者大家默认的名称。但是从调度逻辑上，我把他叫做 ——“深度优先调度”。如图所示。我们知道，一个算子的输出 Tensor Tile 切分成多少份，就会生成多少条指令。假设我们把上面的卷积算子的输出 Tensor 切了 4 份，那么就会有四条指令等待排序。左边所有算子的输出 Tensor 都被切成 4 份，那么就有 4*7 条指令等待排序，或者说调度。怎么进行调度呢？现在的一个基准就是：深度优先调度。

more...

2026-02-017.3kwords7 mins.

【CUDA C++】GPU内存使用【3】

# 前言本篇介绍 GPU 的内存使用，主要是全局内存的合并内存访问，和共享内存的 bank 冲突。资料来源于官网 CUDA Programming Guide。本文会比官网教程简洁一些，去掉一些我不太感兴趣的内容（任性）。参考官网 CUDA Programming Guide。作为初学者，错误在所难免，还望不吝赐教。 # GPU 合并内存访问 GPU 的全局内存 Global Memory (GPU Dram, 常见的显卡 8GB、12GB)，是通过 32-byte memory transactions 进行访问的。当一个 CUDA 线程从全局内存中请求一个数据字节时，相关的

more...

2026-01-254.4kwords4 mins.

【AI编译】Cache缓存地址映射

# 前言软件离不开硬件，硬件也离不开软件啊。作为 “根本不了解硬件” 的我，也不得不去了解和学习硬件的基本概念。本篇文章 Cache 缓存设计的相关内容。内容和图源自书籍《AI 处理器硬件架构设计》，请参考。错误在所难免，还望不吝赐教。 # Cache NPU 的 Cache 设计与其通用 CPU/GPU 的 Cache 有很大不同，核心目标是满足高吞吐、可预测的流式数据访问，而非处理通用计算的随机访问。 NPU L2 Cache 的定位： 1. 容量大，带宽极高：作为片上 “数据水库”，为多个计算核心（Tensor Core/Matrix Unit）或向量单元提供

more...