暮冬Z羡慕的博客 = Пусть этот камень будет более крепким, чем человек = 神经网络推理、加速、AI编译。我必须立刻开始挣扎！

2025-03-287.6kwords7 mins.

【编译器】使用llvm编译自定义语言【3】编译 object

# 前言本篇是使用 llvm 编译自定义语言的第三篇。第一篇【编译器】使用 llvm 编译自定义语言【1】构建 AST 文章自顶向下介绍了抽象语法树 AST 的构建过程，第二篇【编译器】使用 llvm 编译自定义语言【2】转 llvm IR 文章介绍将抽象语法树 AST 转化为 llvm IR 的过程。本篇将简单介绍，如何将前述得到的 llvm IR 编译成 Object 。所使用代码例子来自 LLVM 官方教程 My First Language Frontend with LLVM Tutorial。本篇介绍无法代替官方教程，感兴趣请参考 My First Language Front

more...

2025-03-207.1kwords6 mins.

【编译器】使用llvm编译自定义语言【2】转llvm IR

# 前言本篇是使用 llvm 编译自定义语言的第二篇。前一篇【编译器】使用 llvm 编译自定义语言【1】文章自顶向下介绍了抽象语法树 AST 的构建过程，本篇接续上一篇，介绍将抽象语法树 AST 转化为 llvm IR 的过程。所使用代码例子来自 LLVM 官方教程 My First Language Frontend with LLVM Tutorial。代码请于 My First Language Frontend with LLVM Tutorial 下载。本篇介绍无法代替官方教程，感兴趣请参考 My First Language Frontend with LLVM Tutori

more...

2025-03-1325kwords22 mins.

【编译器】使用llvm编译自定义语言【1】构建AST

# 前言本篇介绍如何使用 LLVM 编译自定义语言。使用的是 LLVM 官方例子 My First Language Frontend with LLVM Tutorial。官方例子采用自底向上的方式详细讲述了自定义万花筒语言通过 llvm 编译的过程，但是自底向上较难理解，过程较长。本篇将自上而下地、简要地介绍如何将自定义语言转换为 llvm IR，实现编译的。尽管官方用例非常详细，笔者在阅读的时候仍然感到内容多，较 “散”，难以把握。每当这时候我会选择从上而下，整理归类，最后发现知识就具象化了。本篇介绍无法代替官方教程，感兴趣请参考 My First Language Frontend

more...

2025-02-052.3kwords2 mins.

【AI编译】如何进行内存分配

# 前言本文讲解神经网络推理过程中的内存分配相关内容。作为初学者，错误在所难免，还望不吝赐教。 # Tensor 类型不同的 tensor 有着不同的生命周期，神经网络推理过程中主要有三种 Tensor 类型： 1. 输入输出 tensor 输出 tensor 是下一节点的输入 tensor，它们一体两面，这种类型的 tensor 生命周期起于 “生产节点”，终于最后一个 “消费节点”。 2. 权重 tensor 权重 tensor 和算子绑定在一起，生命周期随着算子开始，也随算子结束。但也可能存在共享权重的情况，例如 tiling 操作产生的并行算子共享 Weight，算能 TPU

more...

2025-01-211kwords1 mins.

【感想】写作进度报告2

# 进度小说文字数量已经超过 8 万，如果第一部的目标是 40 万字的话，那么现在已经完成了 1/5，可喜可贺。当世界观一点点建立完成之后，书里的人物就活了，他该如何行动，产生怎样的情况与冲突，都是自然而然的。这时候写故事发展，不是写他应该怎么去做，而是在那种情景中他会怎么去做。这么想想，作者仿佛变成一个观察这个微缩世界的旁观者。 # 需要改进 1. 反派描写发现描写反派有些困难，毕竟我们平时接触不到，纯凭想象。如何把反派写活确实不容易。现实中的人都会相对中庸一点，而书中的人就要极端一点。在达到这个水平之后，还可以给反派一些其他的特点，比如杀人如麻中也对某些事情怀有温情，不

more...

2025-01-153kwords3 mins.

【AI编译】layer-group之后如何tiling

# 前言本篇讲解笔者实现 tiling 算法的一些经验。前述文章《如何进行 layer-group》讲解了 layer group 的内容。《Tiling 操作能优化哪些时间》提到 Tiling 的概念和作用。感兴趣的话可以阅读。本篇文章参考过《超强干货！地平线编译器大牛的编译优化实践总结》，《Arm 周易编译器工程》，《算能 TPU layer group 讲解》，《算能 TPU 视频讲解》等文章和工程，欢迎大家参考。作为初学者，错误在所难免，还望不吝赐教。 # 回顾如图所示，AI 编译优化的基本流程是 1. 图优化 (算子融合，常量折叠等) 2. 拆分 (layer gr

more...

2025-01-142.3kwords2 mins.

【AI编译】如何进行layer-group

# 前言本篇介绍 AI 编译领域 layer-group 算法。本篇文章参考过《超强干货！地平线编译器大牛的编译优化实践总结》，《Arm 周易编译器工程》，《算能 TPU layer group 讲解》，《算能 TPU 视频讲解》等文章和工程，欢迎大家参考。作为初学者，错误在所难免，还望不吝赐教。 # Layer group 如图所示，AI 编译优化的基本流程是 1. 图优化 (算子融合，常量折叠等) 2. 拆分 (layer group 和 tiling) 3. 并行和调度。最后得到当前编译的时间消耗。在 AI 编译领域，LayerGroup 指的是将神经网络中的多个层（lay

more...

2025-01-039.4kwords9 mins.

【量化】连续卷积层首尾量化的可行性

# 前言本篇文章探讨一下连续卷积层首尾量化的可行性。连续卷积指的是神经网络模型中接连出现若干个卷积 layer，中间没有 pooling、FC 等其他 layer；首尾量化指的是只在首端量化，仅在尾端反量化，中间不添加量化反量化操作。探索连续卷积层首尾量化的可行性，目的是试图降低每一层都进行繁杂的量化反量化运算的时间消耗。在上一篇文章【推理引擎】NCNN 和 Tengine 量化推理逻辑对比中提到了这个想法，本篇文章将通过公式演算和代码仿真的方式探索其可行性。作为初学者，错误在所难免，还望不吝赐教。 # 连续卷积层首尾量化借用上一篇文章【推理引擎】NCNN 和 Tengine 量化推理

more...

2024-12-248.5kwords8 mins.

【Gemm】内存对齐

# 前言本篇文章梳理内存对齐的相关概念和知识，并借上一篇文章《【Gemm】Gemm 计算加速》来简单探讨一下内存排布对计算加速的重要作用。本篇文章参考和引用了《nihui 大佬的 ncnn 工程》，《ncnn 初探二：图解 ncnn::Mat 的内存排布》，关于 mat 中 data 的内存排列问题，《Linux 内核：内存管理 —— 内存对齐》等，并询问过大语言模型通义千问、文心一言等。如有不清楚的地方可以点击链接查阅。作为初学者，错误在所难免，还望不吝赐教。 # 处理器的对齐访问对齐访问的定义：对齐访问是指处理器在访问内存时，要求访问的起始地址是某个特定数值（通常是 2 的幂）

more...

2024-12-2023kwords21 mins.

【gemm】Gemm计算加速

# 前言本篇文章简单介绍矩阵乘的加速方法，以学习算子加速需要注意的方面。想要学习更多内容可以参考《OpenBLAS gemm 从零入门》，《BLISlab: A Sandbox for Optimizing GEMM》，道阻且长_再探矩阵乘法优化，《How To Optimize GEMM》等项目或文章。作为初学者，错误在所难免，还望不吝赐教。 # 1. 基准算法矩阵乘运算的基准算法，未经过任何优化。矩阵以行主序进行排布，针对 X86 平台。矩阵 C= A * B，A 矩阵为 (M,K)， B 矩阵为 (K,N)。 #include <stdio.h>#defi

more...