Sticky Posts

4.1kwords4 mins.

# 暮冬 Z 羡慕 的博客 文章汇总 # 加速算法 【Im2Col】卷积加速算法【1】 NCHW 【Im2Col】卷积加速算法【2】NHWC 【im2col】AScend conv accelerate 【Winograd】卷积加速算法原理及实现 【gemm】Gemm 计算加速 【gemm】内存对齐 【Halide】调度优化【1】 【Halide】调度优化【2】 【conv 加速】NVDLA 卷积加速算法 # AI 推理引擎 【推理引擎】常见推理引擎 【推理引擎】NCNN 和 Tengine 量化推理逻辑对比 【量化】连续卷积层首尾量化的可

Post List

2.6kwords2 mins.

# 前言 本篇是介绍 GPU 的存储硬件。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。 参考 官网 CUDA Programming Guide。 作为初学者,错误在所难免,还望不吝赐教。 # GPU Memory 在现代计算系统中,有效利用内存与最大限度地利用执行计算的逻辑单元同样重要。异构系统拥有多个内存空间,而图形处理器(GPU)除了缓存之外,还包含多种类型的可编程片上内存。 # Global Memory(全局内存) 物理本质:GPU 芯片外的 DRAM 芯片(即显存,VRAM) 别名:GPU DR
5kwords5 mins.

# 前言 本篇是介绍 CUDA C++ 的第一篇。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。 参考 官网 CUDA Programming Guide。 作为初学者,错误在所难免,还望不吝赐教。 # GPU 和 CPU 对比 在相同的价格和功耗范围内,GPU 的指令处理量和内存带宽都远高于 CPU。许多应用程序利用这些特性,在 GPU 上运行的速度要比在 CPU 上快得多(详见 “GPU 应用” 部分)。其他计算设备,如 FPGA,同样具有很高的能效,但相比 GPU,其编程灵活性要低得多。 图形处理器(GPU
2.3kwords2 mins.

# 0 序章 - 不受欢迎的来客   夏的夜晚蚊虫不少,甲虫飞蛾时不时落在纱窗上,过一会儿又扑腾飞走。旺盛的白蜡树长到三楼高,在微弱灯光的映射下,叶子呈现黑绿色,若不是窗子上的纱窗挡着,白蜡树的树枝会伸进屋子里一探究竟。楼房由砖石建成,刷了一层斑驳不平的沙石灰,墙壁很厚,窗子很小,白蜡树又挡住本就可怜的微风,女人站在窗台前,用手使劲儿扇两下扇子。   一个月前她和丈夫住在平房里,平房有些旧,雨天还有一个固定的地方漏水,得用个盆儿接住,然后整晚听它滴答滴答。但是胜在自由,打开门就是新鲜的空气、芳香的泥土和青草,还有女人的菜园和葡萄架。平时无聊就去朋友家坐坐,朋友也很自然地来自己家坐坐,喝茶聊天,
1.7kwords2 mins.

# 序 转载一些有趣的文章,侵删。 导读: 持续低熵自愿放弃一切形式的版权或知识产权。任何人都可以不经允许随意转载、粘贴、整理、剽窃持续低熵的创作。 链接:低熵诗选(一)、如何评价现已转战微博的知乎用户持续低熵 # 我来了 我来了 我头颅向东 我心脏在左 我扛着亚细亚的锤 我燃这乌托邦的火 我记得你杀人的枪 我记得你囚奴的锁 我是你心底的克鲁苏 我是你梦中的伏地魔 我见过被雕饰的空洞 我听过被遗忘的沉默 我闻到这根系的癌变 我触到这枝叶的腐落 我不要人变物的自由 我不要物御人的快活 我要焚你的圣殿 我要熔你的王座 我要闯群星的海 我要立众民的国 五百年的因 五千年的果 最后的斗争 最初的承
14kwords13 mins.

# 前言 本篇文章介绍 Halide 多级流水线调度优化策略。 本文来自于《Halide 官方教程》,读者可以去阅读原文。所以看本文的价值在于?呃…… 是中文的?(但原文肯定更准确)更简洁?(也许是缺点)画图更清楚?(假的,因为官网图更好,还是动图,我不想画了)。所以我也不知道为啥一定要看这篇文章而不是原文,唯一好处是我挑出了重点?官方教程文章太多,我只挑其中几篇重点,这是第一篇,全当自己记录了。 仍然建议看原文。 Halide 这篇教程的多级流水线(multi-stage pipelines)指的是多个计算步骤,第一个计算步骤的结果是第二个计算步骤的输入,怎样的流水线调度才能在空间占用、计算
999words1 mins.

# 进度 小说字数已经超过 24 万了! 情节确定之后,现在的进度要比以前快的多。 完成之后大概有 27 或 28 万吧,那时候会将其放在各种平台。 不过最后小说没有人看的话,还是会非常失望。 还是得说,没人看的概率比较大,这不是一篇适合作为网文的小说,也未用来迎合任何大众化的喜好。 她只是一个我构思了很久,条理逻辑还算严谨的故事。 唯一能确定的是,我喜欢这个故事。 整个系列规划了三部,但实际上后续的两部连骨架都不完善,更不用说躯干和血肉。小说写作是个漫长沉闷的过程,如果第一部没人看的话,我不确定后续还会继续写下去。 值得高兴的是,本部作品已经构思完所有细节,只等完成了…… 支撑我完成这部小说
11kwords10 mins.

# 前言 本篇文章介绍 Halide 的 Vectorize, parallelize, unroll , tile 等优化策略。 本文来自于《Halide 官方教程》,读者可以去阅读原文。所以看本文的价值在于?呃…… 是中文的?(但原文肯定更准确)更简洁?(也许是缺点)画图更清楚?(假的,因为官网图更好,还是动图,我不想画了)。所以我也不知道为啥一定要看这篇文章而不是原文,唯一好处是我挑出了重点?官方教程文章太多,我只挑其中几篇重点,这是第一篇,全当自己记录了。 仍然建议看原文。 Halide 的 Vectorize, parallelize, unroll , tile 等优化策略与 TV
3.6kwords3 mins.

# 序 转载一些有趣的文章,侵删。 导读:2021 年,北大中文系男足再度遭遇医学男足,这次又有怎样的火花呢? 后卫打飞乌龙球,中文男足 0:14 惜败医学 迟日江山丽,春风花草香。4 月 3 日早 10 点,中文男足迎来了 2021 年北大杯的首秀。在未名湖畔的鸟语花香中,中文男足的队员们诗兴大发,迷失了自我,全场所有射门 —— 无论是面对对方大门,还是面对己方大门,全部射偏,0:14 惜败医学。 赛前,中文男足曾组织队员集体观看蒙古对阵日本的比赛,希望可以向蒙古这样的职业球队学习如何对抗实力强劲的对手。结果,蒙古以 0:14 的比分惨败日本。 观战队员纷纷表示,蒙古连中文男足都不如。因为
5.1kwords5 mins.

# 前言 本篇通过举例说明 TVM 切分子图的方法。 TVM 切分子图,是将整个图中的部分算子拆分出来,包装为一个函数。TVM 把它称为复合函数。切分子图有很多用处,比如算子融合、跨平台优化、做 layergroup 等。TVM 为子图切分提供了好用的工具,本篇文章将结 《【BYOC】TVM 添加自定义编译器 ccompiler》,来介绍一下如何使用 TVM 的工具切分子图,令自定义编译器 ccompiler 支持的子图在 ccompiler 执行,不支持的子图在 CPU 运行的。 参考链接:《【BYOC】TVM 添加自定义编译器 ccompiler》 作为初学者,错误在所难免,还望不吝赐教。
3.2kwords3 mins.

# 序 转载一些有趣的文章,侵删。 导读:2020 年,北大中文系男足和医学系男足比赛,公众号发布的战况报道火了。 # 1 2020 年 10 月 17 日晚 6 点,中文男足迎来了 2020 年新生杯的首秀。又一次凑齐 11 人首发的他们昂首阔步地走入球场,在 80 分钟内被医学连射 40 多脚,却只丢了 12 个球。本轮战罢,中文男足凭借积 0 分、净负 12 球的战绩,排名 20 支参赛球队的倒数第一。 赛前,中文男足的目标是让医学男足以 11:0 的比分击败自己,从而为中文系 110 周年系庆献礼。不曾想,医学众将把中文系的历史想得过于悠久,打进了 12 球。中文男足超额完成任务,提前