Sticky Posts
Post List
【CUDA C++】GPU内存使用【3】
# 前言
本篇介绍 GPU 的内存使用,主要是全局内存的合并内存访问,和共享内存的 bank 冲突。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。
参考 官网 CUDA Programming Guide。
作为初学者,错误在所难免,还望不吝赐教。
# GPU 合并内存访问
GPU 的全局内存 Global Memory (GPU Dram, 常见的显卡 8GB、12GB),是通过 32-byte memory transactions 进行访问的。
当一个 CUDA 线程从全局内存中请求一个数据字节时,相关的
more...【AI编译】Cache缓存地址映射
# 前言
软件离不开硬件,硬件也离不开软件啊。作为 “根本不了解硬件” 的我,也不得不去了解和学习硬件的基本概念。本篇文章 Cache 缓存设计的相关内容。
内容和图源自书籍《AI 处理器硬件架构设计》,请参考。
错误在所难免,还望不吝赐教。
# Cache
NPU 的 Cache 设计与其通用 CPU/GPU 的 Cache 有很大不同,核心目标是满足高吞吐、可预测的流式数据访问,而非处理通用计算的随机访问。
NPU L2 Cache 的定位:
1. 容量大,带宽极高:作为片上 “数据水库”,为多个计算核心(Tensor Core/Matrix Unit)或向量单元提供
more...【CUDA C++】GPU存储【2】
# 前言
本篇是介绍 GPU 的存储硬件。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。
参考 官网 CUDA Programming Guide。
作为初学者,错误在所难免,还望不吝赐教。
# GPU Memory
在现代计算系统中,有效利用内存与最大限度地利用执行计算的逻辑单元同样重要。异构系统拥有多个内存空间,而图形处理器(GPU)除了缓存之外,还包含多种类型的可编程片上内存。
# Global Memory(全局内存)
物理本质:GPU 芯片外的 DRAM 芯片(即显存,VRAM)
别名:GPU DR
more...【CUDA C++】GPU基本介绍【1】
# 前言
本篇是介绍 CUDA C++ 的第一篇。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。
参考 官网 CUDA Programming Guide。
作为初学者,错误在所难免,还望不吝赐教。
# GPU 和 CPU 对比
在相同的价格和功耗范围内,GPU 的指令处理量和内存带宽都远高于 CPU。许多应用程序利用这些特性,在 GPU 上运行的速度要比在 CPU 上快得多(详见 “GPU 应用” 部分)。其他计算设备,如 FPGA,同样具有很高的能效,但相比 GPU,其编程灵活性要低得多。
图形处理器(GPU
more...【00】0序章-不受欢迎的来客
# 0 序章 - 不受欢迎的来客
夏的夜晚蚊虫不少,甲虫飞蛾时不时落在纱窗上,过一会儿又扑腾飞走。旺盛的白蜡树长到三楼高,在微弱灯光的映射下,叶子呈现黑绿色,若不是窗子上的纱窗挡着,白蜡树的树枝会伸进屋子里一探究竟。楼房由砖石建成,刷了一层斑驳不平的沙石灰,墙壁很厚,窗子很小,白蜡树又挡住本就可怜的微风,女人站在窗台前,用手使劲儿扇两下扇子。
一个月前她和丈夫住在平房里,平房有些旧,雨天还有一个固定的地方漏水,得用个盆儿接住,然后整晚听它滴答滴答。但是胜在自由,打开门就是新鲜的空气、芳香的泥土和青草,还有女人的菜园和葡萄架。平时无聊就去朋友家坐坐,朋友也很自然地来自己家坐坐,喝茶聊天,
more...【转载】我来了——持续低熵
# 序
转载一些有趣的文章,侵删。
导读:
持续低熵自愿放弃一切形式的版权或知识产权。任何人都可以不经允许随意转载、粘贴、整理、剽窃持续低熵的创作。
链接:低熵诗选(一)、如何评价现已转战微博的知乎用户持续低熵
# 我来了
我来了
我头颅向东
我心脏在左
我扛着亚细亚的锤
我燃这乌托邦的火
我记得你杀人的枪
我记得你囚奴的锁
我是你心底的克鲁苏
我是你梦中的伏地魔
我见过被雕饰的空洞
我听过被遗忘的沉默
我闻到这根系的癌变
我触到这枝叶的腐落
我不要人变物的自由
我不要物御人的快活
我要焚你的圣殿
我要熔你的王座
我要闯群星的海
我要立众民的国
五百年的因
五千年的果
最后的斗争
最初的承
more...【Halide】调度优化【2】
# 前言
本篇文章介绍 Halide 多级流水线调度优化策略。
本文来自于《Halide 官方教程》,读者可以去阅读原文。所以看本文的价值在于?呃…… 是中文的?(但原文肯定更准确)更简洁?(也许是缺点)画图更清楚?(假的,因为官网图更好,还是动图,我不想画了)。所以我也不知道为啥一定要看这篇文章而不是原文,唯一好处是我挑出了重点?官方教程文章太多,我只挑其中几篇重点,这是第一篇,全当自己记录了。
仍然建议看原文。
Halide 这篇教程的多级流水线(multi-stage pipelines)指的是多个计算步骤,第一个计算步骤的结果是第二个计算步骤的输入,怎样的流水线调度才能在空间占用、计算
more...【感想】写作进度报告5
# 进度
小说字数已经超过 24 万了!
情节确定之后,现在的进度要比以前快的多。
完成之后大概有 27 或 28 万吧,那时候会将其放在各种平台。
不过最后小说没有人看的话,还是会非常失望。
还是得说,没人看的概率比较大,这不是一篇适合作为网文的小说,也未用来迎合任何大众化的喜好。
她只是一个我构思了很久,条理逻辑还算严谨的故事。
唯一能确定的是,我喜欢这个故事。
整个系列规划了三部,但实际上后续的两部连骨架都不完善,更不用说躯干和血肉。小说写作是个漫长沉闷的过程,如果第一部没人看的话,我不确定后续还会继续写下去。
值得高兴的是,本部作品已经构思完所有细节,只等完成了……
支撑我完成这部小说
more...【Halide】调度优化【1】
# 前言
本篇文章介绍 Halide 的 Vectorize, parallelize, unroll , tile 等优化策略。
本文来自于《Halide 官方教程》,读者可以去阅读原文。所以看本文的价值在于?呃…… 是中文的?(但原文肯定更准确)更简洁?(也许是缺点)画图更清楚?(假的,因为官网图更好,还是动图,我不想画了)。所以我也不知道为啥一定要看这篇文章而不是原文,唯一好处是我挑出了重点?官方教程文章太多,我只挑其中几篇重点,这是第一篇,全当自己记录了。
仍然建议看原文。
Halide 的 Vectorize, parallelize, unroll , tile 等优化策略与 TV
more...【转载】北大中文男足战报2
# 序
转载一些有趣的文章,侵删。
导读:2021 年,北大中文系男足再度遭遇医学男足,这次又有怎样的火花呢?
后卫打飞乌龙球,中文男足 0:14 惜败医学
迟日江山丽,春风花草香。4 月 3 日早 10 点,中文男足迎来了 2021 年北大杯的首秀。在未名湖畔的鸟语花香中,中文男足的队员们诗兴大发,迷失了自我,全场所有射门 —— 无论是面对对方大门,还是面对己方大门,全部射偏,0:14 惜败医学。
赛前,中文男足曾组织队员集体观看蒙古对阵日本的比赛,希望可以向蒙古这样的职业球队学习如何对抗实力强劲的对手。结果,蒙古以 0:14 的比分惨败日本。
观战队员纷纷表示,蒙古连中文男足都不如。因为
more...








