Sticky Posts
Post List
【CUDA C++】GPU存储【2】
# 前言
本篇是介绍 GPU 的存储硬件。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。
参考 官网 CUDA Programming Guide。
作为初学者,错误在所难免,还望不吝赐教。
# GPU Memory
在现代计算系统中,有效利用内存与最大限度地利用执行计算的逻辑单元同样重要。异构系统拥有多个内存空间,而图形处理器(GPU)除了缓存之外,还包含多种类型的可编程片上内存。
# Global Memory(全局内存)
物理本质:GPU 芯片外的 DRAM 芯片(即显存,VRAM)
别名:GPU DR
more...【CUDA C++】GPU基本介绍【1】
# 前言
本篇是介绍 CUDA C++ 的第一篇。资料来源于 官网 CUDA Programming Guide。本文会比官网教程简洁一些,去掉一些我不太感兴趣的内容(任性)。
参考 官网 CUDA Programming Guide。
作为初学者,错误在所难免,还望不吝赐教。
# GPU 和 CPU 对比
在相同的价格和功耗范围内,GPU 的指令处理量和内存带宽都远高于 CPU。许多应用程序利用这些特性,在 GPU 上运行的速度要比在 CPU 上快得多(详见 “GPU 应用” 部分)。其他计算设备,如 FPGA,同样具有很高的能效,但相比 GPU,其编程灵活性要低得多。
图形处理器(GPU
more...【00】0序章-不受欢迎的来客
# 0 序章 - 不受欢迎的来客
夏的夜晚蚊虫不少,甲虫飞蛾时不时落在纱窗上,过一会儿又扑腾飞走。旺盛的白蜡树长到三楼高,在微弱灯光的映射下,叶子呈现黑绿色,若不是窗子上的纱窗挡着,白蜡树的树枝会伸进屋子里一探究竟。楼房由砖石建成,刷了一层斑驳不平的沙石灰,墙壁很厚,窗子很小,白蜡树又挡住本就可怜的微风,女人站在窗台前,用手使劲儿扇两下扇子。
一个月前她和丈夫住在平房里,平房有些旧,雨天还有一个固定的地方漏水,得用个盆儿接住,然后整晚听它滴答滴答。但是胜在自由,打开门就是新鲜的空气、芳香的泥土和青草,还有女人的菜园和葡萄架。平时无聊就去朋友家坐坐,朋友也很自然地来自己家坐坐,喝茶聊天,
more...【转载】我来了——持续低熵
# 序
转载一些有趣的文章,侵删。
导读:
持续低熵自愿放弃一切形式的版权或知识产权。任何人都可以不经允许随意转载、粘贴、整理、剽窃持续低熵的创作。
链接:低熵诗选(一)、如何评价现已转战微博的知乎用户持续低熵
# 我来了
我来了
我头颅向东
我心脏在左
我扛着亚细亚的锤
我燃这乌托邦的火
我记得你杀人的枪
我记得你囚奴的锁
我是你心底的克鲁苏
我是你梦中的伏地魔
我见过被雕饰的空洞
我听过被遗忘的沉默
我闻到这根系的癌变
我触到这枝叶的腐落
我不要人变物的自由
我不要物御人的快活
我要焚你的圣殿
我要熔你的王座
我要闯群星的海
我要立众民的国
五百年的因
五千年的果
最后的斗争
最初的承
more...【Halide】调度优化【2】
# 前言
本篇文章介绍 Halide 多级流水线调度优化策略。
本文来自于《Halide 官方教程》,读者可以去阅读原文。所以看本文的价值在于?呃…… 是中文的?(但原文肯定更准确)更简洁?(也许是缺点)画图更清楚?(假的,因为官网图更好,还是动图,我不想画了)。所以我也不知道为啥一定要看这篇文章而不是原文,唯一好处是我挑出了重点?官方教程文章太多,我只挑其中几篇重点,这是第一篇,全当自己记录了。
仍然建议看原文。
Halide 这篇教程的多级流水线(multi-stage pipelines)指的是多个计算步骤,第一个计算步骤的结果是第二个计算步骤的输入,怎样的流水线调度才能在空间占用、计算
more...【感想】写作进度报告5
# 进度
小说字数已经超过 24 万了!
情节确定之后,现在的进度要比以前快的多。
完成之后大概有 27 或 28 万吧,那时候会将其放在各种平台。
不过最后小说没有人看的话,还是会非常失望。
还是得说,没人看的概率比较大,这不是一篇适合作为网文的小说,也未用来迎合任何大众化的喜好。
她只是一个我构思了很久,条理逻辑还算严谨的故事。
唯一能确定的是,我喜欢这个故事。
整个系列规划了三部,但实际上后续的两部连骨架都不完善,更不用说躯干和血肉。小说写作是个漫长沉闷的过程,如果第一部没人看的话,我不确定后续还会继续写下去。
值得高兴的是,本部作品已经构思完所有细节,只等完成了……
支撑我完成这部小说
more...【Halide】调度优化【1】
# 前言
本篇文章介绍 Halide 的 Vectorize, parallelize, unroll , tile 等优化策略。
本文来自于《Halide 官方教程》,读者可以去阅读原文。所以看本文的价值在于?呃…… 是中文的?(但原文肯定更准确)更简洁?(也许是缺点)画图更清楚?(假的,因为官网图更好,还是动图,我不想画了)。所以我也不知道为啥一定要看这篇文章而不是原文,唯一好处是我挑出了重点?官方教程文章太多,我只挑其中几篇重点,这是第一篇,全当自己记录了。
仍然建议看原文。
Halide 的 Vectorize, parallelize, unroll , tile 等优化策略与 TV
more...【转载】北大中文男足战报2
# 序
转载一些有趣的文章,侵删。
导读:2021 年,北大中文系男足再度遭遇医学男足,这次又有怎样的火花呢?
后卫打飞乌龙球,中文男足 0:14 惜败医学
迟日江山丽,春风花草香。4 月 3 日早 10 点,中文男足迎来了 2021 年北大杯的首秀。在未名湖畔的鸟语花香中,中文男足的队员们诗兴大发,迷失了自我,全场所有射门 —— 无论是面对对方大门,还是面对己方大门,全部射偏,0:14 惜败医学。
赛前,中文男足曾组织队员集体观看蒙古对阵日本的比赛,希望可以向蒙古这样的职业球队学习如何对抗实力强劲的对手。结果,蒙古以 0:14 的比分惨败日本。
观战队员纷纷表示,蒙古连中文男足都不如。因为
more...【BYOC】TVM切分子图
# 前言
本篇通过举例说明 TVM 切分子图的方法。
TVM 切分子图,是将整个图中的部分算子拆分出来,包装为一个函数。TVM 把它称为复合函数。切分子图有很多用处,比如算子融合、跨平台优化、做 layergroup 等。TVM 为子图切分提供了好用的工具,本篇文章将结 《【BYOC】TVM 添加自定义编译器 ccompiler》,来介绍一下如何使用 TVM 的工具切分子图,令自定义编译器 ccompiler 支持的子图在 ccompiler 执行,不支持的子图在 CPU 运行的。
参考链接:《【BYOC】TVM 添加自定义编译器 ccompiler》
作为初学者,错误在所难免,还望不吝赐教。
more...【转载】北大中文男足战报1
# 序
转载一些有趣的文章,侵删。
导读:2020 年,北大中文系男足和医学系男足比赛,公众号发布的战况报道火了。
# 1
2020 年 10 月 17 日晚 6 点,中文男足迎来了 2020 年新生杯的首秀。又一次凑齐 11 人首发的他们昂首阔步地走入球场,在 80 分钟内被医学连射 40 多脚,却只丢了 12 个球。本轮战罢,中文男足凭借积 0 分、净负 12 球的战绩,排名 20 支参赛球队的倒数第一。
赛前,中文男足的目标是让医学男足以 11:0 的比分击败自己,从而为中文系 110 周年系庆献礼。不曾想,医学众将把中文系的历史想得过于悠久,打进了 12 球。中文男足超额完成任务,提前
more...




