cuda编程

入门

window sum with shared memory

将同一block里要访问的数据提前搬到shared memory里，减少从global memory读取的次数

矩阵乘

简单矩阵乘

相同的思路，利用内存层级，尽量从高层次的内存读取数据，降低对低层次内存的读取次数。

简单分析一下内存重用。如图中所示A,B,C都是NxN的方阵。
假如没有任何内存重用，计算C中每个元素需要读取2N个数据，因此总共需要读取次。
然后考虑对每个block，分别从A,B中读取LxS的小矩阵到shared memory，再将部分结果累加到C的LxL的分块上。一共需要从global memory读取个数据。这个结果与S的大小无关，如果shared memory小，就可以设置一个小的S，多循环几次。之所以可以减少从global memory读取数据，是因为矩阵中相邻元素的计算存在数据重用。上面的代码里并没有在shared memory里设置C的分块矩阵，这是因为写回的时候并不需要数据重用，但是对每个线程设置了c，这是因为每个线程需要累加到c上。
我们可不可以任意的增大L呢？应该不行…吧？不是太懂
然后考虑block内每个线程的内存重用。直接每次都从shared memory读取的话，需要次。如果每个线程都分别提前读取A,B在shared memory的部分，每次提前读V个数据，需要读

上面提到对shared memory的Thread Cooperative Fetching可以实现如下

这里只是在内存层级上简单的做了分块，让相邻元素的计算共享更多的内存。据ppt说还有别的优化方向

Global memory continuous read
Shared memory bank conflict
Software pipelining
Warp level optimizations
Tensor Core

延时与带宽

对某个特定的计算，都是先把数据搬运上来，然后再计算。这样考虑的话，消耗时间应该是内存延迟+算数延迟。

算数指令延迟是一个算术操作从开始，到产生结果之间的时间。算术延迟一般 10~20 个时钟周期
内存指令延迟是当产生内存访问的时候，计算单元要等数据从内存拿到寄存器的时间。内存延迟 400~800 个时钟周期

但因为一般计算量足够大，所以我们有足够的并行度来隐藏延迟。这里解释一下隐藏延迟是什么意思。
我们想象一个水管，横截面是带宽B，单位是byte/s. 长度是时延T，单位是s.
如果我们想通过它传输M byte的数据，那么需要 M/B + T 的时间。如果M非常大，那么相对于M byte数据整体传输的时间，T就可以忽略不记。但是对于单个数据，延迟还是在那里的。
如果我们还是想通过这根水管传输数据，但是每秒只传输很少的数据，比如b byte/s，那么就没有充分利用水管的带宽传输资源。如果我们把带宽B理解为处理信息的速度（比如说每秒可以计算的浮点数），那么就是没有充分利用计算资源。利用率只有 b/B。
想象两根管子，第一根管子比较细长，长度表示内存延迟，截面表示内存带宽。第二根管子比较粗，长度表示算数延迟，截面宽表示FLOPs(每秒计算浮点数能力)，或者说算数带宽(math bandwidth). 两根管子前后相接，从整体来看，数据流过的速度取决于最细的那根。

Roofline model

CUDA C++ Best Practices Guide

👾 xlinker's blog

Explorer

cuda编程

入门

window sum with shared memory

矩阵乘

简单矩阵乘

更多的矩阵乘优化

延时与带宽

Roofline model

Graph View

Table of Contents

Backlinks