Elementwise add - niyunsheng/LeetCUDA GitHub Wiki

https://github.com/xlite-dev/LeetCUDA/blob/main/kernels/elementwise/elementwise.cu

内存访问合并 memory coalescing

一个warp包含32个thread,

gpu内存总线带宽通常是32、64、128,一个kernel处理多个数据,可以充分利用内存带宽没有冗余。例如Ada、Hopper的单次warp读取的数据量都是128字节。