无标题
1.6.1 解码策略Top-k & Top-p & Temperature
无标题
1.7.1常见大模型结构
无标题
4.5.1 Qwen14.5.2 Qwen2
无标题
4.6.1 Deepseek-V14.6.2 Deepseek-V24.6.3 Deepseek-R1
无标题
6.1.1计算与内存限制6.1.2 FlashAttention机制
无标题
6.2.1 数据并行6.2.2 模型并行6.2.3 3D并行
无标题
1.ThreadsPerBlock和Blocks的数量受哪些条件约束。2.理论占用率怎么计算?3.什么是warp,什么是warp divergence?4.cuda的内存模型里有多少种memory,它们的位置(片上还是板上),带宽和延迟的相对大小?5.global memory的访存合并是什么?6.什么样的变量会被分配在register上?什么样的变量会被分配在local memory上?7.Block是怎么被SM调度执行的?8.什么是cuda core? 什么是tensor core?9.什么是bank confict+?怎么避免bank confict,你能想到多少方法?10.描述-下Block reduce的大致实现。11.描述-下double buffer(ping pong buffer)的大概原理和实现。12.什么是roofline model?什么是memory bound,什么是computation bound?13.kernel...
无标题
123456789// 1. 向上取整#define CEIL(a, b) ((a + b - 1) / (b))// 2. FLOAT4,用于向量化访存,以下两种都可以// c写法#define FLOAT4(value) *(float4*)(&(value))// c++写法#define FLOAT4(value) (reinterpret_cast<float4*>(&(value))[0])










