一只大笨熊

无标题

发表于2025-12-01

1.6.1 解码策略Top-k & Top-p & Temperature

无标题

发表于2025-12-01

1.7.1常见大模型结构

无标题

发表于2025-12-01

4.5.1 Qwen14.5.2 Qwen2

无标题

发表于2025-12-01

4.6.1 Deepseek-V14.6.2 Deepseek-V24.6.3 Deepseek-R1

无标题

发表于2025-12-01

6.1.1计算与内存限制6.1.2 FlashAttention机制

无标题

发表于2025-12-01

6.2.1 数据并行6.2.2 模型并行6.2.3 3D并行

无标题

发表于2025-12-01

无标题

发表于2025-12-01

无标题

发表于2025-12-01

1.ThreadsPerBlock和Blocks的数量受哪些条件约束。2.理论占用率怎么计算?3.什么是warp，什么是warp divergence?4.cuda的内存模型里有多少种memory，它们的位置(片上还是板上)，带宽和延迟的相对大小?5.global memory的访存合并是什么?6.什么样的变量会被分配在register上?什么样的变量会被分配在local memory上?7.Block是怎么被SM调度执行的?8.什么是cuda core? 什么是tensor core?9.什么是bank confict+?怎么避免bank confict，你能想到多少方法?10.描述-下Block reduce的大致实现。11.描述-下double buffer(ping pong buffer)的大概原理和实现。12.什么是roofline model?什么是memory bound，什么是computation bound?13.kernel...

无标题

发表于2025-12-01

123456789// 1. 向上取整#define CEIL(a, b) ((a + b - 1) / (b))// 2. FLOAT4，用于向量化访存，以下两种都可以// c写法#define FLOAT4(value) *(float4*)(&(value))// c++写法#define FLOAT4(value) (reinterpret_cast<float4*>(&(value))[0])