无标题
6.1.1计算与内存限制 6.1.2 FlashAttention机制
无标题
6.2.1 数据并行 6.2.2 模型并行 6.2.3 3D并行
无标题
C++ 常用STL总结 在 LeetCode 中使用 C++ 刷题时,STL(Standard Template Library) 和相关函数能极大简化代码实现。以下是高频使用的 STL 组件和函数,按类别分类整理: 一、容器类(Containers) 序列容器 vector 动态数组,支持快速随机访问 常用操作:push_back(), pop_back(), size(), resize(), emplace_back(), back(), clear() 场景:动态规划、数组操作、临时存储数据 string 字符串处理,类似 vector<char> 常用操作:substr(), find(), append(), push_back(), size(), empty() 场景:回文、子串、字符串匹配 deque 双端队列,支持头尾高效插入删除 场景:滑动窗口最大值(单调队列优化) 容器适配器 queue 队列,FIFO,常用操作:push(), pop(), front(),...
无标题
1.1.1分词介绍 1.1.2 分词算法 1.1.3 常用分词库 1.1.4 分词方法对比
无标题
(前馈层、残差链接、层归一化) 1.4.1 三个模块的作用 1.4.2 LN的位置和计算 1.4.3 FFN计算和激活函数
无标题
1.3.1 Attention介绍 1.3.2常用Attention方法
无标题
1.2.1 词嵌入介绍 1.2.2 词嵌入方法
无标题
1.5.1 位置编码介绍 1.5.2 绝对位置编码 1.5.3 相对位置编码 1.5.4 ROPE和ALiBi 1.5.5 长度外推优化 描述一下RoPE(Rotary Position Embedding,旋转位置编码) 1. 定义:RoPE是什么? RoPE是一种为Transformer模型设计的位置编码方式,核心作用是向模型注入序列中token的位置信息,让模型能区分“相同token在不同位置”的语义差异(比如“我打他”和“他打我”中,“我”和“他”的位置决定语义)。 与传统位置编码(如正弦余弦编码、可学习位置编码)不同,RoPE通过数学旋转操作实现位置信息的注入,是目前大语言模型(如LLaMA、GPT系列)中广泛使用的高效位置编码方案。 2....
无标题
1.6.1 解码策略 Top-k & Top-p & Temperature