无标题
7.4 Low-Rank Factorization 低秩分解
无标题
7.3.1知识蒸馏简介7.3.2 白盒知识蒸馏7.3.3 黑盒知识蒸馏
无标题
C++ 常用STL总结在 LeetCode 中使用 C++ 刷题时,STL(Standard Template Library) 和相关函数能极大简化代码实现。以下是高频使用的 STL 组件和函数,按类别分类整理: 一、容器类(Containers) 序列容器 vector 动态数组,支持快速随机访问 常用操作:push_back(), pop_back(), size(), resize(), emplace_back(), back(), clear() 场景:动态规划、数组操作、临时存储数据 string 字符串处理,类似 vector<char> 常用操作:substr(), find(), append(), push_back(), size(), empty() 场景:回文、子串、字符串匹配 deque 双端队列,支持头尾高效插入删除 场景:滑动窗口最大值(单调队列优化) 容器适配器 queue 队列,FIFO,常用操作:push(), pop(), front(),...
无标题
1.1.1分词介绍1.1.2 分词算法1.1.3 常用分词库1.1.4 分词方法对比
无标题
1.2.1 词嵌入介绍1.2.2 词嵌入方法
无标题
1.3.1 Attention介绍1.3.2常用Attention方法
无标题
(前馈层、残差链接、层归一化)1.4.1 三个模块的作用1.4.2 LN的位置和计算1.4.3 FFN计算和激活函数
无标题
1.5.1 位置编码介绍1.5.2 绝对位置编码1.5.3 相对位置编码1.5.4 ROPE和ALiBi1.5.5 长度外推优化 描述一下RoPE(Rotary Position Embedding,旋转位置编码)1. 定义:RoPE是什么?RoPE是一种为Transformer模型设计的位置编码方式,核心作用是向模型注入序列中token的位置信息,让模型能区分“相同token在不同位置”的语义差异(比如“我打他”和“他打我”中,“我”和“他”的位置决定语义)。 与传统位置编码(如正弦余弦编码、可学习位置编码)不同,RoPE通过数学旋转操作实现位置信息的注入,是目前大语言模型(如LLaMA、GPT系列)中广泛使用的高效位置编码方案。 2. 核心原理:如何通过“旋转”注入位置信息?RoPE的本质是在复数域中通过旋转向量来标记位置,具体逻辑可拆解为3步: 向量拆分:将token的特征向量(维度为d)按相邻维度拆分为若干对(如第2i和2i+1维组成一对),每对维度可视为复数域中的一个“坐标点”(实部为2i维,虚部为2i+1维)。 ...










