一只大笨熊

无标题

发表于2025-12-01

无标题

发表于2025-12-01

无标题

发表于2025-12-01

7.4 Low-Rank Factorization 低秩分解

无标题

发表于2025-12-01

7.3.1知识蒸馏简介7.3.2 白盒知识蒸馏7.3.3 黑盒知识蒸馏

无标题

发表于2025-12-01

C++ 常用STL总结在 LeetCode 中使用 C++ 刷题时，STL（Standard Template Library）和相关函数能极大简化代码实现。以下是高频使用的 STL 组件和函数，按类别分类整理：一、容器类（Containers）序列容器 vector 动态数组，支持快速随机访问常用操作：push_back(), pop_back(), size(), resize(), emplace_back(), back(), clear() 场景：动态规划、数组操作、临时存储数据 string 字符串处理，类似 vector<char> 常用操作：substr(), find(), append(), push_back(), size(), empty() 场景：回文、子串、字符串匹配 deque 双端队列，支持头尾高效插入删除场景：滑动窗口最大值（单调队列优化）容器适配器 queue 队列，FIFO，常用操作：push(), pop(), front(),...

无标题

发表于2025-12-01

1.1.1分词介绍1.1.2 分词算法1.1.3 常用分词库1.1.4 分词方法对比

无标题

发表于2025-12-01

1.2.1 词嵌入介绍1.2.2 词嵌入方法

无标题

发表于2025-12-01

1.3.1 Attention介绍1.3.2常用Attention方法

无标题

发表于2025-12-01

(前馈层、残差链接、层归一化)1.4.1 三个模块的作用1.4.2 LN的位置和计算1.4.3 FFN计算和激活函数

无标题

发表于2025-12-01

1.5.1 位置编码介绍1.5.2 绝对位置编码1.5.3 相对位置编码1.5.4 ROPE和ALiBi1.5.5 长度外推优化描述一下RoPE（Rotary Position Embedding，旋转位置编码）1. 定义：RoPE是什么？RoPE是一种为Transformer模型设计的位置编码方式，核心作用是向模型注入序列中token的位置信息，让模型能区分“相同token在不同位置”的语义差异（比如“我打他”和“他打我”中，“我”和“他”的位置决定语义）。与传统位置编码（如正弦余弦编码、可学习位置编码）不同，RoPE通过数学旋转操作实现位置信息的注入，是目前大语言模型（如LLaMA、GPT系列）中广泛使用的高效位置编码方案。 2. 核心原理：如何通过“旋转”注入位置信息？RoPE的本质是在复数域中通过旋转向量来标记位置，具体逻辑可拆解为3步：向量拆分：将token的特征向量（维度为d）按相邻维度拆分为若干对（如第2i和2i+1维组成一对），每对维度可视为复数域中的一个“坐标点”（实部为2i维，虚部为2i+1维）。 ...