transformer面试经验
简述Transfomer的嵌入层(Embedding Layer) 嵌入层作为transformer的输入层,主要是将输入的 Token 转换为连续的向量表示,主要包括词嵌入和位置编码两个部分。 1.词嵌入(Word Embedding) 词嵌入是将输入序列中的每个token映射到一个高维嵌入向量。这些向量能够捕捉到词与词之间的语义关系。 词嵌入的过程是:(1)初始化一个嵌入矩阵,其行数等于词汇表大小V,列数为嵌入维度d;(2)通过词汇表得到输入文本中每个token对应的索引;(3)以索引为行数,直接从嵌入矩阵里取出对应的那一行向量,这行向量就成了该 token的嵌入向量。 2.位置编码(Positional Encoding) 由于 Transformer 是基于自注意力机制的,它没有内建的顺序信息。为了解决这个问题,Transformer 添加了位置编码(Positional...
Linux面试八股文
LT(水平触发)和ET(边缘触发)的区别⭐ LT(Level Trigger,水平触发)和ET(Edge Trigger,边缘触发)是两种不同的事件触发模式,常见于I/O多路复用技术(如Linux下的select、poll、epoll)中,它们在事件触发机制、处理方式和适用场景等方面存在明显区别。 1....
无标题
各类激活函数 BP 算法流程 CNN 的参数的优化方法(各类梯度下降方法 ?) 随机梯度下降、mini-batch、整个训练样本一起进去的区别 gbdt 和 xgboost 的区别 bagging 和 boosting 的区别 介绍逻辑回归,重点从 损失函数讲起(可以与 SVM 对比) 进化算法
无标题
大模型优化技术 大模型推理优化技术-KV Cache 大模型显存优化技术-PagedAttention 大模型优化技术-FlashAttention 大模型推理优化技术-Flash-Decoding 大模型显存优化技术-ZeRO系列 大模型解码优化-Speculative Decoding及其变体 大模型推理服务请求调度优化技术-Continuous batching 大模型优化算法是提升模型推理效率、降低计算资源消耗的关键技术,以下从KV-Cache原理、常见优化算法及应用场景三方面展开解析: 一、KV-Cache:大模型推理的核心加速技术 1. 基本概念与原理 定义:KV-Cache(Key-Value...
无标题
机器学习系统(MLsys)学习路线总结 System 工程基础:C/C++,阅读源码。 操作系统。 分布式系统 编译原理。特别是编译器优化技术、LLVM、memory optimization。 计算机体系结构。另外还需要了解: 1.GPU架构,例如显存分配机制、CPU与GPU交互。 2.CPU、存储系统相关的新技术。 3.深度学习专用硬件。 常见的并行计算框架,例如MPI/OpenMP/CUDA。 ML framework的底层原理,扒源码。 工业界的一些新东西:例如k8s、KubeFlow ML: 机器学习基础。 常见的分布式机器学习算法、DL模型压缩、模型加速方法。 数理基础。
无标题
C++ 常用STL总结 在 LeetCode 中使用 C++ 刷题时,STL(Standard Template Library) 和相关函数能极大简化代码实现。以下是高频使用的 STL 组件和函数,按类别分类整理: 一、容器类(Containers) 序列容器 vector 动态数组,支持快速随机访问 常用操作:push_back(), pop_back(), size(), resize(), emplace_back(), back(), clear() 场景:动态规划、数组操作、临时存储数据 string 字符串处理,类似 vector<char> 常用操作:substr(), find(), append(), push_back(), size(), empty() 场景:回文、子串、字符串匹配 deque 双端队列,支持头尾高效插入删除 场景:滑动窗口最大值(单调队列优化) 容器适配器 queue 队列,FIFO,常用操作:push(), pop(), front(),...
无标题
1.1.1分词介绍 1.1.2 分词算法 1.1.3 常用分词库 1.1.4 分词方法对比
无标题
1.2.1 词嵌入介绍 1.2.2 词嵌入方法
无标题
(前馈层、残差链接、层归一化) 1.4.1 三个模块的作用 1.4.2 LN的位置和计算 1.4.3 FFN计算和激活函数
无标题
1.5.1 位置编码介绍 1.5.2 绝对位置编码 1.5.3 相对位置编码 1.5.4 ROPE和ALiBi 1.5.5 长度外推优化