transformer面试经验
简述Transfomer的嵌入层(Embedding Layer)嵌入层作为transformer的输入层,主要是将输入的 Token 转换为连续的向量表示,主要包括词嵌入和位置编码两个部分。 1.词嵌入(Word Embedding)词嵌入是将输入序列中的每个token映射到一个高维嵌入向量。这些向量能够捕捉到词与词之间的语义关系。 词嵌入的过程是:(1)初始化一个嵌入矩阵,其行数等于词汇表大小V,列数为嵌入维度d;(2)通过词汇表得到输入文本中每个token对应的索引;(3)以索引为行数,直接从嵌入矩阵里取出对应的那一行向量,这行向量就成了该 token的嵌入向量。 2.位置编码(Positional Encoding)由于 Transformer 是基于自注意力机制的,它没有内建的顺序信息。为了解决这个问题,Transformer 添加了位置编码(Positional...
transformer面试经验2
详细描述一下transformer⭐⭐⭐⭐⭐Transformer是2017年Google团队在论文《Attention Is All You Need》中提出的深度学习模型,彻底改变了自然语言处理(NLP)领域的范式。它完全基于自注意力机制(Self-Attention),替代了此前主流的 RNN/LSTM 等循环神经网络,解决了循环模型的两大痛点:并行计算能力弱(RNN需按序列顺序处理,无法并行)和长距离依赖捕捉能力有限(依赖序列长度累积信息,长文本中衰减严重)。目前,几乎所有主流预训练模型(如BERT、GPT、llama等)均以Transformer为基础,成为 NLP 领域(如机器翻译、文本生成)乃至多模态任务(如图文理解)的基础架构。 Transformer的整体结构Transformer由Encoder(编码器) 和Decoder(解码器) 两部分组成: Encoder:编码器接收源序列,输出编码特征(Encoder Output),用于捕捉源序列的全局语义; ...
无标题
各类激活函数
无标题
机器学习系统(MLsys)学习路线总结System 工程基础:C/C++,阅读源码。 操作系统。 分布式系统 编译原理。特别是编译器优化技术、LLVM、memory optimization。 计算机体系结构。另外还需要了解: 1.GPU架构,例如显存分配机制、CPU与GPU交互。 2.CPU、存储系统相关的新技术。 3.深度学习专用硬件。 常见的并行计算框架,例如MPI/OpenMP/CUDA。 ML framework的底层原理,扒源码。工业界的一些新东西:例如k8s、KubeFlow ML: 常见的分布式机器学习算法、DL模型压缩、模型加速方法。 数理基础。
Linux面试八股文
LT(水平触发)和ET(边缘触发)的区别⭐LT(Level Trigger,水平触发)和ET(Edge Trigger,边缘触发)是两种不同的事件触发模式,常见于I/O多路复用技术(如Linux下的select、poll、epoll)中,它们在事件触发机制、处理方式和适用场景等方面存在明显区别。 1....
无标题
大模型优化技术大模型推理优化技术-KV Cache大模型显存优化技术-PagedAttention大模型优化技术-FlashAttention大模型推理优化技术-Flash-Decoding大模型显存优化技术-ZeRO系列大模型解码优化-Speculative Decoding及其变体大模型推理服务请求调度优化技术-Continuous batching 大模型优化算法是提升模型推理效率、降低计算资源消耗的关键技术,以下从KV-Cache原理、常见优化算法及应用场景三方面展开解析: 一、KV-Cache:大模型推理的核心加速技术1. 基本概念与原理 定义:KV-Cache(Key-Value...
无标题
7.2.1 剪枝简介7.2.2 剪枝流程7.2.3 剪枝分类










