transformer面试经验
简述Transfomer的嵌入层(Embedding Layer) 嵌入层作为transformer的输入层,主要是将输入的 Token 转换为连续的向量表示,主要包括词嵌入和位置编码两个部分。 1.词嵌入(Word Embedding) 词嵌入是将输入序列中的每个token映射到一个高维嵌入向量。这些向量能够捕捉到词与词之间的语义关系。 词嵌入的过程是:(1)初始化一个嵌入矩阵,其行数等于词汇表大小V,列数为嵌入维度d;(2)通过词汇表得到输入文本中每个token对应的索引;(3)以索引为行数,直接从嵌入矩阵里取出对应的那一行向量,这行向量就成了该 token的嵌入向量。 2.位置编码(Positional Encoding) 由于 Transformer 是基于自注意力机制的,它没有内建的顺序信息。为了解决这个问题,Transformer 添加了位置编码(Positional...
transformer面试经验2
详细描述一下transformer⭐⭐⭐⭐⭐ Transformer是2017年Google团队在论文《Attention Is All You Need》中提出的深度学习模型,彻底改变了自然语言处理(NLP)领域的范式。它完全基于自注意力机制(Self-Attention),替代了此前主流的 RNN/LSTM 等循环神经网络,解决了循环模型的两大痛点:并行计算能力弱(RNN需按序列顺序处理,无法并行)和长距离依赖捕捉能力有限(依赖序列长度累积信息,长文本中衰减严重)。目前,几乎所有主流预训练模型(如BERT、GPT、llama等)均以Transformer为基础,成为 NLP 领域(如机器翻译、文本生成)乃至多模态任务(如图文理解)的基础架构。 Transformer的整体结构 Transformer由Encoder(编码器) 和Decoder(解码器) 两部分组成: Encoder:编码器接收源序列,输出编码特征(Encoder...
Linux面试八股文
LT(水平触发)和ET(边缘触发)的区别⭐ LT(Level Trigger,水平触发)和ET(Edge Trigger,边缘触发)是两种不同的事件触发模式,常见于I/O多路复用技术(如Linux下的select、poll、epoll)中,它们在事件触发机制、处理方式和适用场景等方面存在明显区别。 1....
无标题
大模型优化技术 大模型推理优化技术-KV Cache 大模型显存优化技术-PagedAttention 大模型优化技术-FlashAttention 大模型推理优化技术-Flash-Decoding 大模型显存优化技术-ZeRO系列 大模型解码优化-Speculative Decoding及其变体 大模型推理服务请求调度优化技术-Continuous batching 大模型优化算法是提升模型推理效率、降低计算资源消耗的关键技术,以下从KV-Cache原理、常见优化算法及应用场景三方面展开解析: 一、KV-Cache:大模型推理的核心加速技术 1. 基本概念与原理 定义:KV-Cache(Key-Value...
无标题
7.2.1 剪枝简介 7.2.2 剪枝流程 7.2.3 剪枝分类










