transformer面试经验
简述Transfomer的嵌入层(Embedding Layer) 嵌入层作为transformer的输入层,主要是将输入的 Token 转换为连续的向量表示,主要包括词嵌入和位置编码两个部分。 1.词嵌入(Word Embedding) 词嵌入是将输入序列中的每个token映射到一个高维嵌入向量。这些向量能够捕捉到词与词之间的语义关系。 词嵌入的过程是:(1)初始化一个嵌入矩阵,其行数等于词汇表大小V,列数为嵌入维度d;(2)通过词汇表得到输入文本中每个token对应的索引;(3)以索引为行数,直接从嵌入矩阵里取出对应的那一行向量,这行向量就成了该 token的嵌入向量。 2.位置编码(Positional Encoding) 由于 Transformer 是基于自注意力机制的,它没有内建的顺序信息。为了解决这个问题,Transformer 添加了位置编码(Positional...
transformer面试经验2
详细描述一下transformer⭐⭐⭐⭐⭐ Transformer 是 2017 年由 Google 团队在论文《Attention Is All You Need》中提出的深度学习模型,彻底摆脱了 RNN、CNN 等依赖序列或局部感受野的结构,完全基于自注意力机制(Self-Attention) 实现,在并行计算效率和长序列依赖捕捉上具有显著优势,成为 NLP 领域(如机器翻译、文本生成)乃至多模态任务(如图文理解)的基础架构。 其核心结构分为编码器(Encoder) 和解码器(Decoder) 两大部分,整体结构如下: 一、整体框架概览 Transformer 的输入是源序列(如源语言句子)和目标序列(如目标语言句子),输出是目标序列的预测结果(如翻译后的句子)。 编码器接收源序列,输出编码特征(Encoder Output),用于捕捉源序列的全局语义; 解码器接收目标序列和编码器输出,通过关注源序列的相关信息,生成目标序列的预测结果。 两者均由 N 个相同的层堆叠而成(论文中...
Linux面试八股文
LT(水平触发)和ET(边缘触发)的区别⭐ LT(Level Trigger,水平触发)和ET(Edge Trigger,边缘触发)是两种不同的事件触发模式,常见于I/O多路复用技术(如Linux下的select、poll、epoll)中,它们在事件触发机制、处理方式和适用场景等方面存在明显区别。 1....
无标题
机器学习系统(MLsys)学习路线总结 System 工程基础:C/C++,阅读源码。 操作系统。 分布式系统 编译原理。特别是编译器优化技术、LLVM、memory optimization。 计算机体系结构。另外还需要了解: 1.GPU架构,例如显存分配机制、CPU与GPU交互。 2.CPU、存储系统相关的新技术。 3.深度学习专用硬件。 常见的并行计算框架,例如MPI/OpenMP/CUDA。 ML framework的底层原理,扒源码。 工业界的一些新东西:例如k8s、KubeFlow ML: 机器学习基础。 常见的分布式机器学习算法、DL模型压缩、模型加速方法。 数理基础。
无标题
各类激活函数 BP 算法流程 CNN 的参数的优化方法(各类梯度下降方法 ?) 随机梯度下降、mini-batch、整个训练样本一起进去的区别 gbdt 和 xgboost 的区别 bagging 和 boosting 的区别 介绍逻辑回归,重点从 损失函数讲起(可以与 SVM 对比) 进化算法
无标题
7.4 Low-Rank Factorization 低秩分解