一只大笨熊

发表于2025-01-08|面经

简述Transfomer的嵌入层（Embedding Layer）嵌入层作为transformer的输入层，主要是将输入的 Token 转换为连续的向量表示，主要包括词嵌入和位置编码两个部分。 1.词嵌入（Word Embedding）词嵌入是将输入序列中的每个token映射到一个高维嵌入向量。这些向量能够捕捉到词与词之间的语义关系。词嵌入的过程是：（1）初始化一个嵌入矩阵，其行数等于词汇表大小V，列数为嵌入维度d；（2）通过词汇表得到输入文本中每个token对应的索引；（3）以索引为行数，直接从嵌入矩阵里取出对应的那一行向量，这行向量就成了该 token的嵌入向量。 2.位置编码（Positional Encoding）由于 Transformer 是基于自注意力机制的，它没有内建的顺序信息。为了解决这个问题，Transformer 添加了位置编码（Positional...

transformer面试经验2

发表于2025-01-08|面经

详细描述一下transformer⭐⭐⭐⭐⭐ Transformer 是 2017 年由 Google 团队在论文《Attention Is All You Need》中提出的深度学习模型，彻底摆脱了 RNN、CNN 等依赖序列或局部感受野的结构，完全基于自注意力机制（Self-Attention）实现，在并行计算效率和长序列依赖捕捉上具有显著优势，成为 NLP 领域（如机器翻译、文本生成）乃至多模态任务（如图文理解）的基础架构。其核心结构分为编码器（Encoder）和解码器（Decoder）两大部分，整体结构如下：一、整体框架概览 Transformer 的输入是源序列（如源语言句子）和目标序列（如目标语言句子），输出是目标序列的预测结果（如翻译后的句子）。编码器接收源序列，输出编码特征（Encoder Output），用于捕捉源序列的全局语义；解码器接收目标序列和编码器输出，通过关注源序列的相关信息，生成目标序列的预测结果。两者均由 N 个相同的层堆叠而成（论文中...

Linux面试八股文

发表于2025-07-22|操作系统

LT（水平触发）和ET（边缘触发）的区别⭐ LT（Level Trigger，水平触发）和ET（Edge Trigger，边缘触发）是两种不同的事件触发模式，常见于I/O多路复用技术（如Linux下的select、poll、epoll）中，它们在事件触发机制、处理方式和适用场景等方面存在明显区别。 1....

无标题

发表于2025-07-22

机器学习系统（MLsys）学习路线总结 System 工程基础：C/C++，阅读源码。操作系统。分布式系统编译原理。特别是编译器优化技术、LLVM、memory optimization。计算机体系结构。另外还需要了解： 1.GPU架构，例如显存分配机制、CPU与GPU交互。 2.CPU、存储系统相关的新技术。 3.深度学习专用硬件。常见的并行计算框架，例如MPI/OpenMP/CUDA。 ML framework的底层原理，扒源码。工业界的一些新东西：例如k8s、KubeFlow ML：机器学习基础。常见的分布式机器学习算法、DL模型压缩、模型加速方法。数理基础。

无标题

发表于2025-07-22

各类激活函数 BP 算法流程 CNN 的参数的优化方法（各类梯度下降方法？）随机梯度下降、mini-batch、整个训练样本一起进去的区别 gbdt 和 xgboost 的区别 bagging 和 boosting 的区别介绍逻辑回归，重点从损失函数讲起（可以与 SVM 对比）进化算法

无标题

发表于2025-07-22