ChatGLM系列模型
4.4.1 GLM1 4.4.2 GLM2 4.4.3 GLM3 ChatGLM是属于哪个类型 ChatGLM属于Prefix Decoder类型。LLM中的三大主流框架:Causal Decoder、Prefix Decoder及Encoder-Decoder。 Causal Decoder 结构特点 Causal Decoder,又称因果语言模型,其典型代表为GPT系列模型。该框架采用从左到右的单向注意力机制,确保每个输入token只能注意到过去的token和它本身。这种自回归(Auto Regressive)的方式使得模型能够根据历史信息逐步生成文本。 优点 训练效率高:Causal Decoder在所有token上计算损失,充分利用了训练数据,提高了训练效率。 Zero-shot能力强:由于遵循严格的单向注意力规则,模型在零样本学习(Zero-shot Learning)任务中表现出色。 涌现能力:随着模型规模的增大,Causal Decoder能够展现出一些令人惊讶的涌现能力(Emergent...
AWQ归纳总结
介绍一下smoothquant 介绍一下AWQ量化 AWQ是一种对大模型仅权重量化方法。通过保护更“重要”的权重不进行量化,从而在不进行训练的情况下提高准确率。AWQ 发现,并非所有 LLM 权重都同等重要,仅保护 1% 的显著权重便能大幅减少量化误差。而要识别显著权重通道,应参考的是激活分布而非权重分布。激活值就是与权重矩阵作matmul运算的输入值。在计算时,将对激活值的每一列求绝对值的平均值,然后把平均值较大的一列对应的通道(行)视作显著通道,对其他通道进行低比特量化。 尽管保留显著权重为 FP16 可以提升量化性能,且不会显著增加模型的总位数,但混合精度的数据类型会使推理系统实现复杂化。 为了避免硬件效率低下的混合精度量化,经过公式推导后,AWQ 采用等效变换来放大显著权重通道,权重W乘以缩放因子s,激活值X除以s,可以减少显著权重的量化误差。但是随着s的增大,非显著通道的相对误差将会增加,这可能会损害模型的整体精度。因此,在保护显著通道的同时还需要考虑非显著通道的误差,找到权重矩阵每一个通道的最佳缩放系数s,使得量化误差最小。 AWQ...
GPTQ归纳总结
GPTQ简介 GPTQ 的思想最初来源于 Yann LeCun 在 1990 年提出的 OBD 算法,随后 OBS、OBC(OBQ) 等方法不断进行改进,而 GPTQ 是 OBQ 方法的加速版。在介绍 GPTQ 算法之前,需要先介绍 OBD -> OBS -> OBQ 的演进过程。 OBD: Optimal Brain Damage OBD 实际上是一种剪枝方法,用于降低模型复杂度,提高泛化能力。 如果要在模型中去除一些参数(即剪枝),直觉上,我们希望去除对目标函数 EEE 影响小的参数。于是我们可以对目标函数 EEE 做泰勒展开: ΔE=∑igiΔwi+12∑ihiiΔwi2+12∑i≠jhijΔwiΔwj+O(Δw3)\Delta E = \sum_i g_i \Delta w_i + \frac{1}{2} \sum_i h_{ii} \Delta w_i^2 + \frac{1}{2} \sum_{i \neq j} h_{ij} \Delta w_i \Delta w_j + O(\Delta...
大模型量化概述
模型量化简介 定义 模型量化是指以较低的推理精度损失将连续取值(通常为float32或者大量可能的离散值)的浮点型权重近似为有限多个离散值(通常为int8)的过程。 量化分类 根据应用量化压缩模型的阶段,可以将模型量化分为: 量化感知训练(Quantization Aware Training,QAT) 在模型训练过程中加入伪量化算子通过训练时统计输入输出的数据范围可以提升量化后模型的精度,适用于对模型精度要求较高的场景;其量化目标无缝地集成到模型的训练过程中。这种方法使LLM在训练过程中适应低精度表示,增强其处理由量化引起的精度损失的能力。这种适应旨在量化过程之后保持更高性能。 量化感知微调(Quantization-Aware Fine-tuning,QAF) 在微调过程中对LLM进行量化主要目标是确保经过微调的LLM在量化为较低位宽后仍保持性能,通过将量化感知整合到微调中,以在模型压缩和保持性能之间取得平衡。 训练后量化(Post Training...
CUDA学习笔记
CUDA基础概念 CUDA 内置变量 1. 线程和块索引变量 这些变量用于确定当前线程在网格(grid)和块(block)中的位置: 变量名 数据类型 说明 threadIdx dim3 当前线程在 block 内的索引(x, y, z 分量) blockIdx dim3 当前 block 在 grid 内的索引(x, y, z 分量) blockDim dim3 block 的维度(每个 block 的线程数,x, y, z 分量) gridDim dim3 grid 的维度(每个 grid 的 block 数,x, y, z 分量) 2. 计算能力相关的常量 这些变量描述了 GPU 的硬件特性: 变量名 数据类型 说明 warpSize int 一个 warp 的线程数(通常是 32) __CUDA_ARCH__ int 编译目标的计算能力(如 700 表示 SM 7.0) 3. 内存和同步变量 这些变量用于控制内存访问和线程同步: 变量名 说明 __shared__ 定义共享内存(每个 block...