自然语言处理知识点

2025-12-01

深度学习基础知识总结

数学基础线性代数矩阵运算（乘法/逆/特征值分解/SVD）向量范数（L1/L2/无穷范数）与矩阵范数梯度向量与Hessian矩阵（二阶优化基础）微积分标量/向量/矩阵求导（梯度、雅可比矩阵）链式法则在反向传播中的应用凸函数与非凸函数（神经网络优化的非凸性）概率论与信息论概率分布（高斯分布、伯努利分布、Dirichlet分布）最大似然估计（MLE）与贝叶斯估计信息熵、交叉熵、KL散度（损失函数设计核心）最优化理论梯度下降（GD/SGD/Momentum/Adam等变种）学习率调度策略（warm-up、余弦退火） ...

2025-12-01

深度学习进阶

三、深度学习进阶模型压缩与加速知识蒸馏（Knowledge Distillation）剪枝（Pruning）、量化（Quantization）模型部署（ONNX、TensorRT）

2025-12-01

大模型各种算子手撕（实现）

注意力机制的代码实现-1234567891011121314151617181920212223242526272829import torchimport torch.nn as nnimport torch.nn.functional as Ffrom math import sqrtclass SelfAttention(nn.Module): def __init__(self, input_dim, dim_k, dim_v): super(SelfAttention, self).__init__() self.q = nn.Linear(input_dim, dim_k) self.k = nn.Linear(input_dim, dim_k) self.v = nn.Linear(input_dim, dim_v) self.norm = sqrt(dim_k) def forward(self, x): Q =...

2025-12-01

Python的ACM模式输出入

输入1. 单行输入多个整数12nums = list(map(int, input().split()))print(sum(nums)) 2.多行输入(行数n未知)12345678910111213# 方法1while True: try: nums = list(map(int, input().split())) print(sum(nums)) except EOFError: break# 方法2import sysfor line in sys.stdin: nums = list(map(int, line.split())) print(sum(nums)) 3.多行输入（行数n已知）1234t = int(input())for _ in range(t): nums = list(map(int, input().split())) print(sum(nums)) 4. 多个测试用例，每个测试用例包含多行数据123456t = int(input())for _ in...

2025-12-01

机器学习各种算法手撕（实现）

1. 手撕 k-means 算法1234567891011121314151617181920212223242526272829303132333435import numpy as npimport matplotlib.pyplot as pltdef kmeans(data, K, max_iterations=100): # 随机初始化K个簇中心点 centers = data[np.random.choice(data.shape[0], K, replace=False)] # 迭代更新中心点 for _ in range(max_iterations): # 计算每个样本到各个中心点的距离 distances = np.linalg.norm(data[:, None] - centers, axis=2) # 等价于distances = np.linalg.norm(X[:, np.newaxis, :] - centers, axis=2) # 分配每个数据点到最近的簇 labels =...

2025-12-01

深度学习各种算法手撕（实现）

目标检测-Iou (交并比)1234567891011121314151617181920212223242526272829import numpy as np def ComputeIOU(boxA, boxB): ## 计算相交框的坐标 x1 = np.max([boxA[0], boxB[0]]) x2 = np.min([boxA[2], boxB[2]]) y1 = np.max([boxA[1], boxB[1]]) y2 = np.min([boxA[3], boxB[3]]) width = np.max([0, x2 - x1 + 1]) height = np.max([0, y2 - y1 + 1]) inter_area = width * height # 计算两个框的面积 area_A = (boxA[2] - boxA[0] + 1) * (boxA[3] - boxA[1] + 1) area_B = (boxB[2] - boxB[0] + 1) *...