AI 常用术语

记录一些AI常用术语

机器学习

任务

回归（Regression）：预测连续型变量的值，如股票预测
分类（Classification）：预测离散型变量的类别，如图像分类
聚类（Clustering）：将数据划分为不同的组别，使得组内的相似性最大化，组间的相似性最小化，例如客户细分、图像分割
降维（Dimensionality Reduction）：减少数据的维度，同时保留数据中的重要信息，例如主成分分析（PCA）
异常检测
序列预测
推荐系统
强化学习
生成模型
最大似然估计（Maximum Likelihood Estimation，MLE）

SOTA

State of the Art

表示在某个特定领域中的最好成果、最佳实践

良定义

Well-Defined

一个定义要满足：明确性、一致性、完备性、无歧义性

明确性：明确指出所定义对象的范围和特征
一致性：定义不能自相矛盾
完备性：定义要包含足够的信息，使得人们可以通过定义判断一个对象是否属于定义的范围
无歧义性：定义要避免使用含糊不清、多义词

代价函数

Focal Loss

F0 Loss

一种用于解决类别不平衡问题的损失函数，通过引入动态缩放因子，降低易区分样本的权重，将模型的注意力集中在难区分样本上

梯度下降

学习率

监督学习

Supervised Learning

从一组标记好的输入和期望出发，得到一个 $x\rightarrow y$ 的映射，目的是泛化知识，输入未标记的数据也能得到标记

由于需要提供正确答案，导致标注量和成本很大

分类问题
回归问题

偏好学习

Preference Learning

模型不是直接预测一个目标值（如在回归问题中）或一个类别标签（如在分类问题中），而是预测一个偏好顺序或者选择。这种偏好可以是全序的（例如，对一组电影进行排名），也可以是部分的（例如，只确定哪部电影比另一部更受欢迎，而不是对所有电影进行排名）。

无监督学习

Unsupervised Learning

输入没有标签，系统会从数据中特征提取，从而可以将数据进行聚类、分类

聚类

MAE

Masked Autoencoders

以一定比例mask掉图片中一些像素块、文本中一些内容，让模型去预测mask的部分。

自监督学习

Self-Supervised Learning

对比学习：一种自监督学习方法，让相似的数据在嵌入空间中更近，不相似的更远，会有数据增强、映射、对比损失等过程，在多模态中很常用

强化学习

Reinforcement Learning, RL

比如我们要设计一个自动驾驶的汽车，这个车我们称之为智能体，学习驾驶是一种行为，车当前的速度、位置等数字向量是车的当前状态，刹车、加速、转向是车的动作，根据当前状态决定动作是车的策略，如果这个策略好，应当给与奖励，这种反馈机制被称为奖励，汽车不能控制的其他事物被称为环境

强化学习最初没有系统的先验知识，而是进行探索和收集反馈，不断调整自己的动作，最终得到目标

详情请看强化学习

策略梯度算法

参考

我们希望能够得到最大化的奖励期望，于是对上面的期望$\bar{R}{\theta}$做梯度下降

生成模型

无条件生成（Unconditional Generation），如无条件生成蝴蝶图片
条件生成（Conditional Generation），如T2I

常见的生成模型有

VAE
GAN
AR
Diffusion

VAE

Variational Autoencoder

变分自编码器，在自编码器的基础上显性对$z$的分布$p(z)$进行建模，使得潜在空间（latent space）符合高斯分布，在潜在空间按高斯分布采样，再用decoder解码，就能生成数据

AE

自编码器AE是一种高级的PCA（主成分分析），由encoder和deocder组成，encoder可以将数据降维到潜在空间，decoder可以将潜在空间的数据还原为原始数据

AE不能用作生成模型，因为没有针对$z$的分布进行训练，在整个值域中有效的$z$非常少，随机采样到的基本都是无意义的$z$

Conditional VAE

我们在VAE的值域中采样，总是能得到有用的$z$，但是我们不知道到底是哪一种$z$

做法是引入标注$Y$，原本对$p_0(X)、p(z)$建模，现在改为对$p_0(X|Y)、p(z|y_i)$建模

VQVAE

潜在空间（latent）是一组整数（离散向量），encoder的结果会进行量化，解决了传统VAE后验崩塌问题

后验崩塌：模型的decoder太强了，导致encoder得到了latent失去了意义，无论输入什么latent，decoder都能得到一个好的结果，latent不怎么影响decoder过程

提交损失：用于保证encoder的结果尽可能接近离散latnet空间的最近邻向量
$$
l_{commit}=\beta | z_e(x) - \text{sg}[e] |_2^2
$$

GAN

Generative Adversarial Network

由生成器（Generator）和判别器（Discriminator）组成

生成器负责从噪声中生成与真实数据尽可能相似的数据，判别器负责区分真实数据还是生成的数据

自回归模型

Autoregressive Model, AR

利用时间序列自身的过去值来预测未来值，可以通过逐步生成数据的每一部分来构建整个数据样本

扩散模型

Diffusion Models

一种深度生成模型，能基于一个噪声和一组参数，生成数据，包含前向加噪和反向去噪两个步骤

前向加噪会逐步在原始数据中添加高斯噪声（马尔可夫链），直到数据被破坏，失去可辨别性

$$
x_t = x_{t-1} + \sqrt{1-\beta_t} \cdot \epsilon_t
$$

$\epsilon$：噪声样本
$\beta$：噪声强度

反向去噪是训练一个神经网络，能使用噪声样本来还原原始数据，去噪声过程也是逐层进行的

$$
\widetilde{x} = x_T - \sum^{T}_{t=1}\alpha_t \cdot \epsilon_t
$$

$x_T$：前向扩散结束时的完全噪声样本

LDM

latent diffusion model

在潜在空间进行扩散过程，大幅降低计算成本

量化指标

召回率

Recall

样本中的正例有多少被预测正确了
$$
\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}
$$

TP（True Positive）：预测为正例且实际为正例的数量。
FN（False Negative）：预测为负例但实际为正例的数量

精确率

Precision

预测为正的样本中有多少是真正的正样本
$$
\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}
$$

FP（False Positive）：预测为正例但实际为负例的数量。

FID

Fréchet Inception Distance

评估生成式模型生成样本质量的重要指标，它的核心思想是通过计算生成样本与真实样本在特征空间中的分布差异来衡量两者的相似性

PSNR

SSIM

ELO

决策树模型

MCTS

Monte Carlo Tree Search

蒙特卡洛树搜索，一种得到最优决策的方法，通过大量的随机模拟（构建搜索树），来评估每个节点的价值

消融实验

Ablation Study

用于确定一个条件或参数对结果的影响程度，通过去除或修改模型的某种组成，观察其对模型性能的影响，进而分析这些组成对整体的贡献

神经网络

参考 https://www.asimovinstitute.org/neural-network-zoo/

BNDE

B：Batch，批次大小

N：序列长度

D：Dim，特征纬度

E：Embed，嵌入纬度

BCTHW

B 表示批量维度（batch）
C 表示通道维度（channel）
T 表示时序维度（time）
H 表示高度维度（height）
W 表示宽度维度（width）

前向传播

激活函数

由于”线性函数的线性函数，还是一个线性函数“，而对神经元进行加权求和是一个线性操作，为了让模型能表示一些非线性的东西，我们需要激活函数
$$
a=f(z)
$$

$f$：激活函数，任意一个非线性函数，常见为ReLU、Sigmoid
$z$：上一神经元的加权求和结果

MLP

Multilayer Perceptron

多层感知器，一种最简单的前馈神经网络

前馈（Feedforward）是一种控制机制，通过在系统受到干扰之前就采取行动来预测和补偿干扰的影响，具有预测性

前馈的反义词是反馈，在生物学中很常见

CNN

Convolutional Neural Network，卷积神经网络

由卷积层、全连接层、池化层等部分组成

CNN模型结构中，卷积带来了局部性，使用相同卷积核带来了平移等变性，这些性质被称为先验知识（prior knowledge）

全连接层

该层每个神经元，都与上一层所有神经元相连。参数量会非常巨大，mxn

卷积层

卷积层=局部连接+空间权重共享

局部连接：卷积层的每个神经元只与输入数据的局部区域相连，而不是与整个输入数据相连（相邻像素相关性通常比远距离的像素大）

空间权重共享：使用相同的卷积权重在不同位置提取相同特征（图像的底层特征，如边缘，通常与具体位置无关）

池化层

使用一个滑动窗口在神经元间操作，如求最大值（最大池化），求平均值（平均池化）

池化层的目的是降采样，生成一个尺寸更小的特征图

池化层可以实现局部不变性：窗口内发生微小抖动，但仍旧可以得到相同/相似的特征表示

RNN

Recurrent Neural Network，循环神经网络，参考Understanding-LSTMs

$$
y_t=f(y_{t-1}, x_t)
$$

能够处理序列变化的数据（能够理解同一数据在不同上下文中含义不同）

由于RNN依赖先前的输出结果（RNN不是前馈的），因此对GPU并不友好

LSTM

长短期记忆，比RNN在长序列中表现更好

RNN的一个问题是，他无法从先前的关键词中有选择地提取重要信息

图中$\sigma$表示数据转为0或1

RNN的一大问题是顺序执行，节点的输入是上一节点的输出，有依赖关系

Transformer

Transformer一种基于Attention的神经网络架构，放弃了顺序循环，完全通过注意力机制（Attention）来建立输入和输出的依赖关系，具有更强的并行性

Attention结构

左侧是encoder，右侧是decoder，两者可以单独使用，也可以一起使用

Attention的参数不在于依赖关系，而与QKV有关

Query：查询
Key：键
Value：值

Attention的机制是求输入的Query和Key，计算Q和K的相似性程度（越接近点积越接近1，越正交点积越接近0），使用相似性权重对Value做加权求和

# 求QKV
query = attn.to_q(hidden_states)
key = attn.to_k(hidden_states)
value = attn.to_v(hidden_states)
# 计算QK相似性
attention_probs = attn.get_attention_scores(query, key, attention_mask)
# 与V加权求和
hidden_states = torch.bmm(attention_probs, value)

encoder

如bert

encoder输入文本，将其转化为embeding或feature（每个单词变成一组数字），具有双向性

双向性：指生成某个单词的embeding时，会同时受到前后单词的影响

tokenizer可以实现将一句话分离为一组单词

decoder

如gpt-2，目前最流行的就是decoder-only

decoder通常具有encoder相同的能力，但是性能较弱，同样可以输入文本输出embeding，但是单向的

单向：decoder在生成单词embeding时，只会受前面的单词的影响

decoder通常是自回归的，常用于给定先前序列，生成新的内容（causal language modeling）

encoder-decoder

如T5

将两者合并得到encoder-decoder，可以用于seq2seq（Sequence-to-Sequence）

encoder将序列输入转为一个固定长度的上下文向量（embedding）
embedding和单词输入到decoder，生成一个新单词WORD_1
将新单词WORD_1拼接到第一个单词后面，自回归调用decoder，生成下一次单词WORD_2
循环直到decoder输出出结束符号

位置编码

Positional Encoding

位置编码在Transformer模型中的作用是为输入序列中的每个词或标记提供独特的位置信息，以弥补模型缺乏序列顺序感知的能力

Self-Attention

自注意力

Self-Attention是一种Attention，Self-Attention是计算单一序列内部每个元素和其他元素的关联程度，QKV均来自目标序列

由于递归能力更强，参数少，被广泛使用

Cross-Attention

交叉注意力

Cross-Attention也是一种Attention，输入两个不同的序列，Q来自Source序列，KV来自Target序列，可以建立序列间的联系

在SD画图中，使用Cross-Attention建立文本和latent区域的联系，实现文本修改图像中某一区域

Causal-Attention

因果注意力

Causal-Attention也是一种Attention，通过掩盖（Mask）未来的位置，使得模型生成时只关注过去的信息。通过因果注意力，使得Transformer具有自回归属性（Autoregressive）

注意力掩码

Attention Mask

模型在计算注意力分数时，可以屏蔽某些位置（将其注意力权重设为0），可以限制注意力范围，或者支持不同的任务

处理序列的优势

参考Civ的回答 - 知乎

Transformer由于使用了Attention，在处理序列数据时具有优势，下图为RNN、CNN、Attention表示序列模型示意。

三行绿色节点表示这些模型都是三层结构，都是从下向上依次执行
横着向右表示时间步骤
箭头表示相关联（并不代表可训练参数）

	RNN	CNN	Attention
上下文长度	full	limited	full
是否前馈	不前馈	前馈	前馈
问题	优化不行	卷积核太小	没问题

如果我们想要模型理解“小明在星期天要去露营，他准备叫上小红”，那么模型需要理解“他”指的是“小明”，那么模型的上下文需要同时看到“小明”和“他”

CNN使用一个滑动窗口在文本中卷积，如果我们的滑动窗口比较小，那么一个窗口中就无法同时包含“小明”和“他”，为此我们需要对窗口的信息再次卷积，即增加CNN的深度，不断加深使得“小明”和“他”的距离越来越近，最后能被一个滑动窗口捕捉到

RNN使用上一步的输出结果，先前的输入都会被汇总到一起，理论上“小明”对应的信息是可以传播打”他“这一步的，但实践中RNN训练极易导致梯度爆炸，一般最多只能处理二十个词

而注意力机制允许每个神经元在任何时间点，看先前所有步骤中的任意节点，计算一个新单词时，同时用到了先前所有词

应用

GPT

Generative Pre-trained Transformer

一个语言模型，输入句子前缀，预测下一个单词

Diffusion Transformer

DiT

用Transformer替代UNet，进行Latent的生成

VIT

Vision Transformer

基于Transformer的计算机视觉技术，将大模型NLP和CV整合在一起

Transformer在处理（一维）序列数据上非常优秀，但图像是一个二维数据，所以我们使用位置编码，将二维的图像转为一维的序列

位置编码：ViT将一张图片进行切分，如下图切分为9份，将这些patch平铺为一个序列。

使用位置编码可以让模型更好理解不同物体的位置的相对关系

DINOv2

一个自监督ViT，常作为image_cond_model，将图片转为embedding

CLIP

通过大量图片和文本对进行训练，可以对齐图像和文本的关系，也可以通过余弦相似度来判断两个图片的相似度

深度学习

“深度学习是一种表示学习”——何凯明

LeNet

开创了卷积层、池化层、全连接层，并使用反向传播端到端训练整个架构，参考CNN。但受困于算力和数据集过少没有得到重视

端到端

end to end

AI系统直接从输入数据中学习，并产生期望的输出，无需人为分解中间步骤

流程简单，但非常黑盒，不可解释，会发生灾难性遗忘

AlexNet

论文地址

使用了更大的数据集（ImageNet）和更大模型

结构

一共八层

稀疏激活

Sparse Activation

稀疏激活是指在神经网络中，大部分神经元的输出为0（或接近0），只有少量神经元输出非零值

使用稀疏激活可以提高计算效率，加速收敛，降低损失

通常通过使用特定的激活函数（activation function）实现，比如ReLU（Rectified Linear Unit）

$$
f(x)=\max(0, x)
$$

多GPU训练

单个GPU的显存太小，无法放下训练数据，由于当时显卡具有交火功能，可以直接从另一张卡中读写数据，于是作者将模型平分放在两张卡上

为了减少GPU间通信，模型被设计为好几层，只有在某些层（C3）两张卡才会进行数据通信，其他层的输入只使用当前GPU中上一层的输出，大幅减少了通信次数

LRN

Local Response Normalization

对模型的输出进行归一化，以提高模型泛化的能力

重叠池化

Overlapping Pooling

重叠池化的池化窗口在特征图上滑动时存在重叠部分。通过增加特征冗余性、减少空间信息损失、增强特征不变性、提高尺度不变性和降低特征维度等方式，有助于防止模型在训练过程中发生过拟合现象

数据增强

Data Augmentation

在不实质增加数据的情况下，扩展训练数据的方法

对图片旋转、缩放、裁剪、通道变换
对文本替换、插入、删除、同义替换
对语音添加噪声、改变语速、改变音调

dropout

对神经元的输出结果进行随机丢弃（以概率$\mathbf{p}$置零）

dropout很显然会影响神经元输出的均值，毕竟白白多出了这么多0，从x降到(1-p)x

model.eval()后，模型将不会dropout，为了实现训练和推理的一致性，模型所有神经元都会输出，但是每个输出都会乘以(1-p)，以保证绝对值均值一致

Visualizing ConvNet

对神经网络进行可视化，发现神经网络可以学习数据的高级表示。并发现模型是可迁移的，可以在大数据集中预训练出能力，再在小数据集中fine-tune

迁移学习

模型能够学习大数据集中数据的抽象表示，这种表示在其他类似的小数据集中也有意义，于是我们可以在大数据集中做预训练，在其他数据集中做fine-tune

One-Shot Learning、few-shot learning是一种特殊的迁移学习，仅使用一个（或很少的）样本进行学习，使得模型可以识别新的类型。在人脸识别、物品检测、音频克隆中很常用

VGGNet

论文地址

作者成功构建出一个非常深的卷积神经网络，并得到了更低的错误率和更强的泛化能力

为了构建一个很深的神经网络，作者

使用了非常小的卷积核
参数随机初始化
数据增强，比如随机裁剪、多尺度训练（放缩）
多GPU并行训练，将图像切分放入GPU中求梯度，将所有GPU中的梯度做均值，作为最终梯度

GoogLeNet

启发了标准化模块

normalization modules

对输入数据减去期望，再除以标准差，以实现归一化。
对归一化的结果引入一个线性变化，以提高自由度

ResNet

论文地址

实现训练更深（上千层）的模型，减轻了退化现象

退化现象

先前的工作表明，模型越深越好，但实践中深到一定程度，会出现退化（degradation）现象：即随着网络深度的提升，准确性会饱和。

作者认为，如果解决一个任务最适合用K层网络，那么即使我们训练了一个比K深的网络，只要K之后的网络做恒等映射（Identity Mapping），直接返回输入的值，就能取得和K层网络相同的效果。因此，理论上比K深的模型效果不应比K层差，但实验结果是某个任务56层确实比20层差

于是作者认为，模型在试图用多个非线性层混合输出一个恒等映射（比如对一个数据先平方再开方之类的吗？），我们应该直接给模型一个恒等映射的能力

残差学习框架

作者引入了残差学习框架，来解决退化问题

残差网络的核心，是在非线性层基础上加了一个x，从
$$
y = F(x)
$$
变成（当然，新训练出的F(x)和之前是不同的）
$$
y = F(x)+x
$$
使用了这种操作（快捷连接）的网络都可以称作残差神经网络

理论上（万能近似定律），无论是$y=F(x)$还是$y=F(x)+x$，喂入足够的数据，都能拟合出所需的函数，区别是这两个模型的训练难度可能有所差异

通过观察可知，这一层模型是有可能被训练为$y=x$，也就是$F(x)$的输出恒为0，此时实现了恒等映射

维度映射

残差网络中输入和输出的维度应该是相同的，但实践中经常需要改变输出输出的通道数，可以用一个线性投影来匹配维度
$$
y=F(x, {W_i})+W_sx
$$

zero-padding shortcuts：通过在输入中填充0来增加维度
projection shortcuts：通过1x1的卷积线性增加或减少维度

作者发现投影效果比零填充要好，但也没有好太多，于是不是必须的

网络架构

和VGGNet很类似，使用3x3的滤波器进行卷积
当输出的维度减半时，滤波核的数量就跟着翻倍，以维持复杂度
每两层网络添加一个快捷连接，以实现残差网络

大语言模型

模型

按训练方式分：

预训练模型（Pre-Trained Models）
指令微调模型（Instruct-tuned Models）
强化学习微调模型（RLHF Models，Reinforcement learning from human feedback models）

LMM

大型多模态模型

感知
理解（认知）
生成

VLA

Vision-Language-Action Model

从多模态输入生成动作输出，可以用于机器人操作

世界模型

虚拟世界（游戏）
重建式（Nerf、3DGS）
生成式（Sora）

Pre-Training

需要数T的数据

从随机初始化的模型开始，通过海量数据的长时间训练，得到Base model

Post-Training

需要几十M到几B到数据

从Base model出发，使用精心挑选的数据训练（如Chat数据、Agent数据）进行训练，得到定制模型（Customized model）

常用的Post-Training方法有：

SFT（Supervised Fine-Tuning，有监督微调），训练数据为输入prompt和输出Response，loss为$\mathrm{Response} | \mathrm{prompt}$
DPO（Direct Preference Optimization），训练数据为输入prompt、好的Response、坏的Response，loss为$\mathrm{Good} | \mathrm{prompt} - \mathrm{Bad} | \mathrm{prompt}$
Oneline Reinforcement Learning，训练需要输入prompt和一个Reward Function，loss为$\mathrm{Reward}(\mathrm{prompt}, \mathrm{Response})$
GRPO
PPO

参数高效微调

PEFT，Parameter Efficient Fine-tuning

相较于Full Fine-Tuning，PEFT更便宜高效

LoRA

Low-Rank Adaptation，参考

是一种用于大型语言模型微调的优化技术，旨在减少模型的参数量和计算量，同时保持模型的性能。很多人为SD画图训练了很多LoRA，只要少量图就能让模型学会生成新的画风

核心思想是在模型的特定层中引入低秩矩阵，来近似模型的权重更新

大模型的参数空间特别特别巨大，这些空间的大小超越了实际解决这个问题所需的维度，这个现象叫做过参数化，这意味着参数空间有压缩的空间，这就是LoRA的核心

秩

分为行秩和列秩，意思是矩阵中线性无关的行/列的数量

在机器学习中，我们使用一个矩阵表示一个全连接层，这个矩阵具有很多参数，但是这些参数往往是过参数化的，可以通过计算秩来降维

可以使用主成分分析（PCA）或奇异值分解（SVD）的方式，对矩阵进行很好的降维

模型结构

MoE

混合专家模式，Mixture of Experts

通过动态选择专门的子模型或“专家”来处理输入的不同部分，每个专家专注于特定任务

Switch Transformer

o

这里的o是Omnipotence的缩写，意思是全能，表示这个大模型是一个通用的全功能大模型

EOS

End of Sequence

用于标记序列的结束，使得模型能够识别序列的长度和边界，能让模型学会什么时候停止生成

RAS

Repetition Aware Samping

token factorization

将token分解为更多的因子

训练

并行

数据并行：数据分成多份，分给不同的GPU
模型并行：将模型的每一层切分到多个GPU中，需要在GPU间来回通信
流水线并行：将模型的不同层分配给不同GPU，但会出现“流水线空泡”（pipeline bubble）

Megatron

英伟达的一个训练框架

Baseline

通常指一个基本的、简单的、表现较好的模型，作为参考点来评估其他新模型

Priors

先验知识，比如在模型设计、训练时引入的一些假设或约束

Condition

作为动词时，通常表示对数据进行预处理、归一化

涌现

当模型规模大到一定程度，会瞬间拥有某种能力，这些能力有可能超出了设计之初到预期，比如在准确率曲线上随着训练数据的提升呈阶梯状上升

退化

当模型在学习某一方面知识时，如果数据集中没能覆盖之前某些方面的知识，可能会失去之前已经拥有的能力

大模型训练时，如果使用了很糟糕的数据，或者反复训练某些数据，有可能会快速退化

如果每次训练的数据都能覆盖模型的每一个能力，就很难退化

困惑度

PPL

困惑度表示语言模型对给定文本序列的“困惑”程度，即模型预测下一个词的不确定性。困惑度越低，说明模型对文本的预测越准确，生成的概率分布越接近真实分布

在模型训练时，会检查数据的质量，可以通过一个小模型去扫描数据，判断数据的困惑度。比如读WIKI的前几个字，让模型输出下一个字，查看正确率

交叉熵损失

Cross-Entropy Loss

$$
H(W) = -\frac{1}{N} \sum_{i=1}^N \log P(w_i | w_1, \dots, w_{i-1})
$$

freeze

在论文的流程图中，经常画一个雪花标志

在微调训练中冻结模型的大部分参数，只对一小部分参数进行微调，可以节省资源，也可以避免发生灾难性遗忘

MFU

Model FLOPs Utilization

用于衡量模型训练中计算资源利用率的指标
$$
\mathrm {MFU} = \frac{模型一次迭代消耗的浮点运算次数 \mathrm{FLOPs}}{\mathrm{GPU}单卡算力 \times 卡数 \times 模型一次迭代的时间}
$$

Scaling Laws

Transformer语言模型的性能与规模强相关，而对形状依赖弱

模型参数数量N，数据集大小D，训练用的计算量C

扩大规模会提高模型性能：同时增大N和D，性能会提升，但固定一方同时增加另一方，收益会递减
大模型比小模型更好：大模型比小模型更具样本效率，能以更少的优化步骤达到相同的性能水平，并使用更少的数据点

Reasoning

CoT

Chain of Thought

思维链，将一个大问题拆分为多个小的子问题，逐步解决这些问题，模型的输入输出包含中间结果，模拟人类思考的过程

能提高数学问题、符号推理的求解能力

GRPO

Group Relative Policy Optimization

Reward Model

奖励模型

Pairwise Loss

配对损失，常用于排序学习和度量学习

排序学习是大模型常用的奖励模型（Reward Model），对于一个输入prompt，生成多个结果，人工对结果进行排序，得到样本对。再将这个样本对送入模型进行训练

由于绝对分数很难统一，ChatGPT在训练时，会给4个句子，让人工去给句子排序，机器用排序来计算loss

PPO

Proximal Policy Optimization, PPO

近端策略优化，是对策略梯度算法的改进

需要一个奖励模型，这个奖励模型由人工标注好的数据对（一好一坏）训练，给定模型输出结果的奖励分数

PPO通过优化策略网络，让模型输出最大化奖励

DPO

Direct Preference Optimization

相较于PPO，DPO不需要额外的奖励模型，而是将偏好放在损失函数中，直接优化LLM

Benchmark

应用

LLM可以做很多应用，很多功能不需要训练就能实现，在训练前需要先思考是否可以不训练

功能	实现方法
跟随一些指令（如讨论xxx，不讨论xxx）	修改prompt
查询数据库/知识库	RAG
定制LLM（如医疗大模型）	训练

Alignment

对齐，引导AI行为，使其符合设计者的利益和目的，一个已对齐的AI会朝着预期方向发展

提示学习

Prompt Learning

将任务转化为一个语言模型的预测问题，通过调整提示的格式和内容，使模型能够更准确地理解任务要求并生成相应的答案

你可以把很多奇怪的任务比如用矩阵控制人物表情转为训练一个模型输出字符串，再将这个字符串转回矩阵

RAG

Retrieval Augmented Generation

检索增强生成

Llama_index

计算机视觉

Landmark

使用关键点、特征点来处理计算机视觉任务，比如人脸识别中使用眼睛、嘴巴、鼻子为关键点来检测追踪

Talking Head

一个CV任务，用于生成一个逼真的、会说话的人脸模型

SMPL

Skinned Multi-Person Linear Model

SMPL是一种用于描述人体形状（shape）和姿态（pose）的模型，shape是类似blendshape的channel，用于描述人的高矮胖瘦，pose是描述了定义好的关节节点（通常为24个）的旋转状态，使用轴角存储

SMPL可以转为.bvh，再转为.fbx，以导入游戏引擎中

RGB 数据集

指图片、视频、深度等数据，在CV领域用途很多

Inpaint

使用周围像素对图像进行修复/填充

逆渲染

正向渲染：从三维模型出发，得到二维图像的过程（也就是图形学的渲染）

逆向渲染：从二维图像出发，重建三维场景的过程

可微渲染

Reparameterizing Discontinuous Integrands for Differentiable Rendering

可微渲染（Differentiable Rendering）是一种实现逆向渲染的方法

从一个近似的三维场景出发渲染一张二维图片，求与Ground True的损失（loss），对三维场景的参数求偏导（Partial derivatives），即可使用梯度下降（Gradient descent）的方法得到和GT最相似的三维场景参数

问题：

传统的渲染器并不能对参数求偏导：搭建一个可微渲染器
很多参数不连续：对不连续的参数换元，并乘以一个平滑函数

NeRF

《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》

NeRF的任务是从一组已知的图片出发，得到其他视角下的图片

环绕物体拍摄一组2d的照片，在神经网络中构建一个5维的函数，输入为世界坐标$(x,y,z)$和视角$(\theta,\phi)$，输出为体密度和颜色
使用光线步进的方式进行体渲染

Gaussian Splatting

与NeRF类似，Gaussian Splatting也是从多个视角的图片出发，构建场景描述，通过高斯点染的方式，生成新视图

高斯点染的概念和光栅化很像，使用一个个椭球状的2D高斯函数为图元，将3D场景映射到2D图像上

未来帧预测

旨在基于已有的视频内容生成未来的帧序列，常用于自动驾驶、异常检测、视频压缩、视频编辑、动画制作

外观约束（Spatial Constraints）：基于像素强度和梯度等空间信息，确保未来帧与已有帧外观相似
动作约束（Temporal Constraints）：基于光流等运动信息，确保未来帧与已有帧连贯

长承预测

世界线

Worldline

一个物体在时空中运动轨迹，比如月球绕着地球转，轨迹是圆，如果加上时间轴，会变成螺旋线

视觉问答

Visual Question Answering，VQA

MEMC

运动估计和运动补偿（Motion Estimation and Motion Compensation）

通过分析视频中的运动信息，估计物体的运动轨迹，并根据这些信息来合成新的帧，常用于视频插帧

Edge

对图像进行边缘描边，由于数据简单纬度低，更利于预测等操作

结构纹理分解

Structure-Texture Decomposition

将图像分解为两个部分：结构（物体的类别、位置和姿态）和纹理（纹理的粗糙度、方向性和频率）

FACS

Facial Action Coding System

光流

Optical Flow

光流是CV领域用于描述图像序列中像素运动的一种方法，通过计算连续两帧图像中像素点的位移来估计物体的运动

光流基于三个假设：

亮度恒定假设：物体运动中，其表面亮度不变（真的假的？）
小运动假设：相邻两帧物体的运动是微小的，于是第一帧大部分点都可以在第二帧中找到
空间一致性假设：相邻像素的运动是相似的，其光流向量应该相似

光流的工作核心是用一些算法得到像素的运动向量

PSNR

Peak Signal-to-Noise Ratio

峰值信噪比，常用于评估参考图像和目标图像间的相似程度

mse = np.mean((image1 - image2) ** 2)
max_pixel = np.max(image1)
psnr = 10 * np.log10((max_pixel ** 2) / mse)

RMBG

briaai/RMBG-2.0

一个很好用的扣掉图片背景的模型

VQA

Visual Question Answering

视觉问答模型，常识理解图像内容并回答相关的自然语言问题

NLP

自然语言处理

BPE

Byte Pair Encoding，字节对编码

一种子词切分技术，通过将文本中的字符或字节对进行统计和合并，生成更小的子词单位，从而实现对文本的切分

构建词汇表
统计字符、字节的出现频率
按照频率从高到低合并为一个单独的字符，循环进行，直到没有字符对可以合并
得到最终的词汇表

ASR

Automatic Speech Recognition，自动语音识别

将人类语言转化为文字，以便AI理解并处理人类语言

LID

Language IDentification，语言识别，用于确定文本或语音所属语言类别的技术

EOS

End of Sequence

用于标注序列的结束

SSM

State Space Model

状态空间模型，是一种用于描述序列在各时间步的状态表示，并根据输入预测其下一个状态的模型，随着输入序列长度的增加，计算复杂度不会呈指数级增长

音频

Mel Spectrogram

梅尔频谱图是一种常用的标准的音频特征提取方法，可以用librosa将音频转化为mel谱图

RTF

Real Time Factor，实时率

处理音频所需的时间 / 音频时长

如果实时率小于1，则可以通过串流的方式实时给用户

VAD

Voice Activity Detection

语音活动检测（语音端点监测），可以从有噪音的语音中定位语音的开始和结束点、分离静音片段

TTS

Text-to-Speech，文本转语音

Vocoder

声码器，将语音特征转化为声音的模型

3D

任务

MVS

Multi-View Stereo

指从多视角图片重建三维场景的一类任务，通常会使用SFM等技术

Novel View

新颖视角

新颖视角生成是AI领域一个重要研究方向，根据一组已有的视图数据，生成一个从未出现过的新视角数据

Dense View

密集视角

从较多输入视角重建场景

Sparse View

稀疏视角

从较少的输入视角（2~4张）重建场景

NeRF

Neural Radiance Field

3dgs

3D Gaussian Splatting

目标是通过一组从场景中拍摄的图片，得到场景的三维表示，并可以做到实时渲染

3dgs是一组在三维世界坐标上的高斯球，信息有世界坐标、协方差矩阵（旋转缩放）、体密度（透明度）、球谐（颜色）

3dgs可以很容易投影为2dgs，然后通过Alpha混合的方法进行渲染

3dgs的问题

没有显式的表面定义，难以与光线进行求交（跟SDF、Mesh比），没有一个好的几何
Novel View质量很差

TrimGS

一个开源项目，能将3dgs转为三角Mesh

VGGT

SFM

Structure from Motion

从无序的多视角图片重建三维场景（稀疏点云）和相机轨迹的技术

图像匹配：对每个图像提取特征点，为每个特征点提取描述子，通过匹配描述子找到最相似的特征点对，这些特征点被视为同一3D点在不同视角下的投影
三角测量：给定两个匹配的特征点和他们的相机参数，计算该点的3D坐标
束调整：通过最小化所有图像中所有匹配点的重投影误差来优化相机参数和3D坐标

colmap

一个开源项目，能将一组图片重建出点云和相机轨迹，进而被转为3dgs

SLAM

Simultaneous Localization and Mapping

同时定位与地图构建，用于在未知环境中创建地图并实时确定设备在该地图上的位置

Triplane

Panorama

全景图

floater

漂浮物，是3dgs重建时常出现的bad case

watertight

水密Mesh是指一个完全封闭、无孔洞、无自相交且拓扑正确的3D网格模型，没有裂缝、孔洞、非流形几何（悬浮的顶点、边）

将Mesh转为水密，有利于后续将Mesh转为SDF

Poisson表面重建算法

一种基于隐式表面的重建方法，将表面重建转化为求解Poisson方程

原理大致是将点云坐标视为物体内部，指示函数为0，其余位置为0，于是得到一个标量场，该场的等值面就是目标表面，可以用marching cube的方式提取Mesh

缺点：

倾向生成平滑表面，可能会平滑掉硬边、锐角
计算成本高
对法线质量要求高
对孔洞、隧道的处理能力较差

Occupancy Grid

占用网格，是一个离散化的空间表示方法，将空间切分为体素网格，每个网格单元存储一个概率值，表示这个区域被障碍物占据的可行性，0表示完全自由，1表示完全被占用

常用于自动驾驶、SLAM、3D重建

点云

正负样本

Mesh采样点云时，通过会区分正负样本，正样本是直接从mesh表面采样点的点，负样本是从mesh表面通过偏移得到的点，负样本往往不在mesh表面

具身智能

模拟

用真实世界数据训练基础模型，使用汽车模拟软件（如carla）造数据，Scaling up

AI 常用术语

AI 常用术语

机器学习

任务

SOTA

良定义

代价函数

Focal Loss

梯度下降

学习率

分类

Softmax

监督学习

偏好学习

无监督学习

聚类

MAE

自监督学习

强化学习

策略梯度算法

生成模型

VAE

AE

Conditional VAE

VQVAE

GAN

自回归模型

扩散模型

LDM

量化指标

召回率

精确率

FID

PSNR

SSIM

ELO

决策树模型

MCTS

消融实验

神经网络

BNDE

BCTHW

前向传播

激活函数

MLP

CNN

全连接层

卷积层

池化层

RNN

LSTM

Transformer

Attention结构

encoder

decoder

encoder-decoder

位置编码

Self-Attention

Cross-Attention

Causal-Attention

注意力掩码

处理序列的优势

应用

GPT

Diffusion Transformer

VIT

DINOv2

CLIP

深度学习

LeNet

端到端

AlexNet

结构

稀疏激活

多GPU训练

LRN

重叠池化

数据增强

dropout

Visualizing ConvNet