AI 常用术语
刚刚加入AI公司,听组会听的头都大了,沟通过程中很多术语都不了解,于是简单学习记录一下
机器学习
Ground Truth
真实值
监督学习
Supervised Learning
从一组标记好的输入和期望出发,得到一个 $x\rightarrow y$ 的映射
由于需要提供正确答案,导致标注量和成本很大
强化学习
Reinforcement Learning, RL
通过奖励系统(Reward model)来指导学习
吴恩达机器学习中有一个火星车例子,火星车可以在六个格子中移动,走到某些格子时会得到奖励,我们可以得到一个移动轨迹 $\tau$ 和轨迹奖励之和 $R(\tau)$ 的函数
奖励的期望可以近似为N回合奖励的平均值
$$
\bar{R}{\theta} = \sum_{\tau} R(\tau) P(\tau \lvert \theta) \approx \frac{1}{N} \sum^{N}_{n=1} R(\tau^{n})
$$
策略梯度算法
我们希望能够得到最大化的奖励期望,于是对上面的期望$\bar{R}{\theta}$做梯度下降
PPO
Proximal Policy Optimization, PPO
近端策略优化,是对策略梯度算法的改进(额,完全没看懂,等我看懂了再来补)
DPO
Distributed Proximal Policy Optimization
对PPO的改进,能并行计算
偏好学习
Preference Learning
模型不是直接预测一个目标值(如在回归问题中)或一个类别标签(如在分类问题中),而是预测一个偏好顺序或者选择。这种偏好可以是全序的(例如,对一组电影进行排名),也可以是部分的(例如,只确定哪部电影比另一部更受欢迎,而不是对所有电影进行排名)。
对比学习
一种自监督学习方法,让相似的数据在嵌入空间中更近,不相似的更远,会有数据增强、映射、对比损失等过程,在多模态中很常用
CLIP
Contrastive Language–Image Pre-Training
OpenAI开发的基于对比学习的文本-图像模型,可以进行图像分类、图像搜索、图像生成,无需对特定任务进行专门的训练
ImageBind
Meta开发的基于对比学习的多模态模型,可以将六个模态映射到同一个嵌入空间中
扩散模型
Diffusion Models
一种深度生成模型,能基于一个噪声和一组参数,生成数据,包含前向加噪和反向去噪两个步骤
前向加噪会逐步在原始数据中添加高斯噪声(马尔可夫链),直到数据被破坏,失去可辨别性
$$
x_t = x_{t-1} + \sqrt{1-\beta_t} \cdot \epsilon_t
$$
- $\epsilon$:噪声样本
- $\beta$:噪声强度
反向去噪是训练一个神经网络,能使用噪声样本来还原原始数据,去噪声过程也是逐层进行的
$$
\widetilde{x} = x_T - \sum^{T}_{t=1}\alpha_t \cdot \epsilon_t
$$
- $x_T$:前向扩散结束时的完全噪声样本
自回归模型
Autoregressive Model, AR
利用时间序列自身的过去值来预测未来值
神经网络
Neural Networks
MLP
Multilayer Perceptron
多层感知器,一种最简单的前馈神经网络
RNN
Recurrent Neural Network,循环神经网络
$$
y_t=f(y_{t-1}, x_t)
$$
CNN
Convolutional Neural Network,卷积神经网络
卷积(一维的就是窗口遍历,二维的类似高斯滤波)
- 卷积层:通过卷积核在二维平面遍历,卷积核的数值就是该神经网络的权重
- 池化层:将数据降维,比如选取四个像素中最大的值,使得数据量减少
- 全连接层
稀疏激活
Sparse Activation
稀疏激活是指在神经网络中,大部分神经元的输出为0(或接近0),只有少量神经元输出非零值
使用稀疏激活可以提高计算效率,加速收敛,降低损失
通常通过使用特定的激活函数(activation function)实现,比如ReLU
ReLU
Rectified Linear Unit
$$
f(x)=\max(0, x)
$$
大模型
Alignment
对齐,引导AI行为,使其符合设计者的利益和目的,一个已对齐的AI会朝着预期方向发展
Baseline
通常指一个基本的、简单的、表现较好的模型,作为参考点来评估其他新模型
Priors
先验知识,比如在模型设计、训练时引入的一些假设或约束
有监督微调
Supervised Fine-Tuning, SFT
对标记数据进行微调,以实现将预训练的大模型调整为特定的任务,可以利用到预训练模型的通用特征,不需要从头开始训练模型,节省大量资源
微调的数据量并不大,对模型的改动非常小,效果主要是激发,学知识还是要预训练
计算机视觉
Landmark
使用关键点、特征点来处理计算机视觉任务,比如人脸识别中使用眼睛、嘴巴、鼻子为关键点来检测追踪
SMPL
Skinned Multi-Person Linear Model
SMPL是一种用于描述人体形状(shape)和姿态(pose)的模型,shape是类似blendshape的channel,用于描述人的高矮胖瘦,pose是描述了定义好的关节节点(通常为24个)的旋转状态,使用轴角存储
SMPL可以转为.bvh,再转为.fbx,以导入游戏引擎中
Inpaint
使用周围像素对图像进行修复/填充
逆渲染
正向渲染:从三维模型出发,得到二维图像的过程(也就是图形学的渲染)
逆向渲染:从二维图像出发,重建三维场景的过程
可微渲染
Reparameterizing Discontinuous Integrands for Differentiable Rendering
可微渲染(Differentiable Rendering)是一种实现逆向渲染的方法
从一个近似的三维场景出发渲染一张二维图片,求与Ground True的损失(loss),对三维场景的参数求偏导(Partial derivatives),即可使用梯度下降(Gradient descent)的方法得到和GT最相似的三维场景参数
问题:
- 传统的渲染器并不能对参数求偏导:搭建一个可微渲染器
- 很多参数不连续:对不连续的参数换元,并乘以一个平滑函数
NeRF
《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》
NeRF的任务是从一组已知的图片出发,得到其他视角下的图片
- 环绕物体拍摄一组2d的照片,在神经网络中构建一个5维的函数,输入为世界坐标$(x,y,z)$和视角$(\theta,\phi)$,输出为体密度和颜色
- 使用光线步进的方式进行体渲染
Gaussian Splatting
与NeRF类似,Gaussian Splatting也是从多个视角的图片出发,构建场景描述,通过高斯点染的方式,生成新视图
高斯点染的概念和光栅化很像,使用一个个椭球状的2D高斯函数为图元,将3D场景映射到2D图像上
未来帧预测
旨在基于已有的视频内容生成未来的帧序列,常用于自动驾驶、异常检测、视频压缩、视频编辑、动画制作
- 外观约束(Spatial Constraints):基于像素强度和梯度等空间信息,确保未来帧与已有帧外观相似
- 动作约束(Temporal Constraints):基于光流等运动信息,确保未来帧与已有帧连贯
NLP
自然语言处理
BPE
Byte Pair Encoding,字节对编码
一种子词切分技术,通过将文本中的字符或字节对进行统计和合并,生成更小的子词单位,从而实现对文本的切分
- 构建词汇表
- 统计字符、字节的出现频率
- 按照频率从高到低合并为一个单独的字符,循环进行,直到没有字符对可以合并
- 得到最终的词汇表
Seq2Seq
Sequence-to-Sequence
- 编码器:将序列输入转为一个固定长度的上下文向量
- 解码器:使用上下文向量和过去生成的输出序列,循环生成一个元素,直到达到某些条件(比如已经输出一个完整序列、输出了一个终止符号)