抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

AI 常用术语

刚刚加入AI公司,听组会听的头都大了,沟通过程中很多术语都不了解,于是简单学习记录一下

机器学习

Ground Truth

真实值

监督学习

Supervised Learning

从一组标记好的输入和期望出发,得到一个 $x\rightarrow y$ 的映射

由于需要提供正确答案,导致标注量和成本很大

强化学习

Reinforcement Learning, RL

通过奖励系统(Reward model)来指导学习

吴恩达机器学习中有一个火星车例子,火星车可以在六个格子中移动,走到某些格子时会得到奖励,我们可以得到一个移动轨迹 $\tau$ 和轨迹奖励之和 $R(\tau)$ 的函数

奖励的期望可以近似为N回合奖励的平均值

$$
\bar{R}{\theta} = \sum_{\tau} R(\tau) P(\tau \lvert \theta) \approx \frac{1}{N} \sum^{N}_{n=1} R(\tau^{n})
$$

策略梯度算法

参考

我们希望能够得到最大化的奖励期望,于是对上面的期望$\bar{R}{\theta}$做梯度下降

PPO

Proximal Policy Optimization, PPO

近端策略优化,是对策略梯度算法的改进(额,完全没看懂,等我看懂了再来补)

DPO

Distributed Proximal Policy Optimization

对PPO的改进,能并行计算

偏好学习

Preference Learning

模型不是直接预测一个目标值(如在回归问题中)或一个类别标签(如在分类问题中),而是预测一个偏好顺序或者选择。这种偏好可以是全序的(例如,对一组电影进行排名),也可以是部分的(例如,只确定哪部电影比另一部更受欢迎,而不是对所有电影进行排名)。

对比学习

一种自监督学习方法,让相似的数据在嵌入空间中更近,不相似的更远,会有数据增强、映射、对比损失等过程,在多模态中很常用

CLIP

Contrastive Language–Image Pre-Training

OpenAI开发的基于对比学习的文本-图像模型,可以进行图像分类、图像搜索、图像生成,无需对特定任务进行专门的训练

CLIP

ImageBind

Meta开发的基于对比学习的多模态模型,可以将六个模态映射到同一个嵌入空间中

扩散模型

Diffusion Models

一种深度生成模型,能基于一个噪声和一组参数,生成数据,包含前向加噪和反向去噪两个步骤

前向加噪会逐步在原始数据中添加高斯噪声(马尔可夫链),直到数据被破坏,失去可辨别性

$$
x_t = x_{t-1} + \sqrt{1-\beta_t} \cdot \epsilon_t
$$

  • $\epsilon$:噪声样本
  • $\beta$:噪声强度

反向去噪是训练一个神经网络,能使用噪声样本来还原原始数据,去噪声过程也是逐层进行的

$$
\widetilde{x} = x_T - \sum^{T}_{t=1}\alpha_t \cdot \epsilon_t
$$

  • $x_T$:前向扩散结束时的完全噪声样本

自回归模型

Autoregressive Model, AR

利用时间序列自身的过去值来预测未来值

神经网络

参考 https://www.asimovinstitute.org/neural-network-zoo/

Neural Networks

NeuralNetworkZoo20042019

MLP

Multilayer Perceptron

多层感知器,一种最简单的前馈神经网络

RNN

Recurrent Neural Network,循环神经网络

$$
y_t=f(y_{t-1}, x_t)
$$

CNN

Convolutional Neural Network,卷积神经网络

卷积(一维的就是窗口遍历,二维的类似高斯滤波)

  1. 卷积层:通过卷积核在二维平面遍历,卷积核的数值就是该神经网络的权重

卷积

  1. 池化层:将数据降维,比如选取四个像素中最大的值,使得数据量减少

池化

  1. 全连接层

稀疏激活

Sparse Activation

稀疏激活是指在神经网络中,大部分神经元的输出为0(或接近0),只有少量神经元输出非零值

使用稀疏激活可以提高计算效率,加速收敛,降低损失

通常通过使用特定的激活函数(activation function)实现,比如ReLU

ReLU

Rectified Linear Unit

$$
f(x)=\max(0, x)
$$

大模型

Alignment

对齐,引导AI行为,使其符合设计者的利益和目的,一个已对齐的AI会朝着预期方向发展

Baseline

通常指一个基本的、简单的、表现较好的模型,作为参考点来评估其他新模型

Priors

先验知识,比如在模型设计、训练时引入的一些假设或约束

有监督微调

Supervised Fine-Tuning, SFT

对标记数据进行微调,以实现将预训练的大模型调整为特定的任务,可以利用到预训练模型的通用特征,不需要从头开始训练模型,节省大量资源

微调的数据量并不大,对模型的改动非常小,效果主要是激发,学知识还是要预训练

计算机视觉

Landmark

使用关键点、特征点来处理计算机视觉任务,比如人脸识别中使用眼睛、嘴巴、鼻子为关键点来检测追踪

SMPL

Skinned Multi-Person Linear Model

SMPL是一种用于描述人体形状(shape)和姿态(pose)的模型,shape是类似blendshape的channel,用于描述人的高矮胖瘦,pose是描述了定义好的关节节点(通常为24个)的旋转状态,使用轴角存储

SMPL

SMPL可以转为.bvh,再转为.fbx,以导入游戏引擎中

Inpaint

使用周围像素对图像进行修复/填充

逆渲染

正向渲染:从三维模型出发,得到二维图像的过程(也就是图形学的渲染)

逆向渲染:从二维图像出发,重建三维场景的过程

可微渲染

Reparameterizing Discontinuous Integrands for Differentiable Rendering

可微渲染(Differentiable Rendering)是一种实现逆向渲染的方法

从一个近似的三维场景出发渲染一张二维图片,求与Ground True的损失(loss),对三维场景的参数求偏导(Partial derivatives),即可使用梯度下降(Gradient descent)的方法得到和GT最相似的三维场景参数

问题:

  1. 传统的渲染器并不能对参数求偏导:搭建一个可微渲染器
  2. 很多参数不连续:对不连续的参数换元,并乘以一个平滑函数

NeRF

《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》

NeRF的任务是从一组已知的图片出发,得到其他视角下的图片

  1. 环绕物体拍摄一组2d的照片,在神经网络中构建一个5维的函数,输入为世界坐标$(x,y,z)$和视角$(\theta,\phi)$,输出为体密度和颜色
  2. 使用光线步进的方式进行体渲染

nerf

Gaussian Splatting

与NeRF类似,Gaussian Splatting也是从多个视角的图片出发,构建场景描述,通过高斯点染的方式,生成新视图

高斯点染的概念和光栅化很像,使用一个个椭球状的2D高斯函数为图元,将3D场景映射到2D图像上

未来帧预测

旨在基于已有的视频内容生成未来的帧序列,常用于自动驾驶、异常检测、视频压缩、视频编辑、动画制作

  • 外观约束(Spatial Constraints):基于像素强度和梯度等空间信息,确保未来帧与已有帧外观相似
  • 动作约束(Temporal Constraints):基于光流等运动信息,确保未来帧与已有帧连贯

NLP

自然语言处理

BPE

Byte Pair Encoding,字节对编码

一种子词切分技术,通过将文本中的字符或字节对进行统计和合并,生成更小的子词单位,从而实现对文本的切分

  1. 构建词汇表
  2. 统计字符、字节的出现频率
  3. 按照频率从高到低合并为一个单独的字符,循环进行,直到没有字符对可以合并
  4. 得到最终的词汇表

Seq2Seq

Sequence-to-Sequence

  1. 编码器:将序列输入转为一个固定长度的上下文向量
  2. 解码器:使用上下文向量和过去生成的输出序列,循环生成一个元素,直到达到某些条件(比如已经输出一个完整序列、输出了一个终止符号)

seq2seq

Attention

评论