ReubenSun

强化学习与扩散模型

强化学习与扩散模型在不远的过去，强化学习被各种唱衰，环境难以模拟、算法难以泛化、激励难以设计、应用场景有限等等。很多人认为强化学习很酷，但就是“没用”。但随着LLM的兴起，RL可以帮助LLM实现对齐人类偏好、提升生成质量、低成本Post Train，RL瞬间成为了一种杀手级应用。最近一段时间，无论是LLM、Diffusion、具身智能，都开始搞RL了。 RL这种范式，在Diffusion训...

2025-11-12 ai

阅读全文