主页
分类
标签
归档
主页
分类
标签
归档
强化学习与扩散模型
强化学习与扩散模型 在不远的过去,强化学习被各种唱衰,环境难以模拟、算法难以泛化、激励难以设计、应用场景有限等等。很多人认为强化学习很酷,但就是“没用”。但随着LLM的兴起,RL可以帮助LLM实现对齐人类偏好、提升生成质量、低成本Post Train,RL瞬间成为了一种杀手级应用。最近一段时间,无论是LLM、Diffusion、具身智能,都开始搞RL了。 RL这种范式,在Diffusion训...
2025-11-12
ai
ai
阅读全文