主页
分类
标签
归档
主页
分类
标签
归档
强化学习
强化学习 在不远的过去,强化学习被各种唱衰,环境难以模拟、算法难以泛化、激励难以设计、应用场景有限等等,很多人认为强化学习很酷,但就是“没用”。但随着LLM的兴起,RL可以帮助LLM实现对齐人类偏好、、提升生成质量、低成本Post Train,RL瞬间成为了一种杀手级应用。于是最近一段时间,无论是LLM、Diffusion、具身智能,都开始搞RL了。 我最近打算使用RL训练Diffusion...
2025-09-04
ai
ai
阅读全文