Skip to content

价值引导规划

该管道基于 Michael Janner、Yilun Du、Joshua B. Tenenbaum 和 Sergey Levine 的论文《Planning with Diffusion for Flexible Behavior Synthesis》(https://huggingface.co/papers/2205.09991)。

论文的摘要如下:

基于模型的强化学习方法通常仅使用学习来估计一个近似的动态模型,将其余的决策工作交给经典的轨迹优化器。虽然概念上简单,但这种组合存在许多经验上的不足,表明学习到的模型可能不适合标准的轨迹优化。在本文中,我们考虑将尽可能多的轨迹优化管道折叠到建模问题中,使得从模型中采样和使用它进行规划几乎相同。我们的技术方法的核心在于一个扩散概率模型,该模型通过迭代去噪轨迹来进行规划。我们展示了分类器引导采样和图像修复如何被重新解释为连贯的规划策略,探索了基于扩散的规划方法的非同寻常且有用的特性,并在强调长期决策和测试时灵活性的控制设置中展示了我们框架的有效性。

你可以在项目页面原始代码库上找到有关该模型的更多信息,或者在演示笔记本中尝试它。

运行该模型的脚本可在此处获取:链接

ValueGuidedRLPipeline

[[autodoc]] diffusers.experimental.ValueGuidedRLPipeline