当前位置:
X-MOL 学术
›
arXiv.cs.LG
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
PRDP:扩散模型大规模奖励微调的近端奖励差异预测
arXiv - CS - Machine Learning Pub Date : 2024-02-13 , DOI: arxiv-2402.08714
Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou
arXiv - CS - Machine Learning Pub Date : 2024-02-13 , DOI: arxiv-2402.08714
Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou
奖励微调已成为一种将基础模型与下游目标结合起来的有前途的方法。通过使用强化学习 (RL) 来最大化反映人类偏好的奖励,在语言领域取得了显着的成功。然而,在视觉领域,现有的基于强化学习的奖励微调方法因其在大规模训练中的不稳定性而受到限制,导致它们无法泛化到复杂的、看不见的提示。在本文中,我们提出了近端奖励差异预测(PRDP),首次在具有超过 100K 提示的大规模提示数据集上实现了扩散模型的稳定黑盒奖励微调。我们的关键创新是奖励差异预测(RDP)目标,它具有与 RL 目标相同的最优解,同时具有更好的训练稳定性。具体来说,RDP 目标是一个监督回归目标,它要求扩散模型根据去噪轨迹预测生成的图像对的奖励差异。我们从理论上证明,获得完美奖励差异预测的扩散模型正是 RL 目标的最大化者。我们进一步开发了一种具有最近更新的在线算法,以稳定地优化 RDP 目标。在实验中,我们证明 PRDP 可以在小规模训练中与基于强化学习的成熟方法的奖励最大化能力相匹配。此外,通过对来自人类偏好数据集 v2 和 Pick-a-Pic v1 数据集的文本提示进行大规模训练,PRDP 在各种复杂的、看不见的提示上实现了卓越的生成质量,而基于 RL 的方法完全失败。
"点击查看英文标题和摘要"
更新日期:2024-02-16

"点击查看英文标题和摘要"