当前位置:
X-MOL 学术
›
arXiv.cs.CV
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
DiffPose:使用扩散模型的多假设人体姿势估计
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2022-11-29 , DOI: arxiv-2211.16487 Karl Holmquist, Bastian Wandt
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2022-11-29 , DOI: arxiv-2211.16487 Karl Holmquist, Bastian Wandt
传统上,单眼 3D 人体姿势估计采用机器学习模型来预测给定输入图像最可能的 3D 姿势。然而,单个图像可能非常模糊,并为 2D-3D 提升步骤引入多个似是而非的解决方案,从而导致过于自信的 3D 姿势预测器。为此,我们提出了一种条件扩散模型 \emph{DiffPose},它可以预测给定输入图像的多个假设。与类似方法相比,我们的扩散模型简单明了,避免了密集的超参数调整、复杂的网络结构、模式崩溃和不稳定的训练。此外,我们解决了常见的两步法的问题,该方法首先通过联合热图估计 2D 联合位置的分布,并根据一阶或二阶矩统计连续逼近它们。由于热图的这种简化删除了关于可能正确但标记不太可能的联合位置的有效信息,我们建议将热图表示为一组二维联合候选样本。为了从这些样本中提取有关原始分布的信息,我们引入了调节扩散模型的 \emph{embedding transformer}。通过实验,我们表明 DiffPose 略微改进了简单姿势的多假设姿势估计的最新技术水平,并且在高度模糊的姿势中大大优于它。为了从这些样本中提取有关原始分布的信息,我们引入了调节扩散模型的 \emph{embedding transformer}。通过实验,我们表明 DiffPose 略微改进了简单姿势的多假设姿势估计的最新技术水平,并且在高度模糊的姿势中大大优于它。为了从这些样本中提取有关原始分布的信息,我们引入了调节扩散模型的 \emph{embedding transformer}。通过实验,我们表明 DiffPose 略微改进了简单姿势的多假设姿势估计的最新技术水平,并且在高度模糊的姿势中大大优于它。
"点击查看英文标题和摘要"
更新日期:2022-11-30
"点击查看英文标题和摘要"