当前位置: X-MOL 学术arXiv.cs.CV › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-10-28 , DOI: arxiv-2110.15267
Haonan Yan, Jiaqi Chen, Xujie Zhang, Shengkai Zhang, Nianhong Jiao, Xiaodan Liang, Tianxiang Zheng

Recovering dense human poses from images plays a critical role in establishing an image-to-surface correspondence between RGB images and the 3D surface of the human body, serving the foundation of rich real-world applications, such as virtual humans, monocular-to-3d reconstruction. However, the popular DensePose-COCO dataset relies on a sophisticated manual annotation system, leading to severe limitations in acquiring the denser and more accurate annotated pose resources. In this work, we introduce a new 3D human-body model with a series of decoupled parameters that could freely control the generation of the body. Furthermore, we build a data generation system based on this decoupling 3D model, and construct an ultra dense synthetic benchmark UltraPose, containing around 1.3 billion corresponding points. Compared to the existing manually annotated DensePose-COCO dataset, the synthetic UltraPose has ultra dense image-to-surface correspondences without annotation cost and error. Our proposed UltraPose provides the largest benchmark and data resources for lifting the model capability in predicting more accurate dense poses. To promote future researches in this field, we also propose a transformer-based method to model the dense correspondence between 2D and 3D worlds. The proposed model trained on synthetic UltraPose can be applied to real-world scenarios, indicating the effectiveness of our benchmark and model.

中文翻译:

UltraPose:通过人体去耦 3D 模型合成具有 10 亿个点的密集姿势

从图像中恢复密集的人体姿势在建立 RGB 图像和人体 3D 表面之间的图像到表面的对应关系方面起着至关重要的作用,为丰富的现实世界应用奠定了基础,例如虚拟人、单眼到3d 重建。然而,流行的 DensePose-COCO 数据集依赖于复杂的手动注释系统,导致在获取更密集、更准确的注释姿势资源方面受到严重限制。在这项工作中,我们引入了一个新的 3D 人体模型,该模型具有一系列解耦参数,可以自由控制身体的生成。此外,我们基于这种解耦 3D 模型构建了一个数据生成系统,并构建了一个超密集的合成基准 UltraPose,包含大约 13 亿个对应点。与现有的手动注释 DensePose-COCO 数据集相比,合成 UltraPose 具有超密集的图像到表面的对应关系,没有注释成本和错误。我们提出的 UltraPose 提供了最大的基准和数据资源,用于提升模型预测更准确密集姿势的能力。为了促进该领域的未来研究,我们还提出了一种基于变换器的方法来模拟 2D 和 3D 世界之间的密集对应关系。在合成 UltraPose 上训练的拟议模型可以应用于现实世界的场景,表明我们的基准和模型的有效性。我们提出的 UltraPose 提供了最大的基准和数据资源,用于提升模型预测更准确密集姿势的能力。为了促进该领域的未来研究,我们还提出了一种基于变换器的方法来模拟 2D 和 3D 世界之间的密集对应关系。在合成 UltraPose 上训练的拟议模型可以应用于现实世界的场景,表明我们的基准和模型的有效性。我们提出的 UltraPose 提供了最大的基准和数据资源,用于提升模型预测更准确密集姿势的能力。为了促进该领域的未来研究,我们还提出了一种基于变换器的方法来模拟 2D 和 3D 世界之间的密集对应关系。在合成 UltraPose 上训练的拟议模型可以应用于现实世界的场景,表明我们的基准和模型的有效性。
更新日期:2021-10-29
down
wechat
bug