当前位置:
X-MOL 学术
›
ACM Trans. Graph.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
MVImgNet2.0: A Larger-scale Dataset of Multi-view Images
ACM Transactions on Graphics ( IF 7.8 ) Pub Date : 2024-11-19 , DOI: 10.1145/3687973 Yushuang Wu, Luyue Shi, Haolin Liu, Hongjie Liao, Lingteng Qiu, Weihao Yuan, Xiaodong Gu, Zilong Dong, Shuguang Cui, Xiaoguang Han
ACM Transactions on Graphics ( IF 7.8 ) Pub Date : 2024-11-19 , DOI: 10.1145/3687973 Yushuang Wu, Luyue Shi, Haolin Liu, Hongjie Liao, Lingteng Qiu, Weihao Yuan, Xiaodong Gu, Zilong Dong, Shuguang Cui, Xiaoguang Han
MVImgNet is a large-scale dataset that contains multi-view images of ~220k real-world objects in 238 classes. As a counterpart of ImageNet, it introduces 3D visual signals via multi-view shooting, making a soft bridge between 2D and 3D vision. This paper constructs the MVImgNet2.0 dataset that expands MVImgNet into a total of ~520k objects and 515 categories, which derives a 3D dataset with a larger scale that is more comparable to ones in the 2D domain. In addition to the expanded dataset scale and category range, MVImgNet2.0 is of a higher quality than MVImgNet owing to four new features: (i) most shoots capture 360° views of the objects, which can support the learning of object reconstruction with completeness; (ii) the segmentation manner is advanced to produce foreground object masks of higher accuracy; (iii) a more powerful structure-from-motion method is adopted to derive the camera pose for each frame of a lower estimation error; (iv) higher-quality dense point clouds are reconstructed via advanced methods for objects captured in 360 ° views, which can serve for downstream applications. Extensive experiments confirm the value of the proposed MVImgNet2.0 in boosting the performance of large 3D reconstruction models. MVImgNet2.0 will be public at luyues.github.io/mvimgnet2 , including multi-view images of all 520k objects, the reconstructed high-quality point clouds, and data annotation codes, hoping to inspire the broader vision community.
中文翻译:
MVImgNet2.0:更大规模的多视图图像数据集
MVImgNet 是一个大规模数据集,其中包含 238 个类中 ~220k 个真实世界对象的多视图图像。作为 ImageNet 的对应产品,它通过多视角拍摄引入 3D 视觉信号,在 2D 和 3D 视觉之间架起了一座软桥梁。本文构建了 MVImgNet2.0 数据集,将 MVImgNet 扩展为总共 ~520k 个对象和 515 个类别,从而得出了一个比例尺更大的 3D 数据集,该数据集与 2D 域中的数据集更具可比性。除了扩展的数据集规模和类别范围外,MVImgNet2.0 的质量比 MVImgNet 更高,这得益于四个新功能:(i) 大多数拍摄可以捕捉物体的 360° 视图,可以支持完整地学习物体重建;(ii) 改进了分割方式以产生更高精度的前景对象掩码;(iii) 采用更强大的运动结构方法来推导出较低估计误差的每一帧的相机位姿;(iv) 通过先进的方法为 360° 视图中捕获的对象重建更高质量的密集点云,这可以用于下游应用。广泛的实验证实了所提出的 MVImgNet2.0 在提高大型 3D 重建模型性能方面的价值。MVImgNet2.0 将于 luyues.github.io/mvimgnet2 上公开,包括所有 520k 个对象的多视图图像、重建的高质量点云和数据标注代码,希望能启发更广泛的视觉社区。
更新日期:2024-11-19
中文翻译:
MVImgNet2.0:更大规模的多视图图像数据集
MVImgNet 是一个大规模数据集,其中包含 238 个类中 ~220k 个真实世界对象的多视图图像。作为 ImageNet 的对应产品,它通过多视角拍摄引入 3D 视觉信号,在 2D 和 3D 视觉之间架起了一座软桥梁。本文构建了 MVImgNet2.0 数据集,将 MVImgNet 扩展为总共 ~520k 个对象和 515 个类别,从而得出了一个比例尺更大的 3D 数据集,该数据集与 2D 域中的数据集更具可比性。除了扩展的数据集规模和类别范围外,MVImgNet2.0 的质量比 MVImgNet 更高,这得益于四个新功能:(i) 大多数拍摄可以捕捉物体的 360° 视图,可以支持完整地学习物体重建;(ii) 改进了分割方式以产生更高精度的前景对象掩码;(iii) 采用更强大的运动结构方法来推导出较低估计误差的每一帧的相机位姿;(iv) 通过先进的方法为 360° 视图中捕获的对象重建更高质量的密集点云,这可以用于下游应用。广泛的实验证实了所提出的 MVImgNet2.0 在提高大型 3D 重建模型性能方面的价值。MVImgNet2.0 将于 luyues.github.io/mvimgnet2 上公开,包括所有 520k 个对象的多视图图像、重建的高质量点云和数据标注代码,希望能启发更广泛的视觉社区。