当前位置:
X-MOL 学术
›
ACM Trans. Graph.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
ACM Transactions on Graphics ( IF 7.8 ) Pub Date : 2024-11-19 , DOI: 10.1145/3687935 Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
ACM Transactions on Graphics ( IF 7.8 ) Pub Date : 2024-11-19 , DOI: 10.1145/3687935 Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V 3 (Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V 3 , outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.
中文翻译:
V^3:通过可流式 2D 动态高斯在移动设备上查看体积视频
像 2D 视频一样无缝体验高保真体积视频是一个长期的梦想。然而,由于计算和带宽限制,当前的动态 3DGS 方法尽管渲染质量很高,但在移动设备上进行流式处理时面临挑战。在本文中,我们介绍了 V 3(查看体积视频),这是一种通过动态高斯流实现高质量移动渲染的新方法。我们的主要创新是将动态 3DGS 视为 2D 视频,从而促进硬件视频编解码器的使用。此外,我们提出了一个两阶段训练策略,以快速的训练速度降低存储需求。第一阶段采用哈希编码和浅层 MLP 来学习运动,然后通过修剪减少高斯数量以满足流要求,而第二阶段使用残差熵损失和时间损失来微调其他高斯属性,以提高时间连续性。这种策略将运动和外观分开,在紧凑的存储要求下保持高渲染质量。同时,我们设计了一个多平台播放器来解码和渲染 2D 高斯视频。广泛的实验证明了 V 3 的有效性 ,通过在常见设备上实现高质量的渲染和流式传输,性能优于其他方法,这在以前是前所未有的。作为第一个在移动设备上流式传输动态高斯函数的播放器,我们的配套播放器为用户提供了前所未有的体积视频体验,包括平滑滚动和即时分享。我们的项目页面包含源代码,请访问 https://authoritywang.github.io/v3/。
更新日期:2024-11-19
中文翻译:
V^3:通过可流式 2D 动态高斯在移动设备上查看体积视频
像 2D 视频一样无缝体验高保真体积视频是一个长期的梦想。然而,由于计算和带宽限制,当前的动态 3DGS 方法尽管渲染质量很高,但在移动设备上进行流式处理时面临挑战。在本文中,我们介绍了 V 3(查看体积视频),这是一种通过动态高斯流实现高质量移动渲染的新方法。我们的主要创新是将动态 3DGS 视为 2D 视频,从而促进硬件视频编解码器的使用。此外,我们提出了一个两阶段训练策略,以快速的训练速度降低存储需求。第一阶段采用哈希编码和浅层 MLP 来学习运动,然后通过修剪减少高斯数量以满足流要求,而第二阶段使用残差熵损失和时间损失来微调其他高斯属性,以提高时间连续性。这种策略将运动和外观分开,在紧凑的存储要求下保持高渲染质量。同时,我们设计了一个多平台播放器来解码和渲染 2D 高斯视频。广泛的实验证明了 V 3 的有效性 ,通过在常见设备上实现高质量的渲染和流式传输,性能优于其他方法,这在以前是前所未有的。作为第一个在移动设备上流式传输动态高斯函数的播放器,我们的配套播放器为用户提供了前所未有的体积视频体验,包括平滑滚动和即时分享。我们的项目页面包含源代码,请访问 https://authoritywang.github.io/v3/。