当前位置:
X-MOL 学术
›
IEEE Trans. Inform. Forensics Secur.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
A Video Visual Security Metric Based on Spatiotemporal Self-Attention
IEEE Transactions on Information Forensics and Security ( IF 6.3 ) Pub Date : 2024-09-12 , DOI: 10.1109/tifs.2024.3459731 Bo Tang 1 , Fengdong Li 1 , Jianbo Liu 1 , Cheng Yang 1
IEEE Transactions on Information Forensics and Security ( IF 6.3 ) Pub Date : 2024-09-12 , DOI: 10.1109/tifs.2024.3459731 Bo Tang 1 , Fengdong Li 1 , Jianbo Liu 1 , Cheng Yang 1
Affiliation
The Visual Security Index (VSI) of encrypted videos measure the security of encryption algorithms by evaluating the visual information content, which provides a critical evaluation criterion for selective encryption. The VSI for encrypted videos needs to assess security in both spatial and temporal domains. Existing visual security metrics, which rely on averaging, optical flow, and convolutions, fail to capture information leakage in the temporal domain effectively. This paper proposes a spatiotemporal self-attention-based video security assessment model called Spatiotemporal Self Attention (StSA). In the spatial domain, windowed self-attention is used to calculate regional correlations within video frames. By introducing multi-layer outputs, a multi-depth self-attention network named Multi-Depth Swin-Transformer (MDST) is constructed to compute the regional correlation within video frames. A weak label calculation method based on edge similarity is proposed to calculate the scores for frames and blocks based on the video Mean Opinion Score (MOS), thereby supporting the pre-training of spatial models. In the temporal domain, considering human visual persistence characteristics and the one-way relationship between video frames, temporal unidirectional window self-attention is proposed to calculate frame correlations in the temporal sequence. Finally, the visual security index score for encrypted videos is obtained by combining the spatiotemporal correlation changes of encrypted and plaintext videos. Experimental results show that StSA achieves a Pearson Linear Correlation Coefficient (PLCC) of 0.955 and a Root Mean Squared Error (RMSE) of 0.458 on the encryption datasets. Compared to other visual security metrics, StSA demonstrates higher accuracy and correlation, effectively capturing spatiotemporal information leakage in encrypted videos and reflecting the human perception of the security.
中文翻译:
基于时空自注意力的视频视觉安全度量
加密视频视觉安全指数(VSI)通过评估视觉信息内容来衡量加密算法的安全性,为选择性加密提供了关键的评价标准。加密视频的VSI需要评估空间和时间域的安全性。现有的视觉安全指标依赖于平均、光流和卷积,无法有效捕获时域中的信息泄漏。本文提出了一种基于时空自注意力的视频安全评估模型,称为时空自注意力(StSA)。在空间域中,窗口自注意力用于计算视频帧内的区域相关性。通过引入多层输出,构建了一个名为多深度旋转变换器(MDST)的多深度自注意力网络来计算视频帧内的区域相关性。提出一种基于边缘相似度的弱标签计算方法,根据视频平均意见得分(MOS)计算帧和块的得分,从而支持空间模型的预训练。在时域,考虑到人类视觉暂留特性和视频帧之间的单向关系,提出时间单向窗口自注意力来计算时间序列中的帧相关性。最后,结合加密视频和明文视频的时空相关性变化,得到加密视频的视觉安全指数评分。实验结果表明,StSA 在加密数据集上实现了 0.955 的皮尔逊线性相关系数(PLCC)和 0.458 的均方根误差(RMSE)。 与其他视觉安全指标相比,StSA表现出更高的准确性和相关性,有效捕获加密视频中的时空信息泄漏,反映人类对安全的感知。
更新日期:2024-09-12
中文翻译:
基于时空自注意力的视频视觉安全度量
加密视频视觉安全指数(VSI)通过评估视觉信息内容来衡量加密算法的安全性,为选择性加密提供了关键的评价标准。加密视频的VSI需要评估空间和时间域的安全性。现有的视觉安全指标依赖于平均、光流和卷积,无法有效捕获时域中的信息泄漏。本文提出了一种基于时空自注意力的视频安全评估模型,称为时空自注意力(StSA)。在空间域中,窗口自注意力用于计算视频帧内的区域相关性。通过引入多层输出,构建了一个名为多深度旋转变换器(MDST)的多深度自注意力网络来计算视频帧内的区域相关性。提出一种基于边缘相似度的弱标签计算方法,根据视频平均意见得分(MOS)计算帧和块的得分,从而支持空间模型的预训练。在时域,考虑到人类视觉暂留特性和视频帧之间的单向关系,提出时间单向窗口自注意力来计算时间序列中的帧相关性。最后,结合加密视频和明文视频的时空相关性变化,得到加密视频的视觉安全指数评分。实验结果表明,StSA 在加密数据集上实现了 0.955 的皮尔逊线性相关系数(PLCC)和 0.458 的均方根误差(RMSE)。 与其他视觉安全指标相比,StSA表现出更高的准确性和相关性,有效捕获加密视频中的时空信息泄漏,反映人类对安全的感知。