当前位置:
X-MOL 学术
›
arXiv.eess.AS
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
利用多扩展频率动态卷积突破声音事件检测的极限
arXiv - EE - Audio and Speech Processing Pub Date : 2024-06-19 , DOI: arxiv-2406.13312
Hyeonuk Nam, Yong-Hwa Park
频率动态卷积(FDY conv)一直是声音事件检测(SED)领域的里程碑,但由于多个基础内核,它导致模型大小大幅增加。在这项工作中,我们提出了部分频率动态卷积(PFD conv),它将静态传统2D卷积分支输出和动态FDY conv分支输出连接起来,以便在保持性能的同时最大限度地减少模型尺寸的增加。此外,我们提出了多扩展频率动态卷积(MDFD conv),它将具有不同扩展大小集的多个扩展频率动态卷积(DFD conv)分支和单个卷积模块内的静态分支集成在一起,实现了复调声音的 3.2% 改进FDY 转化率的检测分数 (PSDS)所提出的方法具有广泛的消融研究,进一步增强了对 FDY 转换变体的理解和可用性。

"点击查看英文标题和摘要"