当前位置: X-MOL 学术arXiv.eess.AS › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

利用多扩展频率动态卷积突破声音事件检测的极限

arXiv - EE - Audio and Speech Processing Pub Date : 2024-06-19 , DOI: arxiv-2406.13312
Hyeonuk Nam, Yong-Hwa Park


频率动态卷积(FDY conv)一直是声音事件检测(SED)领域的里程碑,但由于多个基础内核,它导致模型大小大幅增加。在这项工作中,我们提出了部分频率动态卷积(PFD conv),它将静态传统2D卷积分​​支输出和动态FDY conv分支输出连接起来,以便在保持性能的同时最大限度地减少模型尺寸的增加。此外,我们提出了多扩展频率动态卷积(MDFD conv),它将具有不同扩展大小集的多个扩展频率动态卷积(DFD conv)分支和单个卷积模块内的静态分支集成在一起,实现了复调声音的 3.2% 改进FDY 转化率的检测分数 (PSDS)所提出的方法具有广泛的消融研究,进一步增强了对 FDY 转换变体的理解和可用性。




"点击查看英文标题和摘要"

更新日期:2024-06-21
down
wechat
bug