在2024年DCASE(Detection and Classification of Acoustic Scenes and Events)挑战赛中,由清华大学电子工程系联合华控智加公司、上海交通大学计算机科学与工程系、华北电力大学组成的联队在低复杂度声学场景分类、工业设备异常声音检测两个赛道斩获冠军。
参赛团队主要由电子工程系师生和系友组成,其中教师包括刘加教授、樊平毅教授、张卫强副教授,系友包括上海交通大学钱彦旻教授、陈谐副教授、华北电力大学路程副教授、华控智加公司吕志强博士,学生包括博士生姜安柏、韩冰等。团队采用创新性的时序信号大模型技术,显著提升了系统性能,取得了颠覆性效果。提交的系统包揽了任务1的冠军和任务2的冠亚军,并获得挑战赛10个任务赛道年度评委会特别奖(Judges' award)。
DCASE挑战赛是由IEEE AASP主办的声音事件领域的权威竞赛,自2013年发起以来已举办十届。2024年DCASE挑战赛设置了10个任务,吸引了全球108支队伍参赛,共提交了321个作品,涵盖了许多知名院校和企业参加。
任务1:低复杂度声学场景分类
声学场景分类旨在自动将音频记录归类为特定的环境声音场景,如“地铁站”、“城市公园”或“公共广场”。今年,参与者被鼓励额外应对另一个问题,即标记训练数据的有限可用性,挑战赛排名基于用于训练的标记示例数量以及系统在具有多样化录音条件的测试集上的性能。参与者将在预定义的训练集上训练他们的系统,这些训练集的项目数量各不相同。
团队基于MobileNet及CP-Mobile的模型,引入了空间可分离卷积操作,有效提升了低复杂度模型的识别性能。此外,团队选取并融合了多个Transformer架构作为教师模型,用于模型蒸馏。最后,团队提出了“迭代蒸馏剪枝”的模型压缩方案,不同于常见方法直接一步将模型压缩到需要的复杂度,而是逐渐多步迭代压缩,有效降低了模型在压缩中的性能损失。
任务2:工业设备异常声音检测
异常声音检测技术旨在仅有正常样本训练的情况下进行异常检测,今年的任务采用开发和评估数据集包含不同机器类型的方式进行,对于评估数据集,机器类型是在以前的任务中未曾见过的新类型。此外,主办方还将开发数据集中的机器类型的部分额外属性信息隐藏,用以模拟一些现实世界的情况。挑战赛期待参与者开发出有助于解决零样本学习问题的技术,并训练出能够具备域泛化能力的稳健模型。
面对今年的技术挑战,团队提出基于预训练的异常检测系统,主要技术如下:
微调基于BEATs和EAT的三种预训练模型,将通用音频知识注入异常检测系统。
使用层次聚类获得缺失的工况,采用部分缺失的工况和预测补全后的工况,从粗细两种粒度对模型进行训练。
引入低秩微调 (LoRA) 技术,提升迁移学习时的鲁棒性。
使用SMOTE算法对目标域样本进行过采样,再对源域和目标域分域检测,提升跨域的鲁棒性。
使用权重平均、模型融合两种方法,组合多个模型,进一步提升异常检测性能。
供稿|信息认知与智能系统研究所
编辑|陶旋姿
审核|汪 玉 沈 渊 李冬梅