商车天下

研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密

研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密

盖世汽车 Elisha 2024-02-28 21:33:23 核心提示:研究人员致力于开发可解释和透明的模型,以揭开复杂的人工智能模型的面纱,并将它们统称为可解释性人工智能(XAI)方法。

盖世汽车讯 现在,人工智能决策普遍应用于自动驾驶汽车、患者诊断和法律咨询,需要具有安全可靠的性能。研究人员致力于开发可解释和透明的模型,以揭开复杂的人工智能模型的面纱,并将它们统称为可解释性人工智能(XAI)方法。据外媒报道,在期刊《智能计算(Intelligent Computing)》上发表的一篇综述文章中,研究团队专门提供了他们对音频XAI模型的见解。

研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密
图片来源于网络,如有侵权,请联系删除

研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密
图片来源于网络,如有侵权,请联系删除

(图片来源:spj.science.org)

尽管对音频任务的研究比视觉任务少,但它们同样具有重要的表达能力。音频信号很容易理解和交流,因为通常不像视觉信号那样依赖于专家的解释。本质上来说,语音识别和环境声音分类等场景是基于特定的固有音频。

该综述将现有的音频XAI方法分为两类,包括适用于音频模型的通用方法和音频特定方法:

●  使用通用方法需要选择起初为非音频任务而构建的通用模型,并对其进行调整以适应特定的音频任务。这些方法通过各种输入表示(如光谱图和波形)和不同的输出格式(如特征、示例和概念)来解释音频模型。常见的通用方法包括引导式反向传播,通过突出输入数据中最相关的部分来增强标准的反向传播过程;LIME用更简单的模型来概略估算复杂的模型;以及利用网络剖析(network dissection)来分析神经网络学习的内部表征。

●  另一方面,音频特定方法专为音频任务而设计,旨在将音频输入分解成有意义的组件,专注于音频数据的听觉本质。例如,CoughLIME(在COVID-19检测中为咳嗽的声音提供超声解释)和audioLIME(赋予音频组件重要性,使用源分离来解释音乐标签模型)。

XAI方法还可以按它们的阶段、范围、输入数据类型和输出格式进行分类。阶段指的是在训练过程之前、期间或之后生成解释的阶段;范围是确定该解释是针对整个模型还是特定输入。XAI通常涉及不同的策略,例如使用预定义规则或特定的输入示例进行解释,突出最重要的特性、重点领域或输入变化,以及使用更简单的模型来局部解释复杂的模型。

该研究团队确定了若干种使音频模型更容易解释的方法,例如使用原始波形或光谱图来提供可听的解释,以及在音频数据中定义更高级别的概念,这类似于在图像数据中使用超像素的方式。他们还认为,音频解释的表达能力可以扩展至非音频模型,为基于视觉的用户交互提供补充沟通渠道或成为可能。

‌‌‌​​‌‌​⁠‌​​‌‌‌​​⁠‌​‌​‌​‌​⁠‌‌‌​​‌‌‌⁠‌​‌‌‌​‌‌⁠‌​​​‌‌‌‌⁠‌‌‌​​‌‌‌⁠‌​​‌‌​‌‌⁠‌​​‌​‌‌​⁠‌‌‌​​‌​​⁠‌​‌‌‌​​​⁠‌​​‌​‌‌​⁠‌‌‌​​‌‌​⁠‌​‌‌​​​‌⁠‌​‌‌‌‌​‌⁠‌‌‌​‌​​​⁠‌​‌‌‌‌​‌⁠‌​‌​​‌‌​⁠‌‌‌​​‌‌​⁠‌​​​‌‌‌​⁠‌​​​‌​​​⁠‌‌‌​​‌‌​⁠‌​​‌‌‌​‌⁠‌​​​​​‌‌⁠‌‌‌​​‌‌‌⁠‌​‌​​‌‌​⁠‌​​​​​​‌⁠‌‌‌​​‌‌​⁠‌​‌​‌‌​‌⁠‌​‌​​​‌​⁠‌‌‌​​‌​‌⁠‌​‌​​‌​​⁠‌​​​‌‌​‌⁠‌‌‌​​‌​‌⁠‌​​​‌​​​⁠‌​‌‌​‌‌​⁠‌‌‌​‌​​​⁠‌​‌‌‌‌​‌⁠‌​‌​‌‌​​⁠‌‌‌​‌​​​⁠‌​‌‌‌‌​‌⁠‌​‌‌‌‌​‌

*版权声明:本文为盖世汽车原创文章,如欲转载请遵守 转载说明 相关规定。违反转载说明者,盖世汽车将依法追究其法律责任!

本文地址:https://auto.gasgoo.com/news/202402/28I70383876C601.shtml

文章标签: 自动驾驶  

Copyright © 2024 dw 版权所有

备案号:蜀ICP备2024051291号-1

本站部分内容为转载,不代表本站立场,如有侵权请联系处理。