研究开发可解释音频的人工智能以揭开自动驾驶不为人知的秘密

盖世汽车 Elisha 2024-02-28 21:33:23 核心提示：研究人员致力于开发可解释和透明的模型，以揭开复杂的人工智能模型的面纱，并将它们统称为可解释性人工智能（XAI）方法。

盖世汽车讯现在，人工智能决策普遍应用于自动驾驶汽车、患者诊断和法律咨询，需要具有安全可靠的性能。研究人员致力于开发可解释和透明的模型，以揭开复杂的人工智能模型的面纱，并将它们统称为可解释性人工智能（XAI）方法。据外媒报道，在期刊《智能计算（Intelligent Computing）》上发表的一篇综述文章中，研究团队专门提供了他们对音频XAI模型的见解。

研究开发可解释音频的人工智能以揭开自动驾驶不为人知的秘密
图片来源于网络，如有侵权，请联系删除

（图片来源：spj.science.org）

尽管对音频任务的研究比视觉任务少，但它们同样具有重要的表达能力。音频信号很容易理解和交流，因为通常不像视觉信号那样依赖于专家的解释。本质上来说，语音识别和环境声音分类等场景是基于特定的固有音频。

该综述将现有的音频XAI方法分为两类，包括适用于音频模型的通用方法和音频特定方法：

● 使用通用方法需要选择起初为非音频任务而构建的通用模型，并对其进行调整以适应特定的音频任务。这些方法通过各种输入表示（如光谱图和波形）和不同的输出格式（如特征、示例和概念）来解释音频模型。常见的通用方法包括引导式反向传播，通过突出输入数据中最相关的部分来增强标准的反向传播过程；LIME用更简单的模型来概略估算复杂的模型；以及利用网络剖析（network dissection）来分析神经网络学习的内部表征。

● 另一方面，音频特定方法专为音频任务而设计，旨在将音频输入分解成有意义的组件，专注于音频数据的听觉本质。例如，CoughLIME（在COVID-19检测中为咳嗽的声音提供超声解释）和audioLIME（赋予音频组件重要性，使用源分离来解释音乐标签模型）。

XAI方法还可以按它们的阶段、范围、输入数据类型和输出格式进行分类。阶段指的是在训练过程之前、期间或之后生成解释的阶段；范围是确定该解释是针对整个模型还是特定输入。XAI通常涉及不同的策略，例如使用预定义规则或特定的输入示例进行解释，突出最重要的特性、重点领域或输入变化，以及使用更简单的模型来局部解释复杂的模型。

该研究团队确定了若干种使音频模型更容易解释的方法，例如使用原始波形或光谱图来提供可听的解释，以及在音频数据中定义更高级别的概念，这类似于在图像数据中使用超像素的方式。他们还认为，音频解释的表达能力可以扩展至非音频模型，为基于视觉的用户交互提供补充沟通渠道或成为可能。

‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌⁠‌‌‌‌⁠‌‌⁠‌‌‌‌‌⁠‌‌‌‌‌⁠‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌⁠‌‌⁠‌‌‌‌‌⁠‌‌‌‌‌⁠‌‌‌⁠‌‌‌‌‌⁠‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌⁠‌‌⁠‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌⁠‌‌‌‌‌‌⁠‌‌‌‌‌‌

本文地址：https://auto.gasgoo.com/news/202402/28I70383876C601.shtml

文章标签：自动驾驶