【AAAI2018论文+代码】鸡尾酒会中的听觉注意性选择

相关工作发表在人工智能领域的顶级国际会议AAAI2018,论文全文和示范代码参考:https://github.com/jacoxu/ASAM

鸡尾酒会问题(Cocktail party problem)最早是由英国的认知科学家Edward Colin Cherry于1953年[1]提出,描述了人类听觉系统在复杂听觉场景下的注意性选择能力。例如,当我们身处多说话人的鸡尾酒会场景中,我们可以很容易地将注意力集中在某个感兴趣的说话人语音上,并忽略其他说话人语音的干扰。近些年,随着电子设备和人工智能技术的飞速迅速,人机语音交互的重要性日益凸显,在现实生活中得到非常广泛的应用。然而,由于干扰声源的存在,真实复杂环境下的语音交互技术远没有达到令人满意的程度。现阶段,开发一个在复杂听觉场景下具有较强自适应性和鲁棒性的计算听觉系统仍是一件极具挑战性的任务。

受行为与认知神经科学领域对听觉选择机理的探索[2,3]和外部记忆神经网络的最新进展[4,5]启发,自动化所听觉模型与认知计算团队提出一种听觉注意性选择模型,分别完成自上而下任务导向和自下而上刺激驱动的两个听觉注意任务,如图1所示。模型的框架示意图如图2所示,该模型将说话人的声纹特征沉淀到长时记忆单元中,并通过注意力机制将多说话人的混叠语音输入调制到受关注说话人的语音频率通道上。不同于以往神经记忆网络[6]和神经图灵机[7]中的短时记忆单元,该模型中的长时记忆单元不会在新样本载入时进行记忆复位,而是从模型训练阶段就不断地进行先验知识积累,将数据中获取的说话人声纹特征沉淀到记忆单元中。


图1. 三个说话人混叠语音环境下的自上而下和自下而上的听觉注意任务示例图。其中,自上而下是由任务导向的听觉注意(如我们聚精会神地聆听朋友的对话),而自下而上是由刺激驱动的听觉注意(如忽然地被某种显著音刺激所吸引)。


图2. 融入注意机制和长时记忆的听觉注意性选择示意图(a)模型总体框架图;(b)用于存储说话人声纹特征的长时记忆单元结构图。

通过中、英文两个公开语音数据集WSJ0和THCHS-30上的对比实验表明,听觉注意性选择模型在含噪音的多说话人听觉场景下具有更好的鲁棒性,为复杂环境下的语音信号处理任务提供了一种有效而可行的解决方案。图3呈现了不同长度语音刺激下的听觉注意热力分布图,可以看到随着刺激语音时间的延长,听觉注意的热力分布图和预测语音的语谱图均逐渐趋近于纯净语音语谱图,而且在0.5秒的语音刺激下已经获得较好的听觉注意性能。


图3. 不同刺激语音时长对听觉注意性能的影响(a)0.25秒~32秒刺激语音时长下的评价指标结果;(b)-(d)0.25秒、0.5秒和1秒的刺激语音波形图;(e)两个说话人的混叠语音语谱图;(i)目标说话人的纯净语音语谱图;(f)-(h)不同刺激语音时长下的听觉注意热力图;(j)-(l)不同刺激语音时长下预测输出语音的语谱图。

自动化所听觉模型与认知计算团队主要围绕语音翻译、问答对话、口语交互和虚拟现实等方向的核心问题开展前瞻性科学研究和技术储备,重点关注脑科学与人工智能等多学科的深度交叉融合,希望通过新型神经网络模型和算法突破现有技术的瓶颈,在泛应用场景下达到并超越人类水平。

参考文献:
[1] Cherry, E. C. 1953. Some experiments on the recognition of speech, with one and with two ears. The Journal of the acoustical society of America 25(5):975–979.
[2] Da Costa, S.; van der Zwaag, W.; Miller, L. M.; Clarke, S.; and Saenz, M. 2013. Tuning in to sound: frequency-selective attentional filter in human primary auditory cortex. Journal of Neuroscience 33(5):1858–1863.
[3] Kaya, E. M., and Elhilali, M. 2017. Modelling auditory attention. Philosophical Transactions of the Royal Society of London 372(1714).
[4] Santoro, A.; Bartunov, S.; Botvinick, M.; Wierstra, D.; Lillicrap, T. 2016. Meta-learning with memory-augmented neural networks. In the 33rd International Conference on Machine Learning, 1842—1850.
[5] Kaiser, Ł.; Nachum, O.; Roy, A.; and Bengio, S. 2017. Learning to remember rare events. In 5th International Conference on Learning Representations.
[6] Sukhbaatar, S.; szlam, a.; Weston, J.; and Fergus, R. 2015. End-to-end memory networks. In Advances in Neural Information Processing Systems, 2440–2448.
[7] Graves, A.; Wayne, G.; and Danihelka, I. 2014. Neural turing machines. arXiv preprint arXiv:1410.5401.
[8] Xu, J.; Shi, J.; Liu, G.; Chen, X.; Xu B. 2018. Modeling attention and memory for auditory selection in a cocktail party environment. In Proceedings of the 32nd AAAI Conference on Artificial Intelligence.

原文转载自中科院自动化所微信公众号:casia1956

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>