【论文分享】听觉注意 – 2017

日常生活中声音很少孤立地出现。人类和机器一直被嘈杂的声音所淹没,并需要从中整理和搜寻相关的有用信息,这种现象被称之为“鸡尾酒会问题”。解析声学场景的一个关键部分是来自注意力的作用,它通过将感觉系统和认知资源集中到刺激空间的相关信息来调节感知和行为。这里对听觉注意的建模方法进行简单回顾。本综述将重点介绍与注意力相关的大量行为和认知过程,以及对感觉系统的塑造。注意力可以由“自下而上”感觉驱动和“自上而下”任务导向来调节。本质上,它作为一个选择过程或将感觉系统和认知资源集中到声音空间中最相关事件中的过程。这里的相关性是由刺激本身(如大爆炸)或者正在处理的任务,比如在嘈杂的机场听广播。最近的听觉注意计算模型对杂乱听觉场景下感知增强提供了一些关键性的洞察。 1. 引言 在一次鸡尾酒会中,我们的耳朵经常被淹没在由各种声源带来的大量尖锐声音中。尽管有许多明显的干扰因素,称之为“鸡尾酒会问题”,指导我们听觉注意所面临的挑战涉及到复杂的神经网络和认知过程,使得大脑能够解析环境中的信息。这些过程引导我们感知环境,可以专注于感兴趣的谈话中,享受背景音乐,或者警觉任何显著音,比如有人呼唤我们名字或有电话铃声响起。在整个场景分析过程中,注意力通过将感觉系统和认知资源集中到声音空间中相关的信息上,在调节感知和行为方面起着至关重要的作用。本文综述了听觉注意的建模研究,以及它们对听觉注意研究的影响。 注意力不是单一的单向过程。它可以由“自下而上”刺激驱动或“自上而下”任务导向来调节。从根本上来说,注意力是处理信息瓶颈的一种方式,它对进入我们耳朵的大量感觉输入进行采样,并将感觉系统和认知资源引导到声音场景中最相关的事件中。由于听觉场景的复杂性,声音时间的相关性可以由场景本身决定(例如,引人注意的枪声)或者正在处理的任务(比如,在多个竞争声源中追随朋友的声源进行对话)。 虽然在听觉研究社区在注意力研究方面已经产生越来越多的研究兴趣,但在声音系统的背景下开发注意力的计算模型仍没有太多研究。这样的模型需要考虑听觉系统能够适应不断变化的声学环境和任务目标的能力。最近的生理学的发现已经修正了我们对听觉系统中处理方式的观点,取代了感觉皮层中“静态”处理的传统观点,采用更加“活跃”和可延展的映射,以快速适应正在执行的任务、声音环境和听觉场景。许多研究表明,我们的听觉经验可以通过改变个体神经元的感受野特性,重塑皮层回路的整体效应,从而产生显著的局部效应。这些效应延伸到早期感知区域,并指示整个听觉皮层的注意力调制,探索鸡尾酒会环境下听觉通路的分布式处理特性。 虽然听觉注意的神经基础研究正在蓬勃发展,但我们对于自适应刺激或任务导向处理的确切作用尚处于起步阶段。这一领域最大的挑战是缺乏理论支撑,这些理论包括听觉通路中具有自适应和认知过程能够形成复杂听觉场景下的行为和感知的皮质回路机理。相比之下,视觉系统的主动和自适应处理探索的更多。包括视觉丘脑(LGN)中预测编码,初级视觉皮层(V1)中的上下文调制,较高皮质区(V2和V4,MT区)的注意调制,以及顶叶和额叶皮质的决策。尽管如此,最近的理论研究提供了最新的研究表明跨模态的主动注意中存在一些共同的处理过程。 关于理解听觉感知中注意作用的概念框架已经出现了一些观点。大部分研究工作与视觉的理论紧密相关,其中的注意力被视为包含选择、整合以及采样等多方面现象。一种观点认为,注意可以被认为是过滤或选择机制。这种解释直接对应感觉皮层中感受野的特性,神经元可以视为滤波器,其特性可由任务定向注意力调制,并且其活动可以自适应感觉器环境。在更大的范围,这种观点延伸到基于物体或语义的选择过程,从而关注特定的目标或类别的声音(如语音、音乐)参与到特定神经回路中。这一观点与视觉中的选择理论相似,它提出了仅在流水线中处理相关信息的框架,无论是在早期还是后期,作为减轻感知系统有限计算资源的信息瓶颈。另一种观点认为,注意可以被认为是整合机制,其中注意力反馈作为对某些特定感兴趣刺激的偏置处理。在复杂的环境中,许多声音感知理论都支持这种观点,认为注意力就像是一个“胶水”,将属于同一事件的元素绑定在一起。目标形成和选择性注意之间的这种交互作用指导前景和背景的组织,以及声音目标和干扰者感知表示的相互影响。 该综述的目的是提供一个当前在听觉场景分析情况下的构建注意力计算模型方面的概述。图1提供了本综述中的一般概述。这些模型可以分别划分到自下而上或自上而下的听觉注意过程中,尽管它们局限于手工筛选的实验观察。文章还回顾了感觉驱动和任务驱动注意力模型的相关观点,并讨论了一些尝试验证这些模型的工作。该综述还涉及到这些模型在音频系统和听觉技术中的相关应用。   图1. 该综述中描述了听觉注意模型中的两大类。其中,重构技术不是传统声音感知的前馈计算模型,但这些方法对于理解任务导向注意提供了有价值的观点。  2. 听觉注意模型 (a)自下而上注意 在听觉文献中有关自下而上听觉模型的工作非常稀少。这方面的有限努力极大地得益于在视觉领域自下而上注意力(或显著性)方面的研究。事实上,视觉显著性研究已经是一个蓬勃发展的研究领域,已经有了丰富的研究成果,在检查视觉显著性的感知属性,以及其行为相关和内在的神经解剖学方面。另外,视觉显著性的计算模型已经基于这方面知识并采用可利用的标准化眼睛追踪数据集来开发贝叶斯和层次化的感知模型。这些模型不仅可以解释人类在自然场景中的行为,还能够扩展到多种可能的计算机视觉应用中,以解决诸如机器人、医学成像以及监控系统等领域中具有挑战性的视觉场景。 基于视觉模态的传统方法,自下而上听觉注意的早期模型主要借鉴视觉显著性模型。Kayser等人早期在该方向做出一些工作。这项工作将声音的时频表示视为一种“听觉图像”。模型的后端基本上是视觉显著性模型,其中所有特征被缩放以生成多尺度图,然后将其归一化形成听觉显著性图。虽然操作相对简单,该模型能够可靠地匹配人类和猴子在不同场景下对显著音刺激的行为反应。这项工作不仅表明大脑中的显著性处理在感觉模态上具有共享性,而且它还提供了设计心理声学实验的指南,以探索人类听觉自下而上的注意过程。 这一初步工作后来扩展到更复杂的听觉特征分析中。Kalinli和Narayanan同样采用听觉图像和显著性抽取框架,不过扩展了特征集,在时间和频率上引入了基频和方向,因此包含了更多听觉相关线索。它还提供了一种改进的对比计算方法导出特征映射,使得它们对噪声和多个显著位置更加鲁棒。Duangudom和Anderson扩展了特征分析,以结合更多的生物学可能的机制模仿听觉外周和中央系统的处理。这种分析允许推导时频调制特性,模仿哺乳动物听觉皮层中的神经反应。这些神经过程提供了传统听觉刺激的多尺度映射,有效地取代了早期听觉显著性模型中偏好的并行特征映射。虽然显著性分析在本质上类似于基于视觉的模型,但这项研究开始倾向于侧重生物合理性。 尽管他们在将基于视觉的显著性框架扩展到听觉方面相对成功,但是所有上述模型未能解释听觉和视觉处理之间的重要区别,特别是声音作为随时间变化的实体性质。通过将时间(t)-频率(f)图谱作为听觉图像处理,这些模型将T-F维度视为空间X-Y轴,无法将时间轴作为特殊维度处理。事实上,听觉图像方法忽略了时间轴积累和长短期依赖性,并导致基于未来信息和当前信息之间丢失了因果关系。比如,在一个音乐场景中,如Haydn的惊奇交响曲(图2):一个柔和的弦乐通道突然被一个响亮的、完整的管弦乐章打断,这是一个非常突出的部分。如果和弦不久后重复,你可能会再次感到惊奇,但没有第一次那么多,因为你现在已经调整了你对这件事可能发生的预期。如果这段和弦开始有规律地重复,它最终会融入音乐并吸引很少的注意力。现在考虑如果这个音乐反向播放,从开始时反复听到向量的和弦。显著性消失了,发生的事件也不再领观众感到惊奇。只有当音乐被认为是一个时间实体时,才有可能产生惊奇。 图2. Haydn惊奇交响乐摘录的谱图(时间-频率“图像”)。时间标记的部分大约是在第二乐章。令人惊奇的部分是由整个管弦乐队演奏了一段长时间安静的弦乐之后的响亮和弦。如果音乐在时间轴上颠倒过来,惊奇的和弦就不会再令人惊讶了,切换到一个安静的乐章并不像突然切换到一个突如其来乐章那么令人惊奇。这张图表明了听觉显著性对于时间和背景的依赖性。 最早解决这个问题的模型之一类似于Kayser等人提出的时间显著性图,考虑了所有随时间变换的特征,而不是二维图像。特征空间被扩展为包含声音的感知特性:响度、音高以及音色。所有的特征随着时间的推移进行分析,以突出其在视觉模型特征图上规范和整合前的动态特性。相比之下,Tsuchida和Cottrell借鉴视觉方法,提出一种不同的统计学方法。他们的实现方法是将自然声音样本尝试场景统计和当前输入声音的局部快速变化统计相结合。在这个框架中,显著性是一种概率,其中如果它相对于学习的统计数据是不寻常的则标记为显著声音。该模型也是第一个考虑特征使用的计算效率问题,其中采用耳蜗图代替光谱图,并应用主成份分析来减少特征维数,同时保持特征的显著变化。 即使随着时间显著性模型所取得的进展,借鉴视觉领域注意机制的处理过程固然地限制听觉显著性模型的能力。认识到这一点,建模听觉注意力的工作开始从借鉴视觉领域的成果转变为直接从听觉通路已知或假设机制的启发进行建模。由于这个研究领域还处于早期阶段,有一系列可能的机制还需要被探索,并且下面的模型已经探索了不同的途径来模拟自下而上的听觉注意模型。 Kaya和Elhilali最早提出听觉注意模型,它不是基于视觉领域模型,而是受启发于听觉通路的已知处理机制。该模型探讨了预测编码和听觉偏差检测作为可能的机制,确定大脑中的听觉显著性。这种方法非常重视基于前面语音背景对时间轴上的事件处理和当前声音神经反应的形成。Kaya和Elhilali使用了丰富的特征空间来模拟人类对声音的感知。该模型将声学波形映射到高维听觉空间中,显式地编码传入声音的感知响度,基频和音色,建立不断变化的时间特征。注意力模型收集时间轴上的统计特性,并预测未来的感官输入。当输入特征与预测显著不同时,标记为显著音时刻。该模型的另外一个方面是跨特征整合在指导显著性预测中的作用。早期的模型通常采用简单的线性组合,每个特征具有固定的权重。Kaya和Elhilali提出的模型摒弃了一个复杂场景听觉特征的独立性来引导显著感知,该模型由两两特征之间的不对称权重实现提出了跨特征空间的非线性交互,并受心理声学实验的指导。 这项工作中有两个趋势反映在最新的听觉注意模型中:建立声音的概率期望以获得显著性,并利用来自人类听觉感知实验的行为反应来学习与声学特征相关的特性。在Wang等人的工作中进一步探索了从听觉场景中的统计信息中获取显著性的观点。本研究计算Shannon熵作为测量传入声音片段的信息量,并根据他们是否包含大量信息将它们分类为显著的或普通的。这是符合这样的一条概念,由下而上的注意力提醒我们在一个场景中的重要事情。此外,Wang等人的研究提供了一种组合并行通路的复杂系统,包括(i)从MEL频率倒谱系统导出的不同分量上声音特征的时间分析,一种替代和非常流行的基于音调的感知度来表示频率特征的方法;(ii)分析刺激功率谱密度的谱映射和(iii)基于Kayser等人的图像显著性模型。这种复合系统展示了对基于视觉模型进行扩展的优势,并进一步提供了显著性估计的鲁棒性,特别是在真实的噪声场景中。 对比更多听觉显著性的理论方法,Kim等人采用更多的数据驱动方法,利用人类行为的显著性判断去训练线性分类器,进行简单的过滤,然后基于数据驱动权重的特征融合。行为数据的搜集来自会议室会议自然录音中的突出位置,这些数据用来训练模型以最大化特征空间中突出和非突出声音片段之间的分离。结果表示,这种新提出的判别式分类器训练好用来检测时间和频率对比,更具体地,工作起来像事件发生检测器。Tordini等人从相反地方向探讨这个问题,而Kim等人使用没有声学特征的先验只是来指导特征估计,Tordini等人测试声学特征在听觉显著性方面的贡献。其他特征,如时间中心,频谱中心,谐波,有效持续时间和节奏都被发现与显著性等级相关。结果还揭示了这些特征之间的相互作用也符合Kaya和Elhilali的观测。 值得强调的是,听觉显著性研究的挑战之一是对“听觉显著性和什么相关”的开放性解释。之前的视觉显著性主要依赖于眼睛注视的度量,尽管它们存在缺点。而缺乏统一的标准来定义听觉显著性仍然是一个主要的挑战。显著性的场景,比如一个响亮的爆炸,或者女性群体谈话中的男生声音,导致足够大的响度或音高差异,每个听觉显著性模型应该能够检测离群事件。然而,一些必须的更复杂处理听觉事件并不是客观的显著性,比如从蝉鸣中注意蟋蟀的声音。在上述大多数模型中提取基于简单图像的特征不足以捕捉时间动态中的细微变化。此外,特征相互作用在确定感知显著性方面起着重要的作用,这是大多数模型未予以说明的要素。 (b)自上而下注意 与自下而上的注意相反,听觉选择性注意的自上而下模型建立在一个更丰富的工作机制中,需要研究听觉系统中任务驱动注意的神经基础。众所周知,听觉皮层的神经活动很大程度上受到定向注意力调节。胡贝尔等人在20世纪50年代后期较早地发现了当动物注意到新的或令人惊讶的声学事件时,比如猫的叮当声,猫听觉皮层中单个神经元神经活动的调节。这种神经元被称之为听觉皮层中的“注意力单元”。自那时以来,许多研究报告了不同动物模型和不同听觉皮层区域在受控行为条件下类似的“注意力”影响。 利用计算技术表征皮层神经元的调谐特性在研究注意力对皮层活动的适应性方面起着重要作用。具体地说,时频感受野(STRF)是个体神经元对声音事件响应选择性的数学描述。STRF是皮层神经元调谐特性的二维时频表示(如图3所示)。从系统理论的观点来看,每一个神经元都可以被认为是一个滤波器,它的STRF描述了激发神经元的时频属性。行为动物的证据表明,随着行为目标的改变,由它们STRF捕捉到的单个神经元调谐特性迅速地适应。这种神经适应或快速可塑性,起到了增强属于目标和前景的时间神经响应时间和频谱调制,并抑制非目标和背景(如图3所示)。事实上,在注意力的控制下,神经群体似乎增强了目标和背景之间的对比度,从而促进关注感兴趣的声音事件。至关重要的是,这个过程是快速的,由注意力引起,依赖于任务和奖赏结构。它反映了动物的行为状态,并横跨初级和高级听觉区域。 图3. 注意特定的声音特性调节神经频谱感受野(STRFs),并增强注意事件时的神经信号。由小提琴音符制作的频率调制(FMs),表示为频谱图S(t)。当注意FM片段时,STRF适应调制的方向,导致神经响应R(t)的增强。 除了在单神经元水平动物模型中的发现,各种非侵入性技术已经被用于研究人类听众在更为复杂听觉场景中的听觉皮层注意力调节。采用功能核磁共振成像和脑电图(EEG)证实了听觉皮层中神经活动的注意力增强。还观察到由听觉注意力空间和非空间形式引起分布活动的神经效应。不同类型的注意力,特别是基于特征和基于对象的注意,似乎诱导不同的激活区域,如颞平面和颞上回的不同区域。回到动物模型中单个神经元的结果,计算方法的最新进展允许使用脑磁图(MEG)和表面电极来分析人类听者的实验记录,其显示相对于未关注声音,对关注声音会产生更大的激活。更进一步,现在正在开发数学工具,以允许从MEG和EEG记录对集合感受野进行估计,这方面正在奠定有前途的基础以来统一不同框架下的结果,以给出大脑中选择性注意处理的完备解释。 尽管越来越多的工作支持听觉皮层的反应受到注意力的调节,但是将这样的调节过程转换成计算模型的进展非常缓慢。一种建模的方式是明确表征STRFs的适应机制。Mesgarani等人假设注意工作的焦点是将任务相关刺激和干扰背景音分离开。因此,最优STRF可以被建模为能够最大区分目标声音和干扰声音神经元响应的滤波器,从而产生能够应用于听觉输入物理特征的确定性线性系统。在这个框架中,选择性注意力以多种方式工作,通过限定不同感知目标的约束,比如,当倾听短嘀嗒声音寻找漏水源时,优化成本会随时间的推移而增加,或在一个满是小孩的房间中聆听一个成年男人的声音,低沉的基频会被增强。在相对简单的情况下,该模型在单个神经元水平上提供了注意力效应的有理解释。然而,它的局限性在于它逾越听觉注意本身,而是太关注于声音的物理特性(比如,应关注一类声音而不是特定的示例),并且由于其实现方式对于不同任务是固定不变的。在最后的例子中,如果任务是忽略男性声音,则不能保证与注意任务的不同,因为该模型分了两种声源信号(成年男性和儿童),但缺乏对任务需求的概念知识(目标/分离器)。 认识到这些限制,Carlin和Elhilali提出一个框架来解释前景和背景的明确概念,即采用二值标签来区分目标声音片段和由行为任务定义的参考片段。当任务在奖励(前景)和躲避(背景)之间切换时,模型增加任务结构会导致相反的适应模式,与在行为动物初级听觉皮层水平观察到的神经生理反应相一致。该模型被扩展以允许基于对象的注意力选择。这可以将“注意力集中”在基于声音物理特性的简单抽象体上,而不只是声学本身。例如,听演讲作为一个声音类(不管具体的话语和演讲者是谁)需要忽略某特定说话人的声学细节,并对抽象的语音表示做响应以区分和其他类别的特性。研究者对这种基于对象选择作为声音频谱时间动态的幅度和相位分布的约束进行建模,提供的实验结果表明建模的STRFs锐化并定向至符合生理调制效应的目标调制上。未来的研究必须要统一基于特征和基于对象的注意力模型,并提供神经记录数据,可更好地解释声音复杂抽象特征的注意。 另一部分工作是通过将在生理实验中观察到的注意力增益纳入实现听觉场景分析计算模型的各种组件中,以更抽象的方式来模拟选择性注意。Kalinli和Narayanan从显著性模型中使用的生物激励声学特征中提取听觉场景的“要点”,并使用神经网络自动学习给定任务(如场景分类)的最优增益。Patil和Elhilali的实现基于一种假设,即注意力是作为感觉信息贝叶斯表示的一种先验。该模型使用了两阶段声学场景识别的计算框架:特征提取阶段,模仿从耳蜗到初级听觉皮层的听觉通路处理过程,以及对象映射阶段,将特征分类到场景类型中。自上而下注意分别在特征层和对象层通过在提取特征的时频谱滤波器上应用增益,并通过调整场景分类器的参数来优化目标场景来进行工作。 迄今为止的研究工作已经提出一种前馈方法进行注意力建模:给定声音输入,预测神经元反应并将模型输出与大脑反应进行比较。一些最新的研究则采用相反方法通过重建从记录的神经信号中重构声音输入。虽然采用回归方法从神经记录中重构感知输入不是新的工作,然而采用这种范式研究注意力影响的潜力是最近才被挖掘出来,并呈现出令人兴奋的结果。Mesgarani和Chang重建了颅内记录输入的频谱图来展示神经特征编码了声音的显著性声纹特征。重构频谱与注意通道的高能量时频区域具有较高的相关性。此外,Ding和Simon重建了来自MEG记录的输入声音包络,以表明在多说话人听觉场景中,它与注意语音更接近。这种设置已经被扩展到从自噪杂的单次EEG记录来重建语音,这是EEG领域特别重要的发展里程,其中降噪技术加上大量实验的平均值通常是估计神经信号所必需的。基于这个建立好的框架,生物合理的模型正被设计来重建神经记录的输入声音,使用动态状态空间模型和深度神经网络,扩展我们对系统级注意力增益的理解。 3. 听觉注意模型的验证 眼球追踪数据为视觉模型提供了客观的评价指标,但听觉注意模型却缺乏清晰的显著性度量方法。综述中提到的大多数注意力模型使用他们自己的验证数据和度量方法,包括在人类响应的单个神经元活动或精心筛选的声音事件或由实验者确定的显著性事件或注意场景。不幸的是,迄今为止,几乎没有达成共识的最佳途径来探讨注意力对听觉感知的影响,无论是任务导向还是纯粹显著性的注意。 … 继续阅读

【论文分享】听觉皮层 – Current Biology 2007

听觉皮层 通过声音辨别人、动物或其他物体,看似简单,实则依赖一系列复杂的处理过程。首先,声音通过内耳耳蜗上敏感的毛细胞受体转变为电信号,然后由前庭耳蜗的轴突将其编码为执行电位,经过脑干、中脑以及丘脑,信号传递到听觉皮层(如下图A)所示,在这里进行声音的理解和识别。与其他感官系统相比,听觉信号在到达皮层时进行了大量的预处理,并且在许多动物物种中,这种皮质下处理可以解决比较复杂的听觉任务。 因为我们对听觉环境感知所必需的神经处理似乎是在皮层下发生的,所以我们想知道还剩下什么是听觉皮层要做的。通过观察皮质受损所产生的影响可以获得有价值的见解。虽然在哺乳类物种中损伤的程度差别较大,但在灵长类动物(包括人类)中,听觉皮层损伤可导致严重的听力损失,至少是暂时性的,并且不能识别复杂的声音或精确定位声源位置。因此,听觉皮层在听力中起着至关重要的作用,但它如何起作用,仍然是很难理解的。 皮质组织的共同原则 在许多方面,听觉皮层的功能组织和其他感觉模式的皮质类似,比如视觉或躯体感觉皮层。在每种情况下,一个或多个区域被识别,代表皮层处理的第一阶段,以及根据其细胞精细结构、解剖连接和生理响应特性(图B和C)不同的多个周围区域。初级区域通过丘脑接收大量的上行信号,进而投射到“更高层”区域,同样那里也直接接收一些来自丘脑的信息。 在不同的感知系统中,初级皮层区域的共同特征是他们包含合适受体表面的地形表征或地图。因此,初级视觉皮层(V1)中相邻神经元接收眼睛视网膜相邻部分的输入信号,这导致在皮层表面形成视觉世界的表征图。类似地,皮肤每个区域在初级躯体知觉皮层(S1)的不同部分中表征,形成了身体表面的皮层图。同样原理适用于听觉系统,除了位于耳蜗长度不同位置的毛细胞被调制到不同的声音频率上,而不是在空间中的不同位置上。从丘脑到初级听觉皮层(A1)的地形组织投影产生了声音频率的音质分布图。 图:感觉大脑皮层。A:猕猴侧向大脑皮层,绿色为视觉皮层,蓝色为躯体感觉皮层,红色为听觉皮层,需注意:在许多灵长类动物中,听觉皮层大部分隐藏在大脑皮层颞叶和顶叶分隔的外侧裂中。浅粉色阴影显示额叶和颞皮层的区域,虽然不是经典地认为听觉皮层,但是有助于声学信息的处理。人脑的布局也非常相似。B:猕猴听觉皮层的部分区域,被认为是三个“核心”或类似初级区域:A1、R和RT。主要从内侧膝状体复合体的腹侧部接收独立的丘脑输入。核心区域投射到多个环绕“带”区域(粉红色),代表更高层次的听觉处理,依次与“帕拉带”区域相连(未显示)。带和帕拉带中的神经元也接收来自内侧膝状体复合体的其他部分输入,并连接到皮层的颞叶、顶叶和额叶。核心区域和一些带区域包含声频的音质分布图,频率梯度的逆转通常用来确定这些区域的边界。C:猫大脑皮层的侧视图,如同猴子脑皮层,猫的听觉皮层划分为多个区域,包括“类初级”音质分布组织(红色)和更高级的区域(粉红色)。除了初级区域A1,这些由听觉神经科学家命名的不同名称还不能确定哪些猫听觉皮层和猴听觉皮层是同源的。 除了这些地形表征,研究人员怀疑其他功能或组织原则也可能在不同的感觉模式中共享。例如,当在显微镜下观察时,A1和S1几乎没有区别,因为它们表现出几乎相同的六层结构。V1更容易与其他皮质区区分开来,因为在第4层中存在髓鞘轴突的白色条纹-Gennari纹。这是一条高带宽输入层,适用于处理许多哺乳动物在杂乱环境中快速移动时的大规模视觉数据传输率。尽管有助于组织学家或成像者确定V1在大脑中的位置,但无论是听觉、视觉还是躯体感知,解剖细节无法改变皮质是皮质的可能性。 在1990年后期麻省理工学院的Mriganka Sur实验室通过在雪貂上一系列巧妙的实验使得这一概念得到惊人的提升。Sur和他的同事们发现,通过去除正常的听觉输入,视网膜可以重新传到听觉丘脑中,并在A1中产生视觉响应。值得注意的是,这些“重新布线”雪貂的A1神经元表现出许多响应特性,如视觉刺激的定向和运动方向的选择性,这些特性先前在V1中已经建立。此外,行为研究表明,动物把A1的视觉激活理解为视觉刺激。 听觉皮层是否与视觉皮层工作类似 因此,如果重新布线的A1似乎能够以与V1相同的方式“看到”视觉世界,那么也许正常的A1可能使用类似于视觉中使用的神经处理策略来“听到”世界。尽管这个概念很有吸引力,但是在这两个皮层区域中处理信息的方式有明显的差异。例如,由V1神经元检测到许多特征,包括直线定向和双眼视差,是皮层自然发生的特性,由传入丘脑轴突和皮层本身内部回来的处理聚合而产生。 相比之下,虽然某些声音属性的敏感性在皮层中确实发生了变化,根据A1神经元上充分的响应特性研究,如它们的音质分布组织和双耳的刺激响应,已经在皮质下组织被发现。近年来在检测A1神经元分时特性的研究中取得成功的一种方法是采用超出其频率调谐曲线的简单表征技术。这些研究成果表明,A1神经元能够检测频率或时间的刺激边缘,可能类似于V1中的定向或方向选择特性。虽然这项研究的解释是开放而具有争论的,但它确实表明了A1神经元可以作为声学刺激的线性滤波器。这是重要的,因为V1神经元根据其是否以线性方式响应,被划分为“简单”或“复杂”神经元。 近些年,听觉神经生理学家仿照视觉的研究实验在A1中尝试构建“频谱涟波”刺激,其中正弦调制的噪声谱系统地在频率调谐的耳蜗神经滤波器上移位。在与A1的简单细胞类比中,人们可以观察到A1神经元对它们发射率的正弦调制对纹波作出响应,这表明它们很可能在兴奋和抑制的频带上执行输入的近似线性求和来构成它们的接收域。然而,当V1神经元采用相同标准应用于听觉皮层是,大多数A1神经元正好落在简单/复杂的边界上,这意味着它们并不适用于视觉处理的操作方案。 许多研究已经表明,A1神经元的响应特性可以在不同时间尺度上改变,表明它们对刺激所呈现的上下文比较敏感。这种可塑性允许神经元的滤波特性根据先前发生的刺激和正在执行的任务快速调整。这些发现对于在皮层中表示不同声音的组合方式具有重要的影响,并且不赞成声源物理特征的不变性存在于A1内。 听觉皮层内响应特性的组织 虽然对个别听觉皮层神经元响应特性的许多细节知之甚少,但通过研究神经元对特定刺激属性的敏感性如何在皮层表面的变化进行分析,仍可获得比较有价值的见解。例如,在V1的视网膜地形图中,神经元根据其对刺激方向和空间频率的偏好被组织成更精细的、交织的映射。由于A1包含了一个一维的声音频率梯度,注意力集中于神经元对其他刺激参数的敏感性如何表示在皮层的区域中,该区域对应于近似正交于音质分布轴的等频率轮廓。在恒定最佳频率的区域内,已经描述了非随机的和有时相互关联的分布,包括响应阈值、响应水平函数的动态范围和形状、频率调谐的锐度、对频率模的敏感度,以及神经元表现出的双耳相互作用的类型。如双眼视觉神经元在视觉深度知觉中的那样,双耳听觉神经元在定向听觉中起着重要的作用。 初级区域之外的功能专用化 听觉皮层的研究受到视觉系统早期工作影响,关注于A1外部听觉区域发生了什么。现在比较清楚的是,功能专用化的处理流出现在V1内不同的隔室中。经过不同程度的串扰,这些流信息投射到颞下皮层或背侧到后顶叶皮层,在那里,它们似乎分别调节物体识别和视觉运动控制。 受大脑皮层视觉通路分工的启发,有人提出可能存在独立的皮层通路分别进行语音识别和定位。尽管这仍是一个有争议的想法,来自在人类和非人类灵长类动物的最新实验数据表明,位于A1的前侧和外侧的区域具体地涉及到俯仰知觉,它在我们语音通信或对音乐旋律的感知起着至关重要的作用。当受试者听语音提示或可理解的讲话时,附近区域被激活,进一步地表明这部分皮层区域可能是声音识别通路的一部分。 相比之下,空间信息的分析似乎依赖于听觉皮层的后部分区域,特别是猴子的尾部(CM)和尾侧(CL)带区域(见图B)以及猫的后听觉区域(P)(见图C)。然而,没有证据支持存在单一的“空间处理中心”,并且不同听觉任务激活的区域存在很大程度的重叠。因此,尽管对于大脑活动的“什么”和“哪里”的脱离关系具有比较广泛的一致发现,但这种功能的分离可能更多地与信息的差异有关,而不是清楚地类别区分哪里处理什么。 听觉皮层的下行通路 如果不考虑投射到皮层下核的下行通路,听觉皮层的描述将不完整。与其他感知系统一样,听觉丘脑接收到大量的下行投射,来自皮层的输入比上行通路的输入高四倍。皮层神经元还支配中脑以及脑干中的各种靶,这些核没有直接进入皮层,表明它们对皮层下处理的影响可能是非常普遍的。 直到最近,科学家才开始研究各种离皮质通路的作用。例如,已经显示了听觉皮层的小部分局部失活或电刺激改变皮质下神经元的频率调制和其他响应特性。这些发现表明皮质轴突可能参与选择性过滤中脑和丘脑的信息,这使得我们能够特别注意我们听觉环境中的某些方面而忽略其他。反过来,这将导致高频出现或特别显著刺激表征的增强,并可能出发长时依存可塑性。 结束语 听觉皮层的研究处于一个激动人心的阶段。虽然人们早已被认识到它对听觉感知各方面的重要贡献,但我们对这些功能背后的处理过程只有一个初步的了解。未来的进展将依赖于选择合适的刺激来探测皮层神经元的敏感性,包括它们对不同声源的声音进行分离的作用,以及建立生理和行为方法之间更为紧密的联系。 更好地理解从丘脑到皮层和不同皮层区域之间的转换将解释生物信息的处理过程。同时,阐明许多下行皮质投射动作的机理将提供对整个听觉通路中信息的动态编码和皮层本身作用的洞察。最后,一个对听觉皮层如何工作的完整描述也需要考虑如何融合其他感知模式的输入,现在已知广泛存在于颞叶,同时也要考虑认知因素,如注意力和记忆,对听觉皮层神经元的影响。 文章出自:http://jacoxu.com/?p=2230 参考文献: Andrew J. King, Jan W.H. Schnupp. The Auditory Cortex [J]. Current … 继续阅读

EMNLP2018: 基于多模态信息级联对偶调制的视觉推理

受认知过程的视觉和语言注意力机制启发,我们近期提出了一种多模态信息的级联对偶调制模型,解决了涉及复杂语义关系的视觉推理问题(Visual Reasoning),在两个视觉推理任务的公开数据集CLEVR(CVPR2017, 斯坦福联合Facebook创建)和NLVR(ACL2017, 康奈尔联合Facebook创建)上达到最好性能。相关工作发表在自然语言处理国际顶级会议EMNLP2018上,文章见[arxiv.org/abs/1809.01943],代码见[github.com/FlamingHorizon/CMM-VR]。 图 级联对偶调制的模型框图 表 CLEVR数据集上的实验结果 表 NLVR数据集上的实验结果 表 CLEVR数据集上的可视化注意转移实例

【AAAI2018论文+代码】鸡尾酒会中的听觉注意性选择

相关工作发表在人工智能领域的顶级国际会议AAAI2018,论文全文和示范代码参考:https://github.com/jacoxu/ASAM 鸡尾酒会问题(Cocktail party problem)最早是由英国的认知科学家Edward Colin Cherry于1953年[1]提出,描述了人类听觉系统在复杂听觉场景下的注意性选择能力。例如,当我们身处多说话人的鸡尾酒会场景中,我们可以很容易地将注意力集中在某个感兴趣的说话人语音上,并忽略其他说话人语音的干扰。近些年,随着电子设备和人工智能技术的飞速迅速,人机语音交互的重要性日益凸显,在现实生活中得到非常广泛的应用。然而,由于干扰声源的存在,真实复杂环境下的语音交互技术远没有达到令人满意的程度。现阶段,开发一个在复杂听觉场景下具有较强自适应性和鲁棒性的计算听觉系统仍是一件极具挑战性的任务。 受行为与认知神经科学领域对听觉选择机理的探索[2,3]和外部记忆神经网络的最新进展[4,5]启发,自动化所听觉模型与认知计算团队提出一种听觉注意性选择模型,分别完成自上而下任务导向和自下而上刺激驱动的两个听觉注意任务,如图1所示。模型的框架示意图如图2所示,该模型将说话人的声纹特征沉淀到长时记忆单元中,并通过注意力机制将多说话人的混叠语音输入调制到受关注说话人的语音频率通道上。不同于以往神经记忆网络[6]和神经图灵机[7]中的短时记忆单元,该模型中的长时记忆单元不会在新样本载入时进行记忆复位,而是从模型训练阶段就不断地进行先验知识积累,将数据中获取的说话人声纹特征沉淀到记忆单元中。 图1. 三个说话人混叠语音环境下的自上而下和自下而上的听觉注意任务示例图。其中,自上而下是由任务导向的听觉注意(如我们聚精会神地聆听朋友的对话),而自下而上是由刺激驱动的听觉注意(如忽然地被某种显著音刺激所吸引)。 图2. 融入注意机制和长时记忆的听觉注意性选择示意图(a)模型总体框架图;(b)用于存储说话人声纹特征的长时记忆单元结构图。 通过中、英文两个公开语音数据集WSJ0和THCHS-30上的对比实验表明,听觉注意性选择模型在含噪音的多说话人听觉场景下具有更好的鲁棒性,为复杂环境下的语音信号处理任务提供了一种有效而可行的解决方案。图3呈现了不同长度语音刺激下的听觉注意热力分布图,可以看到随着刺激语音时间的延长,听觉注意的热力分布图和预测语音的语谱图均逐渐趋近于纯净语音语谱图,而且在0.5秒的语音刺激下已经获得较好的听觉注意性能。 图3. 不同刺激语音时长对听觉注意性能的影响(a)0.25秒~32秒刺激语音时长下的评价指标结果;(b)-(d)0.25秒、0.5秒和1秒的刺激语音波形图;(e)两个说话人的混叠语音语谱图;(i)目标说话人的纯净语音语谱图;(f)-(h)不同刺激语音时长下的听觉注意热力图;(j)-(l)不同刺激语音时长下预测输出语音的语谱图。 自动化所听觉模型与认知计算团队主要围绕语音翻译、问答对话、口语交互和虚拟现实等方向的核心问题开展前瞻性科学研究和技术储备,重点关注脑科学与人工智能等多学科的深度交叉融合,希望通过新型神经网络模型和算法突破现有技术的瓶颈,在泛应用场景下达到并超越人类水平。 参考文献: [1] Cherry, E. C. 1953. Some experiments on the recognition of speech, with one and with two ears. The Journal of the acoustical society … 继续阅读

CNCC2017和言语与听觉研究论坛

今年的计算机大会在福州召开,参会6000多,可谓各个方向的IT大聚会。 10月26日上午的大会报告上,微软副总裁沈向洋博士分享的报告为《理解自然语言:描述对话和隐喻》,AI最基本的两个要素分为感知和认知。过去几年里,视听觉感知技术突飞猛进。然而,在诸如自然语言理解和对话领域的认知研究方面,我们的进展还非常有限。沈博士认为在未来的十年中,自然语言处理会成为人工智能突破最重要的方向。所谓懂语言者得天下(这句话在会议期间刷爆朋友圈)。 同时,沈博士设想了三个层次来逐步让机器理解并掌握语言,从机器学习(表述),到机器智能(对话),再到机器意识(意境)。 第一个层次首先是建立客观的对观察到的或体验到的事物进行描述的能力。沈博士会用微软认知服务里面的CaptionBot为例,来展现通过机器学习对一幅输入图像内容产生客观描述的技术。第二个层次是建立持续对话的能力。因为在对话的过程中,机器要能答问题,还要能提问题。机器要理解上下文状况,常识,及情感来做出合理的判断和响应—所谓对话即智能。沈博士总结一下微软研究院在智能问答生成方面的一些最新研究工作, 以及其在微软小冰聊天机器人平均长达23轮对话中的应用。第三个层次是建立在有意识地思考之上的理解和表达隐喻的能力。尽管离建立完全的机器意识还很远,作为一个初步的尝试,沈博士展示一下微软小冰看图作诗的技术。 下面是几张PPT: 对话即智能 阅读文本及提问 端到端对话生成模型与记忆机制 小冰的聊天话题引导 理解和表达意境:有意识的脑补 微软对话式人工智能产品的布局 同时,微软仍在主推Image Caption,并发布了COCO这样的数据集,SeeingAI项目及http://captionbot.ai 平台。 斯坦福李飞飞老师演讲的题目为:A Quest for Visual Intelligence: Beyond Objects. 介绍了视觉对生物的重要性,以及计算机视觉在物体识别任务中的飞速发展。然后讨论了计算机视觉的下一步目标:复杂场景理解,以及计算机视觉与语言结合的任务。目前主推Image Reasoning, 并围绕CLEVER数据集进行视觉理解和推理。 10月27号下午参加的听觉论坛主要围绕如下几个问题讨论: 1)听觉场景的噪音问题; 2)ASR需求和实用性问题; 3)声音的多模态问题; 4)文字理解和自主学习问题; 5)听觉机理的科学问题。 包括李锦辉教授、蒙美玲教授等多名教授报告过程中不只一次提到其担心的问题:目前成熟的深度学习工具可能害了近些年的一代Ph.D,工具太好太成熟导致很多Ph.Ds对科学问题没有深入、缺乏工匠精神,不做细工。只知How,不知Why。 言语与听觉研究论坛的集体合影 今年的CNCC在福州召开。住在了鼓楼区,开会闲暇之余四处逛了一下。 宾馆附近就是国家5A级景区 三坊七巷 福州还有一个西湖公园哈哈。 =======嗯,这里有后记========= 在福州机场例行检查时一安检姑娘问我:你是来参加计算机大会的吧? 我:啊,这都能猜到,怎么看出来的? … 继续阅读

基于BP的有监督脉冲学习算法:SpikeProp

在前面的工作中[http://jacoxu.com/tempotron/]已经介绍过脉冲神经元的基本特性。脉冲神经网络难以进行有监督学习的原因是其脉冲的离散特性和脉冲神经元的不可连续和微分性。文献[1]采用误差反向传播[2]进行多层脉冲神经网络模型(Multilayer SNNs)的训练,该方法假定神经元内部状态值在神经元发放脉冲时是在一个极短时间内线性增加的过程,通过这种近似,避免了脉冲无可微分的问题。后续的各种变种工作,甚至包括二值神经网络[3,4]和量化网络模型[5]均是采用近似的方式解决有监督训练过程中不可微分的问题。 首先,文献[1]中给出神经元的内部状态变量\({x_j}(t)\): \[{x_j}(t) = \sum\limits_{i \in {\Gamma _j}} {{w_{ij}}\varepsilon (t - {t_i})} \] 其中,\(\varepsilon (t)\)为脉冲响应函数,\({w_{ij}}\)为突触连接权重。突触响应函数的定义如下: \[\varepsilon (t) = \frac{t}{\tau }{e^{1 - t/\tau }}\] 如果考虑两个神经元之间有多个不同延时\({d^k}\)的突触连接,如下图所示。 图(A)前馈的脉冲神经网络模型;(B)多延时突触末梢的连接示例。 那么,考虑了多延时突触末梢连接的神经元内部状态变量重新定义如下: \({x_j}(t) = \sum\limits_{i \in {\Gamma _j}} {\sum\limits_{k = 1}^m {w_{ij}^ky_i^k(t)} } \)   … 继续阅读

脉冲神经网络及有监督学习算法Tempotron

接下来一段时间开启脉冲神经网络模型的探索之旅。脉冲神经网络有更强的生物学基础,尽可能地模拟生物神经元之间的连接和通信方式。其潜在能力较强,值得踏进一步探索。 构建脉冲神经网络模型,至少需要考虑三点: 1. 外界刺激编码 2. 构建神经元模型 3. 制定学习规则 外界刺激的编码方式主要有Rate Coding和Temporal Coding等,这里不在细述。而Hodgkin和Huxley两位研究员早在1952年就提出了第一个神经元模型:HH[1]。随后陆续有各种神经元模型被提出,其中具有代表性的为Izhikevich模型[2]和LIF(Leaky-Integrate-and-Fire)模型[3]。 以LIF神经元模型为例,其数学表达形式如下: \[\tau \frac{{dV}}{{dt}} = - (V - {V_r}) + RI\] 其中,\(\tau = RC\)为膜时间常数,\(R\)为膜电阻,\(C\)为膜电导,\(V\)为膜电位,\(V_r\)为复位电位,\(I\)为注入电流。当膜电位超过一个固定的阈值时,神经元发放一个脉冲,并很快地降至复位电位并维持一小段时间,然后接受前段突触的输入脉冲重新升高膜电位。各种神经元模型均类似于此过程。 学习规则又分为无监督和有监督,其中无监督学习方法以STDP(Spike-Timing-Dependent Plasticity)[4,5]为代表,而有监督学习包括Tempotron[6],ReSuMe(Remote Supervised Method)[7]和SpikeProp[8]等。 以Tempotron为例,阈值下的后突触膜电位(PSPs, Postsynaptic Potentials)为所有输入脉冲的加权和: \[V(t) = \sum\limits_i {{\omega _i}\sum\limits_{{t_i}} {K(t – {t_i}) + … 继续阅读

WSJ0数据中的.wv1文件(sph)读取

WSJ0数据中语音文件都是.wv1格式,为sph文件,在Windows下无法正常读取,需要进行转换。 转换工具:sph2pipe_v2.5,如果安装过Kaldi的话,可以直接使用 $KALDI_ROOT/tools/sph2pipe_v2.5/sph2pipe,如果没有安装的话,可以单独下载:http://sourceforge.net/projects/kaldi/files/sph2pipe_v2.5.tar.gz 如果是在Windows环境下的话直接使用sph2pipe.exe即可,如果是在linux环境下的话,则需要进行GCC编码:gcc -o sph2pipe  *.c -lm 最简单使用方式为 sph2pipe -f wav filename.wv1 filename.wav      

Matlab处理log文件

一般文本类文件都用java或python处理方便很多,此处记录一下matlab 处理文本文件的一些语法。 例如,程序记录下的日志文件为:dl4ss_output.log_2017_03_10_210643,其部分内容为: [Epoch: 1] - SDR:1.308344, SIR:2.063156, SAR:-1.509836, NSDR:2.908430   Epoch 1/1   50/50 [==============================] - 178s - loss: 1.9203 - val_loss: 1.7383   Epoch 1/1   50/50 [==============================] - 176s - loss: 1.6208 - val_loss: 1.5113   Epoch 1/1   50/50 [==============================] - 176s - loss: 1.4212 - val_loss: 1.3334   Epoch 1/1   50/50 [==============================] - 175s - loss: 1.2612 - val_loss: 1.1911   Epoch 1/1   50/50 [==============================] - 176s - loss: 1.1320 - val_loss: 1.0740   [Epoch: 6] - SDR:2.128937, SIR:3.154744, SAR:0.774681, NSDR:3.729023   Epoch 1/1   50/50 [==============================] - 175s - loss: 1.0312 - val_loss: 0.9913   现在想对该日志文件进行处理,并将Epoch迭代过程中评估的结果值绘制成图,方法如下: clc    clear   colours = ’rbckgcmbkgcmbkgcmbgrcmykbgrcmykb’;  % ’bgrcmykw’ modified by jacoxu@msn.com    symbols = ’.x^os*.dvph><x+^os*.dvph><+’;  % ’.ox+*sdv^<>ph’ %参考 http://blog.sina.com.cn/s/blog_618af1950100kdi2.html    linetypes = {‘-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’,’-’};  % {‘-’,’:’,’-.’,’–’}    figureSize = [300,200,500,300];    lineWidth = 1.5;    para_list = {‘SDR’, ’SIR’, ’SAR’, ’NSDR’};       log_file = ’dl4ss_output.log_2017_03_10_210643′;    log_file_fd = fopen(log_file);    epoch_idx = 0;    … 继续阅读

Python下调用Matlab接口

1. 安装Matlab到目录$Matlab_Path 2. 安装Matlab Engine API for Python cd $Matlab_Path/extern/engines/python python setup.py install 3. 在Python中使用 (a). 加载库 import matlab.engine (b). 开启引擎 mat_eng = matlab.engine.start_matlab() (c). 把matlab文件放到当前工程目录下,如’./BSS_EVAL.m’ (d). 如有需要进行tpye转换,如 input = matlab.double(input) (d). 调用BSS_EVAL.m函数 params = mat_eng.BSS_EVAL(input)