【论文分享】听觉皮层 – Current Biology 2007

听觉皮层 通过声音辨别人、动物或其他物体,看似简单,实则依赖一系列复杂的处理过程。首先,声音通过内耳耳蜗上敏感的毛细胞受体转变为电信号,然后由前庭耳蜗的轴突将其编码为执行电位,经过脑干、中脑以及丘脑,信号传递到听觉皮层(如下图A)所示,在这里进行声音的理解和识别。与其他感官系统相比,听觉信号在到达皮层时进行了大量的预处理,并且在许多动物物种中,这种皮质下处理可以解决比较复杂的听觉任务。 因为我们对听觉环境感知所必需的神经处理似乎是在皮层下发生的,所以我们想知道还剩下什么是听觉皮层要做的。通过观察皮质受损所产生的影响可以获得有价值的见解。虽然在哺乳类物种中损伤的程度差别较大,但在灵长类动物(包括人类)中,听觉皮层损伤可导致严重的听力损失,至少是暂时性的,并且不能识别复杂的声音或精确定位声源位置。因此,听觉皮层在听力中起着至关重要的作用,但它如何起作用,仍然是很难理解的。 皮质组织的共同原则 在许多方面,听觉皮层的功能组织和其他感觉模式的皮质类似,比如视觉或躯体感觉皮层。在每种情况下,一个或多个区域被识别,代表皮层处理的第一阶段,以及根据其细胞精细结构、解剖连接和生理响应特性(图B和C)不同的多个周围区域。初级区域通过丘脑接收大量的上行信号,进而投射到“更高层”区域,同样那里也直接接收一些来自丘脑的信息。 在不同的感知系统中,初级皮层区域的共同特征是他们包含合适受体表面的地形表征或地图。因此,初级视觉皮层(V1)中相邻神经元接收眼睛视网膜相邻部分的输入信号,这导致在皮层表面形成视觉世界的表征图。类似地,皮肤每个区域在初级躯体知觉皮层(S1)的不同部分中表征,形成了身体表面的皮层图。同样原理适用于听觉系统,除了位于耳蜗长度不同位置的毛细胞被调制到不同的声音频率上,而不是在空间中的不同位置上。从丘脑到初级听觉皮层(A1)的地形组织投影产生了声音频率的音质分布图。 图:感觉大脑皮层。A:猕猴侧向大脑皮层,绿色为视觉皮层,蓝色为躯体感觉皮层,红色为听觉皮层,需注意:在许多灵长类动物中,听觉皮层大部分隐藏在大脑皮层颞叶和顶叶分隔的外侧裂中。浅粉色阴影显示额叶和颞皮层的区域,虽然不是经典地认为听觉皮层,但是有助于声学信息的处理。人脑的布局也非常相似。B:猕猴听觉皮层的部分区域,被认为是三个“核心”或类似初级区域:A1、R和RT。主要从内侧膝状体复合体的腹侧部接收独立的丘脑输入。核心区域投射到多个环绕“带”区域(粉红色),代表更高层次的听觉处理,依次与“帕拉带”区域相连(未显示)。带和帕拉带中的神经元也接收来自内侧膝状体复合体的其他部分输入,并连接到皮层的颞叶、顶叶和额叶。核心区域和一些带区域包含声频的音质分布图,频率梯度的逆转通常用来确定这些区域的边界。C:猫大脑皮层的侧视图,如同猴子脑皮层,猫的听觉皮层划分为多个区域,包括“类初级”音质分布组织(红色)和更高级的区域(粉红色)。除了初级区域A1,这些由听觉神经科学家命名的不同名称还不能确定哪些猫听觉皮层和猴听觉皮层是同源的。 除了这些地形表征,研究人员怀疑其他功能或组织原则也可能在不同的感觉模式中共享。例如,当在显微镜下观察时,A1和S1几乎没有区别,因为它们表现出几乎相同的六层结构。V1更容易与其他皮质区区分开来,因为在第4层中存在髓鞘轴突的白色条纹-Gennari纹。这是一条高带宽输入层,适用于处理许多哺乳动物在杂乱环境中快速移动时的大规模视觉数据传输率。尽管有助于组织学家或成像者确定V1在大脑中的位置,但无论是听觉、视觉还是躯体感知,解剖细节无法改变皮质是皮质的可能性。 在1990年后期麻省理工学院的Mriganka Sur实验室通过在雪貂上一系列巧妙的实验使得这一概念得到惊人的提升。Sur和他的同事们发现,通过去除正常的听觉输入,视网膜可以重新传到听觉丘脑中,并在A1中产生视觉响应。值得注意的是,这些“重新布线”雪貂的A1神经元表现出许多响应特性,如视觉刺激的定向和运动方向的选择性,这些特性先前在V1中已经建立。此外,行为研究表明,动物把A1的视觉激活理解为视觉刺激。 听觉皮层是否与视觉皮层工作类似 因此,如果重新布线的A1似乎能够以与V1相同的方式“看到”视觉世界,那么也许正常的A1可能使用类似于视觉中使用的神经处理策略来“听到”世界。尽管这个概念很有吸引力,但是在这两个皮层区域中处理信息的方式有明显的差异。例如,由V1神经元检测到许多特征,包括直线定向和双眼视差,是皮层自然发生的特性,由传入丘脑轴突和皮层本身内部回来的处理聚合而产生。 相比之下,虽然某些声音属性的敏感性在皮层中确实发生了变化,根据A1神经元上充分的响应特性研究,如它们的音质分布组织和双耳的刺激响应,已经在皮质下组织被发现。近年来在检测A1神经元分时特性的研究中取得成功的一种方法是采用超出其频率调谐曲线的简单表征技术。这些研究成果表明,A1神经元能够检测频率或时间的刺激边缘,可能类似于V1中的定向或方向选择特性。虽然这项研究的解释是开放而具有争论的,但它确实表明了A1神经元可以作为声学刺激的线性滤波器。这是重要的,因为V1神经元根据其是否以线性方式响应,被划分为“简单”或“复杂”神经元。 近些年,听觉神经生理学家仿照视觉的研究实验在A1中尝试构建“频谱涟波”刺激,其中正弦调制的噪声谱系统地在频率调谐的耳蜗神经滤波器上移位。在与A1的简单细胞类比中,人们可以观察到A1神经元对它们发射率的正弦调制对纹波作出响应,这表明它们很可能在兴奋和抑制的频带上执行输入的近似线性求和来构成它们的接收域。然而,当V1神经元采用相同标准应用于听觉皮层是,大多数A1神经元正好落在简单/复杂的边界上,这意味着它们并不适用于视觉处理的操作方案。 许多研究已经表明,A1神经元的响应特性可以在不同时间尺度上改变,表明它们对刺激所呈现的上下文比较敏感。这种可塑性允许神经元的滤波特性根据先前发生的刺激和正在执行的任务快速调整。这些发现对于在皮层中表示不同声音的组合方式具有重要的影响,并且不赞成声源物理特征的不变性存在于A1内。 听觉皮层内响应特性的组织 虽然对个别听觉皮层神经元响应特性的许多细节知之甚少,但通过研究神经元对特定刺激属性的敏感性如何在皮层表面的变化进行分析,仍可获得比较有价值的见解。例如,在V1的视网膜地形图中,神经元根据其对刺激方向和空间频率的偏好被组织成更精细的、交织的映射。由于A1包含了一个一维的声音频率梯度,注意力集中于神经元对其他刺激参数的敏感性如何表示在皮层的区域中,该区域对应于近似正交于音质分布轴的等频率轮廓。在恒定最佳频率的区域内,已经描述了非随机的和有时相互关联的分布,包括响应阈值、响应水平函数的动态范围和形状、频率调谐的锐度、对频率模的敏感度,以及神经元表现出的双耳相互作用的类型。如双眼视觉神经元在视觉深度知觉中的那样,双耳听觉神经元在定向听觉中起着重要的作用。 初级区域之外的功能专用化 听觉皮层的研究受到视觉系统早期工作影响,关注于A1外部听觉区域发生了什么。现在比较清楚的是,功能专用化的处理流出现在V1内不同的隔室中。经过不同程度的串扰,这些流信息投射到颞下皮层或背侧到后顶叶皮层,在那里,它们似乎分别调节物体识别和视觉运动控制。 受大脑皮层视觉通路分工的启发,有人提出可能存在独立的皮层通路分别进行语音识别和定位。尽管这仍是一个有争议的想法,来自在人类和非人类灵长类动物的最新实验数据表明,位于A1的前侧和外侧的区域具体地涉及到俯仰知觉,它在我们语音通信或对音乐旋律的感知起着至关重要的作用。当受试者听语音提示或可理解的讲话时,附近区域被激活,进一步地表明这部分皮层区域可能是声音识别通路的一部分。 相比之下,空间信息的分析似乎依赖于听觉皮层的后部分区域,特别是猴子的尾部(CM)和尾侧(CL)带区域(见图B)以及猫的后听觉区域(P)(见图C)。然而,没有证据支持存在单一的“空间处理中心”,并且不同听觉任务激活的区域存在很大程度的重叠。因此,尽管对于大脑活动的“什么”和“哪里”的脱离关系具有比较广泛的一致发现,但这种功能的分离可能更多地与信息的差异有关,而不是清楚地类别区分哪里处理什么。 听觉皮层的下行通路 如果不考虑投射到皮层下核的下行通路,听觉皮层的描述将不完整。与其他感知系统一样,听觉丘脑接收到大量的下行投射,来自皮层的输入比上行通路的输入高四倍。皮层神经元还支配中脑以及脑干中的各种靶,这些核没有直接进入皮层,表明它们对皮层下处理的影响可能是非常普遍的。 直到最近,科学家才开始研究各种离皮质通路的作用。例如,已经显示了听觉皮层的小部分局部失活或电刺激改变皮质下神经元的频率调制和其他响应特性。这些发现表明皮质轴突可能参与选择性过滤中脑和丘脑的信息,这使得我们能够特别注意我们听觉环境中的某些方面而忽略其他。反过来,这将导致高频出现或特别显著刺激表征的增强,并可能出发长时依存可塑性。 结束语 听觉皮层的研究处于一个激动人心的阶段。虽然人们早已被认识到它对听觉感知各方面的重要贡献,但我们对这些功能背后的处理过程只有一个初步的了解。未来的进展将依赖于选择合适的刺激来探测皮层神经元的敏感性,包括它们对不同声源的声音进行分离的作用,以及建立生理和行为方法之间更为紧密的联系。 更好地理解从丘脑到皮层和不同皮层区域之间的转换将解释生物信息的处理过程。同时,阐明许多下行皮质投射动作的机理将提供对整个听觉通路中信息的动态编码和皮层本身作用的洞察。最后,一个对听觉皮层如何工作的完整描述也需要考虑如何融合其他感知模式的输入,现在已知广泛存在于颞叶,同时也要考虑认知因素,如注意力和记忆,对听觉皮层神经元的影响。 参考文献: Andrew J. King, Jan W.H. Schnupp. The Auditory Cortex [J]. Current Biology, … 继续阅读

EMNLP2018: 基于多模态信息级联对偶调制的视觉推理

受认知过程的视觉和语言注意力机制启发,我们近期提出了一种多模态信息的级联对偶调制模型,解决了涉及复杂语义关系的视觉推理问题(Visual Reasoning),在两个视觉推理任务的公开数据集CLEVR(CVPR2017, 斯坦福联合Facebook创建)和NLVR(ACL2017, 康奈尔联合Facebook创建)上达到最好性能。相关工作发表在自然语言处理国际顶级会议EMNLP2018上,文章见[arxiv.org/abs/1809.01943],代码见[github.com/FlamingHorizon/CMM-VR]。 图 级联对偶调制的模型框图 表 CLEVR数据集上的实验结果 表 NLVR数据集上的实验结果 表 CLEVR数据集上的可视化注意转移实例

【AAAI2018论文+代码】鸡尾酒会中的听觉注意性选择

相关工作发表在人工智能领域的顶级国际会议AAAI2018,论文全文和示范代码参考:https://github.com/jacoxu/ASAM 鸡尾酒会问题(Cocktail party problem)最早是由英国的认知科学家Edward Colin Cherry于1953年[1]提出,描述了人类听觉系统在复杂听觉场景下的注意性选择能力。例如,当我们身处多说话人的鸡尾酒会场景中,我们可以很容易地将注意力集中在某个感兴趣的说话人语音上,并忽略其他说话人语音的干扰。近些年,随着电子设备和人工智能技术的飞速迅速,人机语音交互的重要性日益凸显,在现实生活中得到非常广泛的应用。然而,由于干扰声源的存在,真实复杂环境下的语音交互技术远没有达到令人满意的程度。现阶段,开发一个在复杂听觉场景下具有较强自适应性和鲁棒性的计算听觉系统仍是一件极具挑战性的任务。 受行为与认知神经科学领域对听觉选择机理的探索[2,3]和外部记忆神经网络的最新进展[4,5]启发,自动化所听觉模型与认知计算团队提出一种听觉注意性选择模型,分别完成自上而下任务导向和自下而上刺激驱动的两个听觉注意任务,如图1所示。模型的框架示意图如图2所示,该模型将说话人的声纹特征沉淀到长时记忆单元中,并通过注意力机制将多说话人的混叠语音输入调制到受关注说话人的语音频率通道上。不同于以往神经记忆网络[6]和神经图灵机[7]中的短时记忆单元,该模型中的长时记忆单元不会在新样本载入时进行记忆复位,而是从模型训练阶段就不断地进行先验知识积累,将数据中获取的说话人声纹特征沉淀到记忆单元中。 图1. 三个说话人混叠语音环境下的自上而下和自下而上的听觉注意任务示例图。其中,自上而下是由任务导向的听觉注意(如我们聚精会神地聆听朋友的对话),而自下而上是由刺激驱动的听觉注意(如忽然地被某种显著音刺激所吸引)。 图2. 融入注意机制和长时记忆的听觉注意性选择示意图(a)模型总体框架图;(b)用于存储说话人声纹特征的长时记忆单元结构图。 通过中、英文两个公开语音数据集WSJ0和THCHS-30上的对比实验表明,听觉注意性选择模型在含噪音的多说话人听觉场景下具有更好的鲁棒性,为复杂环境下的语音信号处理任务提供了一种有效而可行的解决方案。图3呈现了不同长度语音刺激下的听觉注意热力分布图,可以看到随着刺激语音时间的延长,听觉注意的热力分布图和预测语音的语谱图均逐渐趋近于纯净语音语谱图,而且在0.5秒的语音刺激下已经获得较好的听觉注意性能。 图3. 不同刺激语音时长对听觉注意性能的影响(a)0.25秒~32秒刺激语音时长下的评价指标结果;(b)-(d)0.25秒、0.5秒和1秒的刺激语音波形图;(e)两个说话人的混叠语音语谱图;(i)目标说话人的纯净语音语谱图;(f)-(h)不同刺激语音时长下的听觉注意热力图;(j)-(l)不同刺激语音时长下预测输出语音的语谱图。 自动化所听觉模型与认知计算团队主要围绕语音翻译、问答对话、口语交互和虚拟现实等方向的核心问题开展前瞻性科学研究和技术储备,重点关注脑科学与人工智能等多学科的深度交叉融合,希望通过新型神经网络模型和算法突破现有技术的瓶颈,在泛应用场景下达到并超越人类水平。 参考文献: [1] Cherry, E. C. 1953. Some experiments on the recognition of speech, with one and with two ears. The Journal of the acoustical society … 继续阅读

基于BP的有监督脉冲学习算法:SpikeProp

在前面的工作中[http://jacoxu.com/tempotron/]已经介绍过脉冲神经元的基本特性。脉冲神经网络难以进行有监督学习的原因是其脉冲的离散特性和脉冲神经元的不可连续和微分性。文献[1]采用误差反向传播[2]进行多层脉冲神经网络模型(Multilayer SNNs)的训练,该方法假定神经元内部状态值在神经元发放脉冲时是在一个极短时间内线性增加的过程,通过这种近似,避免了脉冲无可微分的问题。后续的各种变种工作,甚至包括二值神经网络[3,4]和量化网络模型[5]均是采用近似的方式解决有监督训练过程中不可微分的问题。 首先,文献[1]中给出神经元的内部状态变量\({x_j}(t)\): \[{x_j}(t) = \sum\limits_{i \in {\Gamma _j}} {{w_{ij}}\varepsilon (t - {t_i})} \] 其中,\(\varepsilon (t)\)为脉冲响应函数,\({w_{ij}}\)为突触连接权重。突触响应函数的定义如下: \[\varepsilon (t) = \frac{t}{\tau }{e^{1 - t/\tau }}\] 如果考虑两个神经元之间有多个不同延时\({d^k}\)的突触连接,如下图所示。 图(A)前馈的脉冲神经网络模型;(B)多延时突触末梢的连接示例。 那么,考虑了多延时突触末梢连接的神经元内部状态变量重新定义如下: \({x_j}(t) = \sum\limits_{i \in {\Gamma _j}} {\sum\limits_{k = 1}^m {w_{ij}^ky_i^k(t)} } \)   … 继续阅读

脉冲神经网络及有监督学习算法Tempotron

接下来一段时间开启脉冲神经网络模型的探索之旅。脉冲神经网络有更强的生物学基础,尽可能地模拟生物神经元之间的连接和通信方式。其潜在能力较强,值得踏进一步探索。 构建脉冲神经网络模型,至少需要考虑三点: 1. 外界刺激编码 2. 构建神经元模型 3. 制定学习规则 外界刺激的编码方式主要有Rate Coding和Temporal Coding等,这里不在细述。而Hodgkin和Huxley两位研究员早在1952年就提出了第一个神经元模型:HH[1]。随后陆续有各种神经元模型被提出,其中具有代表性的为Izhikevich模型[2]和LIF(Leaky-Integrate-and-Fire)模型[3]。 以LIF神经元模型为例,其数学表达形式如下: \[\tau \frac{{dV}}{{dt}} = - (V - {V_r}) + RI\] 其中,\(\tau = RC\)为膜时间常数,\(R\)为膜电阻,\(C\)为膜电导,\(V\)为膜电位,\(V_r\)为复位电位,\(I\)为注入电流。当膜电位超过一个固定的阈值时,神经元发放一个脉冲,并很快地降至复位电位并维持一小段时间,然后接受前段突触的输入脉冲重新升高膜电位。各种神经元模型均类似于此过程。 学习规则又分为无监督和有监督,其中无监督学习方法以STDP(Spike-Timing-Dependent Plasticity)[4,5]为代表,而有监督学习包括Tempotron[6],ReSuMe(Remote Supervised Method)[7]和SpikeProp[8]等。 以Tempotron为例,阈值下的后突触膜电位(PSPs, Postsynaptic Potentials)为所有输入脉冲的加权和: \[V(t) = \sum\limits_i {{\omega _i}\sum\limits_{{t_i}} {K(t – {t_i}) + … 继续阅读