EMNLP2018: 基于多模态信息级联对偶调制的视觉推理

受认知过程的视觉和语言注意力机制启发,我们近期提出了一种多模态信息的级联对偶调制模型,解决了涉及复杂语义关系的视觉推理问题(Visual Reasoning),在两个视觉推理任务的公开数据集CLEVR(CVPR2017, 斯坦福联合Facebook创建)和NLVR(ACL2017, 康奈尔联合Facebook创建)上达到最好性能。相关工作发表在自然语言处理国际顶级会议EMNLP2018上,文章见[arxiv.org/abs/1809.01943],代码见[github.com/FlamingHorizon/CMM-VR]。 图 级联对偶调制的模型框图 表 CLEVR数据集上的实验结果 表 NLVR数据集上的实验结果 表 CLEVR数据集上的可视化注意转移实例