EMNLP2018: 基于多模态信息级联对偶调制的视觉推理

受认知过程的视觉和语言注意力机制启发,我们近期提出了一种多模态信息的级联对偶调制模型,解决了涉及复杂语义关系的视觉推理问题(Visual Reasoning),在两个视觉推理任务的公开数据集CLEVR(CVPR2017, 斯坦福联合Facebook创建)和NLVR(ACL2017, 康奈尔联合Facebook创建)上达到最好性能。相关工作发表在自然语言处理国际顶级会议EMNLP2018上,文章见[arxiv.org/abs/1809.01943],代码见[github.com/FlamingHorizon/CMM-VR]。


图 级联对偶调制的模型框图


表 CLEVR数据集上的实验结果


表 NLVR数据集上的实验结果


表 CLEVR数据集上的可视化注意转移实例

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>