自然语言处理与深度学习研讨会

上周末(2016/04/23)在所里(CASIA)听了一场研讨会报告,现在整理一下。原本以为这场研讨会报告只是几个青年学者(自动化所的张家俊老师,北大的万小军老师以及出门问问的技术经理李理)分享最近的工作。到了会场发现有很多圈内大佬都莅临指导,包括:自动化所的徐波所长,王飞跃老师,宗成庆老师,赵军老师,刘康老师;微软亚研的首席研究员周明,清华大学刘洋老师,北理工计算机学院院长黄河燕老师,中科院软件所孙乐老师,苏州大学张民老师,哈工大赵铁军老师,东北大学朱靖波老师等等。 首先是三位嘉宾做近期相关工作汇报。 一:张家俊老师汇报的题目为 神经网络机器翻译:寻找替身之旅 针对的问题是神经机器翻译(NMT)模型中集外词的问题。手段为寻找其集内词替身。 集外词问题在一些NLP词性标准等任务中,搜索空间是可猜测的,而在机器翻译(MT)任务中,搜索空间不可猜测。 MT需要双语翻译语料,传统统计翻译方法是 1. 先翻译词,2. 再结构化重组。而集外词问题会导致如下问题 1. 词无法获得准确的译文,2. 不精确语义编码影响了句子重组结构。 NMT进一步加重了集外词问题,1. 低频词的语义编码不准确,2. 解码空间V很大时,计算效率很低。因而需要限制源语言和目标语言的词规模。 如“悍然对南联盟实施轰炸”,其中“悍然”与“南联盟”为低频词,分别将其替换为高频词“突然”和“伊拉克”。 那么替换之旅的流程变为:1. 替换;2. 翻译;3. 恢复;(4. 保留UNK) 而针对具体情况,分别考虑了1. UNK -> UNK. 2. 集内 -> UNK. 3. UNK -> 集内. 4. NULL -> UNK. 5. UNK … 继续阅读