自然语言处理与深度学习研讨会

上周末(2016/04/23)在所里(CASIA)听了一场研讨会报告,现在整理一下。原本以为这场研讨会报告只是几个青年学者(自动化所的张家俊老师,北大的万小军老师以及出门问问的技术经理李理)分享最近的工作。到了会场发现有很多圈内大佬都莅临指导,包括:自动化所的徐波所长,王飞跃老师,宗成庆老师,赵军老师,刘康老师;微软亚研的首席研究员周明,清华大学刘洋老师,北理工计算机学院院长黄河燕老师,中科院软件所孙乐老师,苏州大学张民老师,哈工大赵铁军老师,东北大学朱靖波老师等等。

首先是三位嘉宾做近期相关工作汇报。

一:张家俊老师汇报的题目为 神经网络机器翻译:寻找替身之旅

针对的问题是神经机器翻译(NMT)模型中集外词的问题。手段为寻找其集内词替身。
集外词问题在一些NLP词性标准等任务中,搜索空间是可猜测的,而在机器翻译(MT)任务中,搜索空间不可猜测。

MT需要双语翻译语料,传统统计翻译方法是 1. 先翻译词,2. 再结构化重组。而集外词问题会导致如下问题 1. 词无法获得准确的译文,2. 不精确语义编码影响了句子重组结构。

NMT进一步加重了集外词问题,1. 低频词的语义编码不准确,2. 解码空间V很大时,计算效率很低。因而需要限制源语言和目标语言的词规模。

如“悍然南联盟实施轰炸”,其中“悍然”与“南联盟”为低频词,分别将其替换为高频词“突然”和“伊拉克”。

那么替换之旅的流程变为:1. 替换;2. 翻译;3. 恢复;(4. 保留UNK)

而针对具体情况,分别考虑了1. UNK -> UNK. 2. 集内 -> UNK. 3. UNK -> 集内. 4. NULL -> UNK. 5. UNK -> NULL。
从整体上来看,该方法很简单,但是在常用的翻译数据集上Belu值提升了4.0个点以上。张老师从12年开始针对翻译系统中的集外词问题做过各种研究和尝试。目前所提方法简单有效,该工作已被人工智能领域顶级国际会议IJCAI2016录用。感兴趣的同学,可以去搜索张老师的这篇文章 [IJCAI2016, Towards Zero Unknown Word in Neural Machine Translation] 来阅读。

二:万小军老师汇报的题目为 大数据时代的文本自动摘要
由于和目前我的研究不太相关,因而全程处于走思状态,在想自己的问题。不过从万老师的结论中看,深度学习方法在摘要中的应用效果并不理想。

三:技术经理李理汇报的题目为 问答系统与深度学习
其实,该工作和深度学习并没有太大关系。
出门问问在终端问答系统中对接了携程等60多个垂直领域APP。训练数据量并不大,因而简单的规则和传统方法更为有效。
1. query分析
分词和后处理,其中分词工具采用开源的stanford Chinese segmentor。后处理主要是针对拆分错的词语进行合并,如“3号线路线”容易被拆分为“3号 线路 线”,需要合并为“3号线 路线”
Multi-Tagging 主要针对词语的一些歧义问题,如“周杰伦的晴天”,其中晴天可能有多种Tagging结果。
Regex Pattern特征抽取,如设定规则 artist的song 可匹配周杰伦的晴天,那么晴天就可正确tagging为song
MaxEntropy分类器,对query进行分类
出门问问在此问题中标注了15,000个训练样本,8,000个测试样本,结果ACC为90%左右。
优点:1. Regex feature适用于垂直领域,2. NER多类别信息,泛化还可以。
缺点:没有太多lexical的feature

2. DNN分类器
引入Lexical Feature,如BOW表示,利用百度百科语料训练word2vec, 但直接采用加权平均方式使用效果并不好。

3. Sparse AutoEncoder
加KL约束,加隐层,加跨层。输入BOW特征和Regex特征

4. DNN效果
提升0.5%,原因分析:数据量小,Regex Feature太强,垂直领域的分类特点

5. KG-based NER
6. 通用领域问答
基于知识库和检索式。模版挖掘,如XXX有多高 -> 身高

借鉴Waston的设计思路,适用于60多个对接的垂直领域。

最后是针对DL for NLP的panel研讨:

刘洋老师观点:目前深度学习在NLP领域并不像图像和语音有所突破,仍有一些挑战如OOV问题和稀疏数据等。目前的突破点仍是在有监督大数据集上取得的;

万小军老师观点:从摘要生成和情感识别的研究角度对深度学习在NLP领域的研究热度表示中立,跨语言摘要是目前的一个研究难点;

朱靖波老师观点:对于目前使用深度学习去解决NLP的所有问题表示存疑;

孙乐老师观点:比较看好深度学习在NLP的应用;

周明老师观点:目前是做NLP和AI的最好时机,未来应该更多地考虑将NLP中众多已有的先验知识加入到深度学习中。学术界科研选题应该选择刚需,做创新,NLP的研究者应该多借鉴目前在语音和图像中获得成功的方法;

李理经理观点:创业公司也面临深度学习的小数据问题,因而基于小数据的深度学习也是一个研究重点;

宗成庆老师观点:学术界在深度学习面前应该保持冷静,应该做更有意义的事情;

刘康老师问题:为什么深度学习在有的NLP任务中效果好,而有的任务中效果不好?

刘洋老师解答:1. 数据量的问题,2. 是否需要借助外部资源。未来无监督/半监督仍然是未来的研究重点;

徐波老师观点:脑启发机制目前在深度学习应用中取得了突破性进展,看好RAM(推理,注意力,记忆) 机制在NLP方向的应用前景;

黄河燕老师观点: 目前NLP的任务如,MT和QA特点比较多,接下来针对各自的任务在深度学习中融入先验知识会更为重要。

==============如下为场外音=============

个人最喜欢的言论是来自百度李沐在微博中的讨论:

 

个人观点:非常赞同李沐的观点(相信很多研究者持有同样看法,只是暂时不想打击包括工业界和投资人对深度学习的热情)。我们应该对深度学习怀有崇高的热情,深度学习研究对解决人工智能问题是有实际研究意义的,需要积极深入并进行推进。同时不应该忽视NLP长期积累的传统方法,进行部分或轻量级的结合是目前有效可行的方案。想想即便是晦涩难懂的广义相对论也在目前的GPS全球定位系统等应用中起到了至关重要的精准校正作用。

 

博文出处:http://jacoxu.com/?p=1901

自然语言处理与深度学习研讨会》上有 2 条评论

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>