自然语言处理与深度学习研讨会

上周末(2016/04/23)在所里(CASIA)听了一场研讨会报告,现在整理一下。原本以为这场研讨会报告只是几个青年学者(自动化所的张家俊老师,北大的万小军老师以及出门问问的技术经理李理)分享最近的工作。到了会场发现有很多圈内大佬都莅临指导,包括:自动化所的徐波所长,王飞跃老师,宗成庆老师,赵军老师,刘康老师;微软亚研的首席研究员周明,清华大学刘洋老师,北理工计算机学院院长黄河燕老师,中科院软件所孙乐老师,苏州大学张民老师,哈工大赵铁军老师,东北大学朱靖波老师等等。 首先是三位嘉宾做近期相关工作汇报。 一:张家俊老师汇报的题目为 神经网络机器翻译:寻找替身之旅 针对的问题是神经机器翻译(NMT)模型中集外词的问题。手段为寻找其集内词替身。 集外词问题在一些NLP词性标准等任务中,搜索空间是可猜测的,而在机器翻译(MT)任务中,搜索空间不可猜测。 MT需要双语翻译语料,传统统计翻译方法是 1. 先翻译词,2. 再结构化重组。而集外词问题会导致如下问题 1. 词无法获得准确的译文,2. 不精确语义编码影响了句子重组结构。 NMT进一步加重了集外词问题,1. 低频词的语义编码不准确,2. 解码空间V很大时,计算效率很低。因而需要限制源语言和目标语言的词规模。 如“悍然对南联盟实施轰炸”,其中“悍然”与“南联盟”为低频词,分别将其替换为高频词“突然”和“伊拉克”。 那么替换之旅的流程变为:1. 替换;2. 翻译;3. 恢复;(4. 保留UNK) 而针对具体情况,分别考虑了1. UNK -> UNK. 2. 集内 -> UNK. 3. UNK -> 集内. 4. NULL -> UNK. 5. UNK … 继续阅读

ICTPOS3.0汉语词性标记集

汉语词性标记集太多,仅此以ICTCLAS使用的为例,转自:http://www.ictclas.org/docs/ICTPOS3.0汉语词性标记集.doc 目前链接已失效 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a 形容词 取英语形容词adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 b 区别词 取汉字“别”的声母。 c 连词 取英语连词conjunction的第1个字母。 Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。 d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。 e 叹词 取英语叹词exclamation的第1个字母。 f 方位词 取汉字“方” g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 h 前接成分 取英语head的第1个字母。 i 成语 … 继续阅读

20131010 NLP讲习班2 –文本分类

【1】. 预处理 英文,去停用词,词根还原 中文,分词,词性标注,短语识别 词频统计,数据清洗,… 【2】. 文本表示模型 2.1. Bag Of Words 应用实例:朴素贝叶斯模型; 2.2. Vector Space Model 应用:KNN,LR,SVM BOW 词的概率来表示权重,VSM用TF-IDF来表示权重。 Term的粒度:Character, Word, Phrase, Concept, N-gram. 权重的计算方法:1. 布尔权重;2. TF-IDF权重;3. 基于熵概念的权重(Entropy weighting) 【3】. 特征选择 3.1. 有监督特征词选择算法: 信息增益(IG): 为该term为整个分类所能提供的信息量; 互信息(Mutual Information): 计算每个词t与类别c之间的互信息,存在问题,倾向于选择稀疏词; 相对熵(KL Divergence): … 继续阅读

20130913 深度学习@ICTCAS

余凯(Deep Learning): 介绍百度DL进展,今年报告李彦宏(Robin)相信技术的力量,提出技术难题:1:自然图片Ocr,2:语音识别和理解,3:图像搜索 业界趋势:移动互联网带入识图时代;siri,微软DL,google,科大迅飞,baidu语音识别 DL 被评为MIT2013十大技术之首 imageNet 2012 Hinton参赛74%->85%,13年3月份加入google   4700W$ 深度学习更接近人脑 人工智能新范式:大数据+深度学习 ICML Andrw Ng 100亿个参数 2012年夏天投入研发,用GPU提高运算效率,语音,OCR,人脸识别,全网相似图片搜索,全流量上线广告CTR预估 语音识别PKgoogle @中文,Google同时在做30多种语言 人脸识别成功产品 百度魔图 。 图片的相似搜索,何为相似?如何定义!「百度识图」,已上线的产品,基于DL 新产品 「拍照写诗」 思考:DL第一次不分类别的大数据图像识别尝试 大数据+计算能力+统计模型+应用创新 图像识别训练数据数千万 Q:硬件问题 A:GPU不完美,可考虑FPGA 张长水(深度学习模型、发展历史与一些思考): 三种模型: Restricted Boltzmann Machine,layerwise Pre-training Autoencoder Neural Network,sparse … 继续阅读

20130912 NLP讲习班1

NLP简介–ZT: 【1】,目标: 处理–> 理解; 【2】,早期MT; 【3】,经典任务: a.词法分析(分词,词性标注,词情态分析,eg,单人 间隔 壁), b.句法分析(Stentence –> VP,NP,乔姆斯基), c.语义分析(WSD,词以及词义的表示,eg.词在向量中的表示. eg.word2vec for deeplearning. But, 语义如何界定很难),句子级别的分析,多种分析范式,eg, 语义角色标注(SRL),Semantic parsing(逻辑表示,1阶…N阶,不确定性的逻辑表达很复杂), etc. 【4】,NLP Tasks 核心:MT,QA,。。。;篇章级:文本的表示,LSI,LDA,etc; 指代消解(代词,指代做不好,统计也无力);文本的分类;自动摘要;… 【5】交叉学科,统计与机器学习,语言学,计算机; 【参考书】1,Foundations of Statistical Natural Language Processing, Chris Manning and Hinrich Schutze 2,统计自然语言处理,宗成庆 Q: SRL vs. … 继续阅读

基于LDA的变种Topic Model

转自:http://hi.baidu.com/batmanfly/item/0ae75e4c75c95daede2a9f7a 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生: David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证: J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence and Statistics, 2009. [PDF] 基本LDA模型,当然假设文档之间是可交换的,那么在原始的LDA中文档之间其实是认为条件独立的。而在实际情况中,往往不是这个样子的,文档间也许会存 在“social network”的这样的网络性质。如何结合内容和“social network”这两个特征也许是一个非常有意思的话题。这篇论文就是给出了一个解决方法。它为两个文档之间增加了一个二元随机变量,根据其内容特征,来 刻画这种隐含的链接关系。 关于显示的链接关系是过去今年内,人们追逐研究的对象,进而产生PageRank、HITS等等一大批优秀的链接关系算法。那么如何利用隐含的链接呢?什 么是隐含的链接呢?一个最简单的隐含链接就是基于内容相似度构建的图。这个被人们用的不亦乐乎,比如在文摘中的LexRank等。O Kurland在SIGIR中发了两篇大概都是类似的文章,本质思想貌似就是在利用内容之间的“超链接”。 另外一个比较新颖的研究点,就是如何基于“social network”来挖掘内容特征? Mei Qiaozhu的一篇论文就是利用“social network”的网络结构特征最为规则化因子,重新修正了原始的PLSA模型。想法非常的新颖。 D. Blei and J. … 继续阅读

四篇应该仔细读的关于文本分析的tutorial类文章

这四篇文章经常被提及到,现原文出自:http://blog.sciencenet.cn/blog-611051-535693.html 对文本分析进行详细深入介绍的肯定不只这四篇,这是本人目前读过的,其他比较好的tutorial类文章欢迎大家推荐补充。 第一篇:详细介绍了离散数据的参数估计方法,而不是像大多数教材中使用的Gaussian分布作为例子进行介绍。个人觉得最值得一读的地方是它使用Gibbs采样对LDA进行推断,其中相关公式的推导非常详细,是许多人了解LDA及其他相关topic model的必读文献。 @TECHREPORT{Hei09, author = {Heinrich, Gregor}, title = {Parameter Estimation for Text Analysis}, institution = {vsonix GmbH and University of Leipzig}, year = {2009}, type = {Technical Report Version 2.9}, abstract = {Presents parameter estimation methods common … 继续阅读

稀疏的短文本

NLPer针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长立本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面, Salton 的向量空间模型和基于Markov 过程的n-gram 模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF/IDF)、信息增益(IG) 、CHI 、互信息(MI)等统计量的专门特征选择方法,同时,还将主成分分析、线性鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引( LSI) 的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机( SVM) 、神经网络、自组织映射( SOM)、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用. 然而,针对以即时消息、在线聊天记录、BBS 标题、手机机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等),使得一些针对长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求. 短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等) ,使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上”词重现”一级的短文本聚集. 毫元疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用[1]. 这些短文本由于具有不规范性和大量相似性等特点,哈尔滨工业大学称其为变异短文本. 变异短文本通常有以下几个特点:1. 拼音替换,如:“没有”会写成”meiyou”;2. 同音字替换,如:“不想”会写成“不祥”;3. 各种标点符号,如用“∶) ”来表示一个笑脸;4. 数量非常大,并且相似度很高。这主要体现在手机短信中,往往一条幽默短信会经常大量群发。 [参考]1:2010 基于字符串相似性聚类的网络短文本舆情热点发现技术 2:2006 面向变异短文本的快速聚类算法