稀疏的短文本

NLPer针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长立本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面, Salton 的向量空间模型和基于Markov 过程的n-gram 模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF/IDF)、信息增益(IG) 、CHI 、互信息(MI)等统计量的专门特征选择方法,同时,还将主成分分析、线性鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引( LSI) 的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机( SVM) 、神经网络、自组织映射( SOM)、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用.

然而,针对以即时消息、在线聊天记录、BBS 标题、手机机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等),使得一些针对长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求.

短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等) ,使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上”词重现”一级的短文本聚集.

毫元疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用[1].

这些短文本由于具有不规范性和大量相似性等特点,哈尔滨工业大学称其为变异短文本. 变异短文本通常有以下几个特点:1. 拼音替换,如:“没有”会写成”meiyou”;2. 同音字替换,如:“不想”会写成“不祥”;3. 各种标点符号,如用“∶) ”来表示一个笑脸;4. 数量非常大,并且相似度很高。这主要体现在手机短信中,往往一条幽默短信会经常大量群发。

[参考]1:2010 基于字符串相似性聚类的网络短文本舆情热点发现技术
2:2006 面向变异短文本的快速聚类算法

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>