20131010 NLP讲习班2 –文本分类

【1】. 预处理
英文,去停用词,词根还原
中文,分词,词性标注,短语识别
词频统计,数据清洗,…

【2】. 文本表示模型
2.1. Bag Of Words 应用实例:朴素贝叶斯模型;
2.2. Vector Space Model 应用:KNN,LR,SVM
BOW 词的概率来表示权重,VSM用TF-IDF来表示权重。

Term的粒度:Character, Word, Phrase, Concept, N-gram.
权重的计算方法:1. 布尔权重;2. TF-IDF权重;3. 基于熵概念的权重(Entropy weighting)

【3】. 特征选择
3.1. 有监督特征词选择算法:
信息增益(IG): 为该term为整个分类所能提供的信息量;
互信息(Mutual Information): 计算每个词t与类别c之间的互信息,存在问题,倾向于选择稀疏词;
相对熵(KL Divergence):
卡方(Chi-square): 卡方统计量常常用于检测两个事件的独立性,在特证词选择中,两个事件分别指词项的出现共同的
3.2. 无监督算法:文档频率(DF), 单词贡献度(TC)

【3补】. 特征重构
Latent Semantic Index. Latent Dirichlet Allocation

Q:特征选择方法和特征表示权重的方法异同,例如TF-IDF?
A:TF-IDF 能够做权重表示,卡方检验只能对比重要性,但没有能力来表示权重。

【4】. 文本分类方法
Rocchio方法;Naive Bayes; KNN; Logistic Regression; Decision Tree Classifier; Decision Rule Classifier; The Widrow-Hoff Classifier; Neural Networks; SVM; Voting Method.

4.1. Rocchio 方法:可以认为类中心向量法是它的特例;
4.2. 构造决策树:CART, ID3, C4.5. 都是有训练样本构造二叉树,但是构造树的方法不同,C4.5用的最多;
4.3. 基于投票的方法: Boosting, Bagging. 多个弱分类器得到强分类器
4.4 其他分类方法:
Regression based on Least Squares Fit (1991)
Nearest Neighbor Classification (1992) *
Bayesian Probabilistic Models (1992) *
Symbolic Rule Induction (1994)
Decision Tree (1994) *
Neural Networks (1995)
Rocchio approach (traditional IR, 1996) *
Support Vector Machines (1997)
Boosting or Bagging (1997)*
Hierarchical Language Modeling (1998)
First-Order-Logic Rule Induction (1999)
Maximum Entropy (1999)
Hidden Markov Models (1999)
Error-Correcting Output Coding (1999)

【5】. 评估指标
5.1. Precision Recall F1
5.2. 宏平均,微平均

文本分类的研究方向:
特征选择;权重计算;不平衡数据集分类;训练集样本很少(半监督学习);Active-Learning 加入人工的因素;Transfer Learning;基本上文本分类作为检测新方法的测评指标。

多类别数目分类问题

下次希望学习:
Deep Learning: RBM, Auto Encoder,

20131010 NLP讲习班2 –文本分类》上有 2 条评论

  1. 您好,最近做网络爬虫和数据采集,主要是国外的医药类网站,请教对于英文网页用什么文本分类算法比较好。有哪些java开源库可以使用?谢谢

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>