匹配学习Learning to Match

关于匹配学习,李航老师在今年图灵诞辰100周年的一个简单报告中简要介绍了匹配学习的意义。李航老师今年总共做了4个关于learning to match的报告 第一个:Workshop on Algorithms for Modern Massive Data Sets. Stanford University. July 10–13, 2012 [pdf],[video] 题目:Large Scale Machine Learning for Query Document Matching in Web Search 主要介绍Query-Document的重新表示并进行match匹配,他的第三篇报告20120817 Learning to Match for Natural Language Processing and Information Retrieval yssnlp_2012 … 继续阅读

数学之美中的NLP故事

1. 统计语言模型 首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek )。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。 1990年代末期, 大家才发现通过统计得到的句法规则甚至比语言学家总结的更有说服力. 2005年后, 随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统, 基于规则方法固守的最后一个堡垒被拔掉了. 19世纪末到20世纪初, 俄罗斯的数学家马尔可夫把句子的统计语言概率模型简化为二元模型, 称为马尔科夫假设. 训练统计语言模型的艺术就在于解决好统计样本不足时的概率估计问题, 1953年I.J.Good在他老板Alan Turing的指导下提出了在统计中相信可靠的统计数据, 而对不可信的统计数据打折扣的一种概率估计方法. 同时将折扣出来的那一小部分概率给予未看见的事件. 2. 谈中文分词 中文分词最早由北京航空航天大学的梁南元教授提出. 20世纪80年代, 哈尔滨工业大学的王晓龙博士把查字典的方法理论化, 发展成最少词数的分词理论. 而这种方法明显的不足是二义性问题. 1990年前后, 当时在清华大学电子工程系工作的郭进博士用统计语言模型成功解决了分词二义性问题, 讲汉语分词的错误率降低了一个数量级. 在郭进博士之后, 值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作. Google 的葛显平博士和朱安博士,专门为搜索设计和实现了自己的分词系统。 表面上看, 分词技术只针对亚洲语言, 而罗马体系的拼音语言没有这个问题, … 继续阅读

约束最优化方法

约束最优化问题的求解要比无约束问题的求解复杂得多, 也困难得多, 因而求解方法也更多种多样, 内容更为丰富. 这里只讨论可行方向方法中的简约梯度法和增广目标函数方法中的惩罚函数法. 一: 约束优化问题的最优性条件 KKT最优化条件是Karush[1939]以及Kuhn和Tucker[1951]先后独立发表出來的. 这组最优化条件在Kuhn和Tucker 发表之后才逐渐受到重视, 因此许多书只记载成「Kuhn-Tucker 最优化条件(Kuhn-Tucker conditions)」. KKT条件处理不等式约束时, 可以把它变换成一组等式约束. KTT条件是指在满足一些有规则的条件下, 一个非线性规划(Nonlinear Programming)问题能有最优化解法的一个必要和充分条件. 这是一个广义化拉格朗日乘数的成果. 一般地, 一个最优化数学模型的列标准形式如式(1), 所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最优点\({{\bf{x}}^ * }\)必须满足下面的条件: 1). 约束条件满足\({g_i}({{\bf{x}}^ * }) \le 0,i = 1,2,…,p\), 以及\(,{h_j}({{\bf{x}}^ * }) = 0,j = … 继续阅读

[zz]深度学习(Deep Learning)综述

本文是从deeplearning网站上翻译的另一篇综述,主要简述了一些论文、算法以及工具箱。 深度学习是ML研究中的一个新的领域,它被引入到ML中使ML更接近于其原始的目标:AI。查看a brief introduction to Machine Learning for AI 和 an introduction to Deep Learning algorithms. 深度学习是关于学习多个表示和抽象层次,这些层次帮助解释数据,例如图像,声音和文本。对于更多的关于深度学习算法的知识,查看: The monograph or review paper Learning Deep Architectures for AI(Foundations & Trends in Machine Learning, 2009). The ICML 2009 Workshop on Learning Feature … 继续阅读

Statistical Pattern Recognition Chapter 1-2 Notes

Statistical Pattern Recognition Chapter 1-2 Notes: 一: Introduction to Statistical Pattern Recognition 1.4 Approaches to statistical pattern recognition Some important points to make about the design process: a). Finite design set, (overfit — underfit) -> generalization performance; b). Optimality; c). … 继续阅读