百度深度学习进展介绍–余凯@CASIA

【主讲人】:余凯(Deep Learning):–百度深度学习研究院(IDL) 介绍百度DL进展,今年报告李彦宏(Robin)在国际数据挖掘会议ACM KDD上发表演讲,相信技术的力量,提出技术难题: 1:自然图片OCR,2:语音识别和理解,3:图像搜索(不是传统的以文搜图,基于图像内容的图像搜索) 业界趋势:移动互联网带入识图时代。图像:美图秀秀等产品;语音:siri,微软DL,google,科大迅飞,baidu语音识别 Gartner Emerging Tech Hype Cycle 2012 –技术热门曲线 2006 SCIENCE–> Reducing the dimensionality of Data with Neural Networks –Hinton. 分层Pre-Training. 最早从图像开始做,09年开始从语音开始做。 DL 被评为MIT2013十大技术之首,2012.6 Google-Brain 项目,2012.11 微软智能同声传译 Google Building 42, 把所有的AI Researcher 放到同一座大楼中 2013年1月19日,Robin宣布成立百度IDL研究院 2013年9月,Facebook宣布成立AI Lab,图像搜索,语义搜索。Deep … 继续阅读

20131010 NLP讲习班2 –文本分类

【1】. 预处理 英文,去停用词,词根还原 中文,分词,词性标注,短语识别 词频统计,数据清洗,… 【2】. 文本表示模型 2.1. Bag Of Words 应用实例:朴素贝叶斯模型; 2.2. Vector Space Model 应用:KNN,LR,SVM BOW 词的概率来表示权重,VSM用TF-IDF来表示权重。 Term的粒度:Character, Word, Phrase, Concept, N-gram. 权重的计算方法:1. 布尔权重;2. TF-IDF权重;3. 基于熵概念的权重(Entropy weighting) 【3】. 特征选择 3.1. 有监督特征词选择算法: 信息增益(IG): 为该term为整个分类所能提供的信息量; 互信息(Mutual Information): 计算每个词t与类别c之间的互信息,存在问题,倾向于选择稀疏词; 相对熵(KL Divergence): … 继续阅读

20130913 深度学习@ICTCAS

余凯(Deep Learning): 介绍百度DL进展,今年报告李彦宏(Robin)相信技术的力量,提出技术难题:1:自然图片Ocr,2:语音识别和理解,3:图像搜索 业界趋势:移动互联网带入识图时代;siri,微软DL,google,科大迅飞,baidu语音识别 DL 被评为MIT2013十大技术之首 imageNet 2012 Hinton参赛74%->85%,13年3月份加入google   4700W$ 深度学习更接近人脑 人工智能新范式:大数据+深度学习 ICML Andrw Ng 100亿个参数 2012年夏天投入研发,用GPU提高运算效率,语音,OCR,人脸识别,全网相似图片搜索,全流量上线广告CTR预估 语音识别PKgoogle @中文,Google同时在做30多种语言 人脸识别成功产品 百度魔图 。 图片的相似搜索,何为相似?如何定义!「百度识图」,已上线的产品,基于DL 新产品 「拍照写诗」 思考:DL第一次不分类别的大数据图像识别尝试 大数据+计算能力+统计模型+应用创新 图像识别训练数据数千万 Q:硬件问题 A:GPU不完美,可考虑FPGA 张长水(深度学习模型、发展历史与一些思考): 三种模型: Restricted Boltzmann Machine,layerwise Pre-training Autoencoder Neural Network,sparse … 继续阅读

20130912 NLP讲习班1

NLP简介–ZT: 【1】,目标: 处理–> 理解; 【2】,早期MT; 【3】,经典任务: a.词法分析(分词,词性标注,词情态分析,eg,单人 间隔 壁), b.句法分析(Stentence –> VP,NP,乔姆斯基), c.语义分析(WSD,词以及词义的表示,eg.词在向量中的表示. eg.word2vec for deeplearning. But, 语义如何界定很难),句子级别的分析,多种分析范式,eg, 语义角色标注(SRL),Semantic parsing(逻辑表示,1阶…N阶,不确定性的逻辑表达很复杂), etc. 【4】,NLP Tasks 核心:MT,QA,。。。;篇章级:文本的表示,LSI,LDA,etc; 指代消解(代词,指代做不好,统计也无力);文本的分类;自动摘要;… 【5】交叉学科,统计与机器学习,语言学,计算机; 【参考书】1,Foundations of Statistical Natural Language Processing, Chris Manning and Hinrich Schutze 2,统计自然语言处理,宗成庆 Q: SRL vs. … 继续阅读

基于LDA的变种Topic Model

转自:http://hi.baidu.com/batmanfly/item/0ae75e4c75c95daede2a9f7a 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生: David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证: J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence and Statistics, 2009. [PDF] 基本LDA模型,当然假设文档之间是可交换的,那么在原始的LDA中文档之间其实是认为条件独立的。而在实际情况中,往往不是这个样子的,文档间也许会存 在“social network”的这样的网络性质。如何结合内容和“social network”这两个特征也许是一个非常有意思的话题。这篇论文就是给出了一个解决方法。它为两个文档之间增加了一个二元随机变量,根据其内容特征,来 刻画这种隐含的链接关系。 关于显示的链接关系是过去今年内,人们追逐研究的对象,进而产生PageRank、HITS等等一大批优秀的链接关系算法。那么如何利用隐含的链接呢?什 么是隐含的链接呢?一个最简单的隐含链接就是基于内容相似度构建的图。这个被人们用的不亦乐乎,比如在文摘中的LexRank等。O Kurland在SIGIR中发了两篇大概都是类似的文章,本质思想貌似就是在利用内容之间的“超链接”。 另外一个比较新颖的研究点,就是如何基于“social network”来挖掘内容特征? Mei Qiaozhu的一篇论文就是利用“social network”的网络结构特征最为规则化因子,重新修正了原始的PLSA模型。想法非常的新颖。 D. Blei and J. … 继续阅读

四篇应该仔细读的关于文本分析的tutorial类文章

这四篇文章经常被提及到,现原文出自:http://blog.sciencenet.cn/blog-611051-535693.html 对文本分析进行详细深入介绍的肯定不只这四篇,这是本人目前读过的,其他比较好的tutorial类文章欢迎大家推荐补充。 第一篇:详细介绍了离散数据的参数估计方法,而不是像大多数教材中使用的Gaussian分布作为例子进行介绍。个人觉得最值得一读的地方是它使用Gibbs采样对LDA进行推断,其中相关公式的推导非常详细,是许多人了解LDA及其他相关topic model的必读文献。 @TECHREPORT{Hei09, author = {Heinrich, Gregor}, title = {Parameter Estimation for Text Analysis}, institution = {vsonix GmbH and University of Leipzig}, year = {2009}, type = {Technical Report Version 2.9}, abstract = {Presents parameter estimation methods common … 继续阅读

稀疏的短文本

NLPer针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长立本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面, Salton 的向量空间模型和基于Markov 过程的n-gram 模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF/IDF)、信息增益(IG) 、CHI 、互信息(MI)等统计量的专门特征选择方法,同时,还将主成分分析、线性鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引( LSI) 的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机( SVM) 、神经网络、自组织映射( SOM)、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用. 然而,针对以即时消息、在线聊天记录、BBS 标题、手机机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等),使得一些针对长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求. 短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等) ,使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上”词重现”一级的短文本聚集. 毫元疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用[1]. 这些短文本由于具有不规范性和大量相似性等特点,哈尔滨工业大学称其为变异短文本. 变异短文本通常有以下几个特点:1. 拼音替换,如:“没有”会写成”meiyou”;2. 同音字替换,如:“不想”会写成“不祥”;3. 各种标点符号,如用“∶) ”来表示一个笑脸;4. 数量非常大,并且相似度很高。这主要体现在手机短信中,往往一条幽默短信会经常大量群发。 [参考]1:2010 基于字符串相似性聚类的网络短文本舆情热点发现技术 2:2006 面向变异短文本的快速聚类算法

java导入UTF-8词典第一行不匹配问题

做字符串匹配过程中要经常导入一些usrdict or stopdict,但是把文件转为utf-8格式,并且在java中以utf-8方式导入时都会出现词典第一行字符无法匹配的问题,但是debug变量,字符显示是完全一样的,那么问题出在那里? 把正常的dict和有问题的dict用UltraEdit打开: 然后利用UltraEdit用16进制看两个文件的不同,会发现有问题的dict文件表头多了一串二进制。 问题应该是出在从其他格式文件转向UTF-8时。所以最好是直接复制一份没问题的UTF-8文件然后导入词典。 不要太相信字符串显示