配置Solr+Tomcat多核multi-cores

solr提供了jetty Web容器使用起来很方便,但是不利于自定义修改,下面在Tomcat上配置Solr多核,中间遇到了很多问题,自己尽可能进行了全面的总结,使得大家能够快速上手Solr的多核使用,废话少说啦,~~直接进入Steps 准备工作:下载Solr和Tomcat 下载Solr-4.2.0.zip http://apache.dataguru.cn/lucene/solr/ 当前最新版本为4.2.0 http://lucene.apache.org/solr/的最新版本为4.3.0,我下载了4.2.0版本。 下载Tomcat, http://tomcat.apache.org/ 分为32bits, 64bits 当前Core最新版本 7.0.40,不同的OS上要注意32和64 bits问题,本地上,测试32bits代码 下面开始模拟服务器的环境搭建:假定$SOLRPATH = D:\jacoxu\20130531SolrPorject 注意: 下面的$SOLRPATH在真正配置的时候都要替换成相应的路径 Step 1: 复制apache-tomcat-7.0.40-windows-x86(注在x64的机子上要换64bits的版本) 这个文件夹到$SOLRPATH下,并运\bin\startup.bat文件,然后输入网址http://localhost:8080/ 显示tomcat欢迎界面则正常,如果无显示则调试startup.bat 最后一行添加pause,进行调试,一般会发现没有配置Java环境,添加两个系统变量 Step2: 复制\solr-4.2.0\example\webapps\solr.war文件到 $SOLRPATH\apache-tomcat-7.0.40-windows-x86\webapps\ 目录下 启动tomcat并停止,会发现目录下多一个文件夹solr 删除solr.war压缩文件 此时打开http://localhost:8080/solr/ 会看到如下界面 显示没有core在运行,此时需要配置solr的指定core目录 Step3: 复制solrHome这个文件夹到$SOLRPATH下 SolrHome下的目录结构 |— solr.xml |— … 继续阅读

基于LDA的变种Topic Model

转自:http://hi.baidu.com/batmanfly/item/0ae75e4c75c95daede2a9f7a 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生: David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证: J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence and Statistics, 2009. [PDF] 基本LDA模型,当然假设文档之间是可交换的,那么在原始的LDA中文档之间其实是认为条件独立的。而在实际情况中,往往不是这个样子的,文档间也许会存 在“social network”的这样的网络性质。如何结合内容和“social network”这两个特征也许是一个非常有意思的话题。这篇论文就是给出了一个解决方法。它为两个文档之间增加了一个二元随机变量,根据其内容特征,来 刻画这种隐含的链接关系。 关于显示的链接关系是过去今年内,人们追逐研究的对象,进而产生PageRank、HITS等等一大批优秀的链接关系算法。那么如何利用隐含的链接呢?什 么是隐含的链接呢?一个最简单的隐含链接就是基于内容相似度构建的图。这个被人们用的不亦乐乎,比如在文摘中的LexRank等。O Kurland在SIGIR中发了两篇大概都是类似的文章,本质思想貌似就是在利用内容之间的“超链接”。 另外一个比较新颖的研究点,就是如何基于“social network”来挖掘内容特征? Mei Qiaozhu的一篇论文就是利用“social network”的网络结构特征最为规则化因子,重新修正了原始的PLSA模型。想法非常的新颖。 D. Blei and J. … 继续阅读

世界最著名的交响乐名曲

乐圣贝多芬:在他的九大交响曲中,第三交响曲(英雄),第五角交响曲(命运),第六交响曲(田园),第九交响曲(合唱)最为著名。 钢琴曲以“月光”、“悲怆”、“热情”、“给爱丽丝”等最出色。 神童莫扎特: C大调第二十一钢琴协奏曲 、 、A大调第五小提琴协奏曲、 降E大调第三圆号协奏曲 、C大调长笛歌剧《费加罗的婚礼》 、歌剧《魔笛》、 歌剧《唐璜》 、安魂曲 、土耳其进行曲 、小步舞曲 。 柴科夫斯基:“第一钢琴协奏曲”“天鹅湖序曲”、“胡桃夹子”、“睡美人”等。 肖邦:以“英雄”、“离别”、“摇篮曲”、“雨滴”、“波兰舞曲”等。 施特劳斯(家族):“蓝色的多瑙河”、“春之声圆舞曲”、“拉德斯基进行曲”、“雷电波尔卡”、“晨报”、“蝙蝠”等。 柴柯夫斯基 1.1812序曲 2.第6号交响曲 3.第一钢琴协奏曲 4.胡桃夹子 5.花之圆舞曲 6.天鹅湖 7.唯有一颗孤独的心 8.小夜曲圆舞曲 9.叶甫根尼奥捏金 贝多芬 1.命运交响曲 2.绮想轮旋曲 3.小步舞曲 4.月光 5.献给爱丽丝 6.菲达里欧序曲 7.田园 8.f大调浪漫曲 9.f大调行板 10.英雄 11.第五钢琴协奏 莫扎特 … 继续阅读

四篇应该仔细读的关于文本分析的tutorial类文章

这四篇文章经常被提及到,现原文出自:http://blog.sciencenet.cn/blog-611051-535693.html 对文本分析进行详细深入介绍的肯定不只这四篇,这是本人目前读过的,其他比较好的tutorial类文章欢迎大家推荐补充。 第一篇:详细介绍了离散数据的参数估计方法,而不是像大多数教材中使用的Gaussian分布作为例子进行介绍。个人觉得最值得一读的地方是它使用Gibbs采样对LDA进行推断,其中相关公式的推导非常详细,是许多人了解LDA及其他相关topic model的必读文献。 @TECHREPORT{Hei09, author = {Heinrich, Gregor}, title = {Parameter Estimation for Text Analysis}, institution = {vsonix GmbH and University of Leipzig}, year = {2009}, type = {Technical Report Version 2.9}, abstract = {Presents parameter estimation methods common … 继续阅读

ML&DM&AI&IR&NLP top conferences

【Machine Learning(机器学习)】: conf.: ICML, NIPS journal: JMLR, ML 【Data Minning(数据挖掘)】: conf.: KDD, ICDM, SDM 【Artificial Intelligence(人工智能)】: conf.: IJCAI, AAAI, UAI 【Information Retrieval(信息检索)】: conf.: SIGIR, CIKM, WWW, ECIR 【Natural Language Process(自然语言处理)】: conf.: ACL, NAACL, EMNLP, EACL, COLING —————————————————— 【Computer vision(计算机视觉)】: conf.: ICCV, CVPR, ECCV 【其他相关关注】:ACMMM(多媒体领域), WSDM(社交媒体领域),VLDB(大数据领域), 【国内会议】: CNCCL(China National … 继续阅读

稀疏的短文本

NLPer针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长立本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面, Salton 的向量空间模型和基于Markov 过程的n-gram 模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF/IDF)、信息增益(IG) 、CHI 、互信息(MI)等统计量的专门特征选择方法,同时,还将主成分分析、线性鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引( LSI) 的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机( SVM) 、神经网络、自组织映射( SOM)、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用. 然而,针对以即时消息、在线聊天记录、BBS 标题、手机机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等),使得一些针对长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求. 短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等) ,使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上”词重现”一级的短文本聚集. 毫元疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用[1]. 这些短文本由于具有不规范性和大量相似性等特点,哈尔滨工业大学称其为变异短文本. 变异短文本通常有以下几个特点:1. 拼音替换,如:“没有”会写成”meiyou”;2. 同音字替换,如:“不想”会写成“不祥”;3. 各种标点符号,如用“∶) ”来表示一个笑脸;4. 数量非常大,并且相似度很高。这主要体现在手机短信中,往往一条幽默短信会经常大量群发。 [参考]1:2010 基于字符串相似性聚类的网络短文本舆情热点发现技术 2:2006 面向变异短文本的快速聚类算法

Generative Model vs.Discriminative Model

再假如你的任务是识别一个语音属于哪种语言。例如对面一个人走过来,和你说了一句话,你需要识别出她说的到底是汉语、英语还是法语等。那么你可以有两种方法达到这个目的: 1、学习每一种语言,你花了大量精力把汉语、英语和法语等都学会了,我指的学会是你知道什么样的语音对应什么样的语言。然后再有人过来对你哄,你就可以知道他说的是什么语音,你就可以**他是“**国人还是***了”。(呵呵,切勿将**掺杂在技术里面) 2、不去学习每一种语言,你只学习这些语言模型之间的差别,然后再分类。意思是指我学会了汉语和英语等语言的发音是有差别的,我学会这种差别就好了。 那么第一种方法就是生成方法,第二种方法是判别方法。 生成算法尝试去找到底这个数据是怎么生成的(产生的),然后再对一个信号进行分类。基于你的生成假设,那么那个类别最有可能产生这个信号,这个信号就属于那个类别。判别模型不关心数据是怎么生成的,它只关心信号之间的差别,然后用差别来简单对给定的一个信号进行分类。 [摘自] http://blog.csdn.net/zouxy09/article/details/8195017