利用solrj API进行微博内容检索

【实验目的】:在172.18.29.185直接调用solrj的API接口完成检索功能,不要使用现成的UI用户界面,不使用web服务。 【参考】:solrj wiki: http://wiki.apache.org/solr/Solrj 【尚有遗留问题】: 测试了本地部署的嵌入服务模式,但一直报错,查了一些网站,还没有找出哪需要配置。 1:关于solr和lucene Lucene是一个使用Java语言写的全文检索开发包(API),利用它可以实现强大的检索功能。 Solr可以说是Lucene下的一个子项目,是一个完完整整地应用。换句话说,它是一个全文检索服务器。Solr目前的客户端面向的有Java、PHP、Python、C#、Json和Ruby等,有了这些客户端,使用者能很方便地将Solr集成到具体运用中。目前最完善的当属Java客户端Solrj。 a)、Solr服务器的配置在solrconfig.xml中完成,包括对缓存,servlet的个性化配置等等,即系统全局的配置; b)、索引方法、索引域(字段)等等在schema.xml中完成,这个配置是针对Solr实例的; [Solr分词顺序]Solr建立索引和对关键词进行查询都得对字串进行分词,在向索引库中添加全文检索类型的索引的时候,Solr会首先用空格进行分词,然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下: 索引 1:空格whitespaceTokenize 2:过滤词StopFilter 3:拆字WordDelimiterFilter 4:小写过滤LowerCaseFilter 5:英文相近词EnglishPorterFilter 6:去除重复词RemoveDuplicatesTokenFilter 查询 1:查询相近词 2:过滤词 3:拆字 4:小写过滤 5:英文相近词 6:去除重复词 以上是针对英文,中文的除了空格,其他都类似 关于schema.xml的配置方法可以借鉴 http://hi.baidu.com/lewutian/item/3d72e939309473bd124b14bd 配置solrconfig.xml,用来配置Solr的一些系统属性,比较重要的一个就是可以通过更改其中的dataDir属性来指定索引文件的存放位置。 [Solr的检索运算符] ? “:” 指定字段查指定值,如返回所有值*:* ? “?” 表示单个任意字符的通配 ? “*” 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号) … 继续阅读

按tutorial搭建solr4.1.0环境

【实验目的】:在linux服务器上安装配置solr4.1.0版本环境. 完成效果:自带demo可以运行。(需要安装web环境,tomcat/jetty都行) 【参考】:http://lucene.apache.org/solr/4_1_0/tutorial.html 1:环境需要 1.1 java 1.6.0以上版本,查看版本,已安装 1.2 Solr release 4.1.0版本,到solr的官方网站进行下载 $ unzip –q solr-4.1.0.zip 进行解压contrib有一些功能模块是需要的jar包 dist是打包发布好的工程war包 docs是帮助文档 example是示例,里面有打包部署好的solr工程示例和servlet容器jetty。如果你没有tomcat可以直接使用Jetty服务器部署你的solr示例。 PS. 对于servlet容器容器,solr自带了jetty,而且官方网站的tutorial为简单起见也采用的是jetty,不过用tomcat的用户比较多,我们采用tomcat。 1.3 tomcat包安装 到tomcat的官网上http://tomcat.apache.org 下载当前最新版本(目前为7.0.37 Core:->tar.gz文件) $ tar –zxvf apache-tomcat-7.0.37.tar.gz 进行解包 2:利用tomcat发布solr示例 2.1修改一些配置 a). 修改 /home/xujiaming/jacoxu20130222/apache-tomcat-7.0.37/conf/server.xml,修改第70行,加个 URIEncoding=”UTF-8″,把 8080 的那一块改为: b). … 继续阅读