solr那点事儿

1. 无论读和写io都是本质瓶颈,固态盘用起来是很爽的,linux下大内存通过缓存也能大大减少io的使用率;
2. solr4.7之后提供了游标方式以解决深页查询问题,但是应避免使用它,因为它是基于sort排序和范围检索实现的,排序会消耗很大的io,应尽可能避免它!!!血的教训!可利用时间切片加浅深翻方式进行查询;
3. solr4.4的问题,solr core不能太多3K左右就会很慢,solr core的lru队列中加载不了新core。solr4.9的问题,同一个tomcat下部署了多实例,通过lru加载或者创建一个1KW的新core速度很慢!
4. 并发写同一个core基本提速很少而且会出现重复写数据问题,而多线程同时写不同的core则基本程线性倍数提高!
5. Solr入库的瓶颈在CPU主频,Solr检索的瓶颈在IO,并发检索排序查询的瓶颈在内存。
6. LRU加载多少个核合适的问题: 对于微博文本这样的内容,原始文本平均4M/W的存储空间,建立索引后,平均为5G/2KW存储,SOLR加载2KW的一个CORE主要为加载词典文件和打开文件操作符,大致消耗60M空间。平均加载一个这样的CORE在2秒左右
7. 今天加大内存到148G,并提高LRU到2000,共用了三台服务器,数据量到达420亿,共3600个核进行5个线程的并发检索,首次检索达12分钟,而再次相同条件检索仅6秒!

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>