出门携物清单

每次出门都要思索会哪些东西要带,哪些东西不能带,不如一次性列个清单 出门要带的东西:身份证,学生证(俩,一卡通),火车票,驾驶证(家),钥匙,钱包,刮胡子刀,手表,手机,手机充电器,耳机,pad,pad充电器数据线,移动电源,相机,相机充电器数据线,帆布鞋,换洗衣服袜子,外套,睡衣裤,洗面奶,发蜡,澡巾,雨伞,眼镜布,笔记本电脑,无线鼠标,相关书籍,户外包,商务包,纸巾,户外水杯,眼罩 若去国外:+ 移动wifi,电源转换头,地铁卡,换币种,

Locality Sensitive Hashing归总

最近发邮件讨论Semantic Hashing的同学和同事很多,推荐李老师的文献列表供大家参阅:http://cs.nju.edu.cn/lwj/L2H.html 说到Hash,大家都很熟悉,是一种典型的Key-Value结构,最常见的算法莫过于MD5。其设计思想是使Key集合中的任意关键字能够尽可能均匀的变换到Value空间中,不同的Key对应不同的Value,即使Key值只有轻微变化,Value值也会发生很大地变化。这样特性可以作为文件的唯一标识,在做下载校验时我们就使用了这个特性。但是有没有这样一种Hash呢?他能够使相似Key值计算出的Value值相同或在某种度量下相近呢?甚至得到的Value值能够保留原始文件的信息,这样相同或相近的文件能够以Hash的方式被快速检索出来,或用作快速的相似性比对。位置敏感哈希(Local Sensitive Hashing, LSH)正好满足了这种需求,在大规模数据处理中应用非常广泛,例如已下场景[1]: 1. 近似检测(Near-duplicate detection):通常运用在网页去重方面。在搜索中往往会遇到内容相似的重复页面,它们中大多是由于网站之间转载造成的。可以对页面计算LSH,通过查找相等或相近的LSH值找到Near-duplicate。 2. 图像、音频检索:通常图像、音频文件都比较大,并且比较起来相对麻烦,我们可以事先对其计算LSH,用作信息指纹,这样可以给定一个文件的LSH值,快速找到与其相等或相近的图像和文件。 3. 聚类:将LSH值作为样本特征,将相同或相近的LSH值的样本合并在一起作为一个类别。 LSH(Location Sensitive Hash),即位置敏感哈希函数。与一般哈希函数不同的是位置敏感性,也就是散列前的相似点经过哈希之后,也能够在一定程度上相似,并且具有一定的概率保证[3]。 LSH的形式化定义: 对于任意q,p属于S,若从集合S到U的函数族H={h1,h2…hn}对距离函数D(q,p),如欧式距离、曼哈顿距离等等,满足条件: 若\(D(p,q) \le r\), 且\({\rm{Pro}}[h(p) = h(q)] \ge p1\) 若\(D(p,q) > r(1 + \varepsilon )\), 且\({\rm{Pro}}[h(p) = h(q)] \le p2\) 则称D(p,q)是位置敏感的。 如下图,空间上的点经位置敏感哈希函数散列之后,对于q,其rNN有可能散列到同一个桶(如第一个桶),即散列到第一个桶的概率较大,会大于某一个概率阈值p1;而其(1+emxilong)rNN之外的对象则不太可能散列到第一个桶,即散列到第一个桶的概率很小,会小于某个阈值p2. LSH的作用: … 继续阅读

关于Solr的性能调优

如何能在有限的服务器资源上较好的使用Solr服务,性能调优是必不可少的。鉴于个人经验,给出几条可调优方法: 1. 配置SolrConfig中的Directory, 不当的Directory会消耗大量的内存或IO资源,当索引规模变大时也很容易导致内存溢出,或索引维护的Map Failed现象!如何选择合适的Directory可参看《Lucene in Action》(第二版) Section2.10 中文本P52; 2. 配置Schema中的字段的 omitNorm= true, Norm中保存了大量的字段信息用于评分排序. 如果不是很必要的话可把omitNorm设置为true能够减少磁盘和内存的使用并加快索引速度,同时只用来索引而不需要显示的字段也可设置indexed=”true” stored=”false”, 具体Norm的作用可参见《Lucene in Action》(第二版) Section2.53 中文本P47; 3. 调整SolrConfig中的合并因子mergeFactor和内存触发机制setRAMBBufferSizeMB。mergeFactor越小,索引合并越频繁,索引段越少,同时,setRAMBBufferSizeMB越小,Writer更新的越频繁,索引段越多;《Lucene in Action》(第二版) Section11 4. 在索引阶段,不进行索引优化能够接受的话,就不进行索引优化optimize(),很耗时的一件事!但是在查询阶段,优化往往能够大幅度提高查询效率,因而如果可以,考虑周期性optimize()或optimize(maxNumSegments);《Lucene in Action》(第二版) Section11 注意:1. 在优化过程中,索引文件很容易占用超过自身文本大小10倍的硬盘空间,因而一定要考虑服务器的资源限制问题!《Lucene in Action》(第二版) Section11 中文本P355 2.字段中必留的三个: uniqueKey:id ,version, … 继续阅读

关于Java正则表达式的书写

处理文本,书写正则表达式是必备技能之一,参考一下两篇文章即可: 1. java正则表达式详解与应用(学习必备) 2. Java学习笔记之Pattern类的用法详解 分享一个网页和邮箱的正则抽取: Pattern EMail = Pattern.compile(        “\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*”, Pattern.DOTALL);       Pattern WebSite= Pattern.compile(        “(ftp|http[s]?:\\/\\/)?([\\w-]+\\.)+[\\w-]+([\\w-./?%&=]*)?”,        Pattern.CASE_INSENSITIVE);  

Solr的主从模式Master-Slave

在做Solr索引的时候,频繁读取数据文件,造成了Linux很大的物理内存分配给了cache, 即使已经设置了NIO模式.况且查询的时候压力也很大, 尤其是facet用shards进行多核查询统计时占用的内存极高. 而且为了避免读写的并发冲突问题可考虑利用主从Master/Slave进行同步操作, 使得读写操作分到不同的服务器上. 关于Solr的Replication机制是这么解释的: The SolrReplicationHandler supports replicating indexes from a “master” used for indexing and “slaves” used for queries. http://wiki.apache.org/solr/SolrReplication It is also neccessary for SolrCloud to function (in Cloud mode, the replication handler is used to … 继续阅读

Linux高物理内存(Physical Memory)占用率现象

最近项目联调发现各种OutOfMemory,然后大家很容易的就把原因归结到High Physical Memory上去,因为在shell中运行top指令可以看到free的内存很少(64G的内存只有1G空闲) 但是习惯了Windows的内存机制,很容易对Linux的内存机制产生误解。再细看上面图片中,应用进程占用的内存并不高,几近30G左右,而剩下的30G去哪了?Linux核把它分配给了cached缓存区,用于文件的快速读写。那么有必要手动释放这一部分内存吗?答案是不必的,linux有自己的机制可以在物理内存紧缺的情况下,快速释放缓存,所以尽量不要人工参与. 那么如何判断内存真的紧缺?看Swap的free内存时候在快速减少。所以通过top可以得知现在可以申请到的最高内存大致为Mem free + cached 内存,上例中即大致35G。 但是有时候cached占用过高的内存也容易导致其他一些异常,可参考ulimit -v 进行内存占用设置 ———————————————————————————— 关于top中的各个参数的释义为: top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。 top – 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48 Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombie Cpu(s): 0.3% … 继续阅读

关于Solr的各种DirectoryFactory

看到一个关于Solr的中文Book网站,介绍的有些简易,不过专注于Solr值得关注:http://www.solrcn.com/books/ 最近快被Solr的Map Failed快弄崩溃了==b,继续调研。。。,还没好。下面从中摘一段关于SolrDirectoryFactory的配置, Apache Lucene 以及 Solr 一个重要的属性是 Lucene 目录实现。目录接口为 Lucene 提供抽象的 IO 操作层。尽管选一个目录实现看起来很简单,但是在极端情况下,它会影响性能。以下将为你讲解如何选择正确的目录实现。 为了使用期望的目录,要做的就是选择正确的目录实现的工厂类,然后告知 solr。假设你打算使用 NRTCachingDirectory 作为你的目录实现,为了实现这个,需要在 solrconfig.xml 中设置以下内容: 这就是所有要做的,很简单,但是有哪些工厂可用呢,在Solr4.2版本中,有以下工厂可用: solr.StandardDirectoryFactory solr.SimpleFSDirectoryFactory solr.NIOFSDirectoryFactory solr.MMapDirectoryFactory solr.NRTCachingDirectoryFactory solr.RAMDirectoryFactory 现在,让我们分别看看每个工厂。 在深入了解每个工厂的细节前,我们先了解一些工厂的配置参数。directoryFactory 的参数一共两个,一个是 name,name 要设置成 “DirectoryFactory”,另外一个是 class,class 设置成我们所选的工厂实现类。 打算让 solr 自行决定使用哪个工厂时,可以使用 solr. StandardDirectoryFactory。该实现是基于文件系统形式的,依赖当前操作系统和 … 继续阅读

转载一份法律专业相关的影片列表

转载百度知道:http://zhidao.baidu.com/question/196998418.html,后续待加。。 法律人应看的74部电影—— [原作者的话] 前言:这个帖子的原材料来自于网上流传的帖子“法律人要看的电影”,原作者是“杉树法律论坛”的网友“第三个人”,附带了相关的评价。 我对它做了一个补充:补齐了影片的英文名和年代,更正了相关人名,补充了相关剧情介绍。等到我全部找到看完之后再做补充修正和重新撰写。还望各位继续添加,也可以包括电视剧,之后我会详细汇总,供各位参考。 —- 十一月的雨 1、《死囚168小时》 Dead Man Walking (1995) :苏珊·萨兰登奥斯卡奖作品。西恩·潘演一个死囚,死前获得了宁静。而凶杀事实是渐渐呈现出来的,也并非重要,重要的是死囚的心理变化。 2、《刺杀肯尼迪 》JFK (1991):检察官调查肯尼迪案。奥利弗·斯通导演,美国有人说他在不负责任地胡说八道,而另有一个我国网友曾说那个凯文·科斯特纳最后陈词的长镜头让他激动流泪。很好的法庭演讲啊,被很多人赞为经典。 3、《伸张正义》 And Justice for All (1979) :又名义勇急先锋,阿尔·帕西诺主演。北大一老师作文举例称此片主角是一个三流律师。是三流吗?不是,只不过确实是一个在生活中挣扎的律师,为公正与恶法官作鱼死网破式的斗争。说他是三流,太市井味了。本片对律师在公正与职业义务之间的挣扎也有很好的表现。 4、《甘地传》 Gandhi (1982) :甘地学法律的,也做律师。本片获得当年奥斯卡最佳影片。 5、《丑闻》 (1950):日本法律电影,黑泽明重要作品。“故事以一个无能而又品质恶劣的辩护律师和一位委托他对损坏名誉案件做辩护的年轻画家为中心展开”,“压轴一场法庭戏差不多长达15分钟,镜头沉实,剧力迫人”。 6、《民事诉讼》 A Civil Action (1998) :又名“禁止的真相”“公民行动”,获得当年奥斯卡提名,著名律师电影,约翰·特拉沃尔塔主演,是由畅销作家强纳森哈尔的名作《民事诉讼》改编,为一真实故事。本片也常为国内法学老师提起,比如其中的睡醒后第一句是“我反对”情节。一部对美国现实法律的有很集中很细腻表现的优秀电影。 《民事诉讼》故事叙述一当红律师,因接手一水污染案件而失去了一切;但与此同时,他才有机会认清法律真义及生命价值。他在一无所有的窘境下,继续研究该案,上诉时间长达八年,最后终于胜诉。本故事的构想始于十年前。着名作家哈尔受邀见证许立建律师承办的这件伍本案。许立建期待哈尔能将他叱吒法院蠃得胜诉的精彩过程写成畅销书。当时他是炙手可热、身价不凡的律师;手上已握有足够证据,非常笃定能打蠃官司。然而情况愈来愈糟,他追寻真相的同时,金钱、友谊皆被耗尽,不但一文不名,并负债累累。“我眼睁地睁看见一个人濒临崩溃。”作者哈尔回忆许立建本人说:“那是个无底洞,所有接近它的人都必须接受它的考验,它考验你的认知、信念、选择,迫使你检验自我的价值,真理的必要性,这是此案最迷人之处。” 7、《审判》 Procès, Le (1962):法国电影,奥逊·威尔斯导演。警察询问嫌疑犯的过程。本片好象有美国翻拍版。 … 继续阅读