你好 –> %C4%E3%BA%C3 %E4%BD%A0%E5%A5%BD

URLEncoder和URLDecoder Java code import java.io.*; import java.net.*; public class Test { public static void main(String[] args) throws UnsupportedEncodingException { String str = new String(“你好,世界!”); String encode = URLEncoder.encode(str, “UTF8″); System.out.println(encode); String decode = URLDecoder.decode(encode, “UTF8″); System.out.println(decode); } } UTF8结果为:%E4%BD%A0%E5%A5%BD GBK结果为:%C4%E3%BA%C3

Excel进行匿名化操作

  近段时间在网上为同学发起一个募捐活动,所有的捐助款项要进行透明化公示。大家非常热情,很快收到大量的捐助款。两天多时间即募集到10万元,感恩!但是有人提议是否进行匿名化保护一下大家的隐私,但是完全匿名化的话,又失去了透明化公示的意义,所以我们把名字在EXCEL中进行半匿名化。例如姓名 张三,进行半匿名化后为,*三。保留名是保留个性化最好的选择,姓氏的重叠率太高了。 Excel提供了一些函数进行字符串操作,如:LEFT(A1,1), RIGHT(A1,1), MID(A1,1, 3) 那么最便捷的操作就是: =”*”&RIGHT(A1,1) 即可。 姓名 捐款金额 匿名后 张三 1000 *三 李四 500 *四 到此,还没有结束,因为是根据公式得到的匿名项,那么原来的姓名栏是不能删除的。那么如何隐藏起来能够不让其他人看到呢。首先把姓名列隐藏,然后再保护工作簿—保护本表这样要查看被隐藏的工作表就要知道密码了 最近尝试使用SPSS,发现是个很好用的东西,竟然还有分类聚类,逻辑回归以及神经网络等功能,果然是统计专业必备工具啊。

分布式检索结果的前翻页与后翻页

对于一个大的分布式检索系统,检索容量可能达到万亿级,如何能够快速展示给用户,而且能够前翻页与后翻页。 1,涉及到Learning to Rank问题,那么基础索引组件就应该先进行预分类,如按时间进行索引,按重要性进行索引,这样能够保证快速查询结果。进行小范围内排序。如果基础索引组件设计就是混乱的,Rank问题就天方夜谭了。 2,关于统计结果数,根据查询条件扫一遍全索引是不现实的。如度娘和谷哥显示的结果数也是通过小范围内的查询结果然后根据概率模型估算出来的,一个好的概率模型能够比较好的逼近真实结果,逼近(Approximation)算法才是是大数据下的可行性方案。 3,前翻页后翻页,对于命中率很低的查询应用,由服务器段进行缓存代价是浩大的。建议客户端进行部分缓存,能够缓存一部分时间戳信息,或id信息,能够保证用户翻页过程中能够连续触发。而不是从头再次扫索引。。。扫索引的IO代价是很大的。连续翻页对这部分的实现也很重要。如大数据下的度娘和谷哥就没有实现跳转功能,而小数据下的BBS则多是根据条件重新刷数据库的。 3.1,如果是按时间翻页,为了处理同一时间戳上的数据覆盖问题,就需要同时利用_version_信息进行排序,如在Solr中可利用sort:startTime desc, _version_ desc,同时根据缓存中记录的偏移量剔除掉同一时间戳上的前页覆盖数据。

关于搜索引擎分页查询

Google 搜索结果页概览 【关于搜索引擎的分页】 http://hi.baidu.com/cycosmic/item/6993d7175a306226f6625c88 查询+缓存机制 【百度搜索结果终结分页之我见】http://itlobo.com/articles/1718.html 没必要全部检索,结果数采用概率进行估算。 【大数据查询是否适合做缓存】http://wenku.baidu.com/view/5e8e8c6f58fafab069dc0294.html 不适合服务器缓存,最好客户端缓存。 【基于Lucene搜索结果分页输出】http://www.cnblogs.com/suyuan/archive/2008/04/03/1136288.html 查询+缓存机制 分块缓存。

什么叫大牛,看看发表论文排行榜-20140317

下面是截止到20140317时的统计结果: 【1-JMLR】: Klaus-Robert Müller(15) Francis R. Bach(14) Tong Zhang(14) Michael I. Jordan(13) Alexander J. Smola(13) Yoram Singer(12) Masashi Sugiyama(11) Chih-Jen Lin(11) Shai Shalev-Shwartz(11) Bernhard Schölkopf(9) Yoshua Bengio(9) Martin J. Wainwright(8) Robert C. Williamson(8) Peter L. Bartlett(8) Naftali Tishby(7) John Shawe-Taylor(7) … 继续阅读

Solr/Lucene的排序机制

以下内容转自:http://hi.baidu.com/shirdrn/item/c5611d1556921a0cb98a1aa4 关于Lucene得分的计算。 在IndexSearcher类中有一个管理Lucene得分情况的方法,如下所示: public Explanation explain(Weight weight, int doc) throws IOException { return weight.explain(reader, doc); } 返回的这个Explanation的实例解释了Lucene中Document的得分情况。我们可以测试一下,直观地感觉一下到底这个Explanation的实例都记录了一个Document的哪些信息。 写一个测试类,如下所示: package org.shirdrn.lucene.learn; import java.io.IOException; import java.util.Date; import net.teamhot.lucene.ThesaurusAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.CorruptIndexException; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.Term; import org.apache.lucene.index.TermDocs; import org.apache.lucene.search.Explanation; … 继续阅读

Word Mathtype 公式上漂如何解决

改变公式大小能够解决上漂问题:先运行MathType,点击“Size”菜单中的“Define”命令, 调整Full后面的字号大小,然后OK。 但如果Word中出现大量的公式上漂现象的话如何解决呢?我们可以借助于MathType批量处理方法来解决: 1, 同样调整一个公式的Size,同上; 2,再点击“PReferences”菜单中的“Equation Preferences→Save to File”命令,将我们设置好的选项保存成一个后缀名为“eqp”的文件 3,现在回到Word环境中,点击“MathType”菜单中的“Format Equations”命令 4,然后在打开的“Format Equations”对话框中选中中间的“MathType preference file”单选项,并点击“Browse”按钮,找到我们保存好的那个eqp文件并双击。然后再选中下方“Range”项目中“Whole document”单选项。点击“OK”按钮后稍候片刻,就可以看到所有的公式都按指定的字号调整完成了。