后台挂起运行Matlab

由于Matlab后台挂起的方式和 Java略有不同,这里做个记录。 直接上例子,例如我的主函数 为 main_jacoxu.m,则后台挂起运行的方式为: nohup matlab.ln <main_jacoxu.m> 1.out& 如果以系统时间来命名输出日志文件,则,如下: nohup ../matlab.ln $(date ‘+%Y-%m-%d_%H-%M-%S’).out& 注意不同的地方:1,文件.m 用 < 指向 matlab程序,用 > 指向输出日志文件! 2, 如果不后台运行的话,采用 matlab.ln <main_jacoxu.m 3,建议后台运行程序时捕捉pid,以防止多个程序运行混淆 #!/bin/sh ls main_jacoxu.m | (while read line; do echo “Start to run the matlab … 继续阅读

Logistic和Softmax

直接上比较清晰的博文: 1. Logistic and Softmax: http://www.cnblogs.com/daniel-D/archive/2013/05/30/3109276.html 2. BP: http://www.cnblogs.com/daniel-D/archive/2013/06/03/3116278.html 3. Logistic regression:http://www.dreamingo.com:9999/blog/standford-note-logistic-regression 4. Softmax regression:http://www.cnblogs.com/bzjia-blog/p/3366780.html

修改Solr源码自定义远程核创建和删除操作

【版本】:Solr 4.6(服务端),Solr 4.4(客户端) 注:唉,由于当初项目的原因,导致服务端和客户端 版本不一致,不过还好 接口是兼容的,而且主要功能由服务端完成,因而 各个版本的Solr下载地址:http://archive.apache.org/dist/lucene/solr/ 【需求】: 1. 注册核:可以通过HTTP请求动态着创建对应文件夹,并注册一个Solr新Core; 2. 删除核:可以通过HTTP请求动态删除指定Core,不止要删除索引数据,还要把整个实例文件夹全部删除,要删除干净! 修改:solr-4.6.0-src\solr\core\src\java\org\apache\solr\core\CoreContainer.java 文件

Linux文件打开数问题-Too many open files

运行在Linux系统上的Java程序可能会出现”Too many open files”的异常情况,且常见于高并发访问文件系统,多线程网络连接等场景。 程序经常访问的文件、socket在Linux中都是文件file,系统需要记录每个当前访问file的name、location、access authority等相关信息,这样的一个实体被称为file entry。 查看文件打开数: unlimit -n 临时修改文件打开数 ulimit -n 2048 永久修改文件打开数: vi /etc/security/limits.conf * soft nofile 100000 * hard nofile 200000 (注意上限是 150W左右) 另外一种修改配置,可能是更为底层些,Suse的路径为: vi /etc/sysconfig/ulimit 检测某个进程的文件打开数情况,如下: lsof -p 所列出的结果中会包含当前进程依赖的jar包,会放到JVM虚拟机内存中去。而打开的磁盘文件会分配一个序列号 如:382r, 383r, … COMMAND PID USER … 继续阅读

处理数据集4STH-SIGIR2010

【生成STH-SIGIR2010使用的数据格式】 输入:训练文本train_refined.txt, 测试文本 test_refined.txt,公共词典, comWord.dic 输出:Vector Space Model,基于词频的向量空间模型,用于STH预处理,输出文件vsmOfWhole.txt STH需要的数据格式: 数据变量名 大小 说明 完成度 fea VSM,稀疏矩阵 对应位置为词频,其他地方为0 (训练+测试) OK gnd 类别标签n*1 (训练+测试) OK testIdx 测试数据的标签位置 n_test*1标注哪些文本为测试数据 OK trainIdx 训练数据的标签位置 n_train*1标注哪些文本为测试数据 OK import java.io.BufferedReader;    import java.io.BufferedWriter;    import java.io.File;    import java.io.FileInputStream;    import java.io.FileOutputStream;    … 继续阅读

处理数据集4DCNN-ACL2014

DCNN-2014的数据格式: 数据变量名 大小 说明 完成度 index 53714个词 (comWord.dic) 字符串词典,尽量保证训练/测试集及词向量中都有 OK sent_length 40 (实际最大长度38) 文本最大长度 OK size_vocab 53714+1 字典的大小+1个空白词 OK test 2280*sent_length 测试集数据 OK test_lbl 可以没有64位Hash标签 {可无64位Hash标签}{文本长度},由Spectral训练 train 10060*sent_length 训练集数据 OK train_lbl 要64个类别标签 {64位Hash标签}{文本长度},由Spectral训练 vocab_emb_1_CW 50*词典维数 从外部拿到的词向量,覆盖的词向量太少 暂不考虑 vocab_emb_2_HLBL 50*词典维数 如果叠加的话,覆盖的词向量太少 … 继续阅读

查找多个词典中的公共词典

【场景】:现在有4个词典: 1. wordmap.txt:训练语料的词典(由LDA-工具生成,这倒是一个很偷懒的方法); 2. CWembeddings-scaled.EMBEDDING_SIZE=50.txt,由Turian-ACL2010提供的50维词向量; 3. HLBL-embeddings-scaled.EMBEDDING_SIZE=50.,由Turian-ACL2010提供的50维词向量; 4. Senna-embeddings-words.lst,由Senna系统提供的50维词向量; 【需求】: 1. comWord.dic 要找出其中的公共词,生成词典; 2. 按照词典顺序输出对应的3个词向量保存到各自的文件中;Senna_embeddings.vec CW_embeddings.vec HLBL_embeddings.vec 3. 希望把有词向量的放到前面,没有词向量的放到后面。训练数据中的所有词都做保留。 【代码如下】: import java.io.BufferedReader;    import java.io.BufferedWriter;    import java.io.File;    import java.io.FileInputStream;    import java.io.FileOutputStream;    import java.io.IOException;    import java.io.InputStreamReader;    import java.io.OutputStreamWriter;    import java.util.ArrayList;    import java.util.HashMap;    … 继续阅读

[zz]个人阅读的Deep Learning方向的paper整理

一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 2 Statistical Language Models Based on Neural Networks Mikolov的博士论文,主要将他在RNN用在语言模型上的工作进行串联 3 Extensions of Recurrent Neural Network Language Model 开山之作的延续,RNN网络的一些改进,如通过类别信息去降低模型的参数 4 A guide to recurrent neural networks and backpropagation RNN网络的介绍以及优化算法,是了解RNN网络的好文章 5 Training … 继续阅读

SOLR-3955: Return only matched multiValued field

一个让人纠结的问题,放到前面:Return only matched multiValued field: https://issues.apache.org/jira/browse/SOLR-3955 org.apache.solr.handler.RequestHandlerBase 下有一个函数 public void handleRequest(SolrQueryRequest req, SolrQueryResponse rsp) 官方接口文档:solr-4.6.0/docs/solr-core/index.html – org.apache.solr.handler 【参考】: 1. Solr查询过程源码分析 2.