20130913 深度学习@ICTCAS

余凯(Deep Learning): 介绍百度DL进展,今年报告李彦宏(Robin)相信技术的力量,提出技术难题:1:自然图片Ocr,2:语音识别和理解,3:图像搜索 业界趋势:移动互联网带入识图时代;siri,微软DL,google,科大迅飞,baidu语音识别 DL 被评为MIT2013十大技术之首 imageNet 2012 Hinton参赛74%->85%,13年3月份加入google   4700W$ 深度学习更接近人脑 人工智能新范式:大数据+深度学习 ICML Andrw Ng 100亿个参数 2012年夏天投入研发,用GPU提高运算效率,语音,OCR,人脸识别,全网相似图片搜索,全流量上线广告CTR预估 语音识别PKgoogle @中文,Google同时在做30多种语言 人脸识别成功产品 百度魔图 。 图片的相似搜索,何为相似?如何定义!「百度识图」,已上线的产品,基于DL 新产品 「拍照写诗」 思考:DL第一次不分类别的大数据图像识别尝试 大数据+计算能力+统计模型+应用创新 图像识别训练数据数千万 Q:硬件问题 A:GPU不完美,可考虑FPGA 张长水(深度学习模型、发展历史与一些思考): 三种模型: Restricted Boltzmann Machine,layerwise Pre-training Autoencoder Neural Network,sparse … 继续阅读

20130912 NLP讲习班1

NLP简介–ZT: 【1】,目标: 处理–> 理解; 【2】,早期MT; 【3】,经典任务: a.词法分析(分词,词性标注,词情态分析,eg,单人 间隔 壁), b.句法分析(Stentence –> VP,NP,乔姆斯基), c.语义分析(WSD,词以及词义的表示,eg.词在向量中的表示. eg.word2vec for deeplearning. But, 语义如何界定很难),句子级别的分析,多种分析范式,eg, 语义角色标注(SRL),Semantic parsing(逻辑表示,1阶…N阶,不确定性的逻辑表达很复杂), etc. 【4】,NLP Tasks 核心:MT,QA,。。。;篇章级:文本的表示,LSI,LDA,etc; 指代消解(代词,指代做不好,统计也无力);文本的分类;自动摘要;… 【5】交叉学科,统计与机器学习,语言学,计算机; 【参考书】1,Foundations of Statistical Natural Language Processing, Chris Manning and Hinrich Schutze 2,统计自然语言处理,宗成庆 Q: SRL vs. … 继续阅读

Solr MultiCore LRU队列

当服务器资源有限但是加载的core特别多的时候怎么办?我们当然希望能够根据索引或查询请求而动态的加载卸载多核,https://issues.apache.org/jira/browse/SOLR-1293 给Solr4.2提供了一个补丁,能够在大规模cores上进行动态的加载卸载,可以参考框架:http://wiki.apache.org/solr/LotsOfCores LotsOfCores. 相关的配置很简单,Solr4.3以后的版本已经集成了此功能,目前我使用的是solr4.4版本,在solr.xml中配置如下: <?xml version=“1.0″ encoding=“UTF-8″ ?>   <solr persistent=“true”>     <cores transientCacheSize=“2″ adminPath=“/admin/cores”>       <core loadOnStartup=“true” instanceDir=“multicore/collection1970_01_1″ transient=“false” name=“core1970_01_1″/>       <core loadOnStartup=“false” instanceDir=“D:\jacoxu\solrHome\multicore\collection0004″ transient=“true” name=“core0004″/>       <core loadOnStartup=“false” instanceDir=“D:\jacoxu\solrHome\multicore\collection0005″ transient=“true” name=“core0005″/>       <core loadOnStartup=“false” instanceDir=“D:\jacoxu\solrHome\multicore\collection0006″ transient=“true” name=“core0006″/>       <core loadOnStartup=“false” instanceDir=“D:\jacoxu\solrHome\multicore\collection0007″ transient=“true” name=“core0007″/>     </cores>   </solr>   这也就是之前讲的删除一个core时,必须先进行一下query访问才能删除dataDir. Solr5.0版还没出,不过估计会有较大的改动。在上次讲过的利用solrj动态添加多核中可以设置新添加core的属性,loadOnStartup和transient属性,但是新添加的core并不参加LRU队列交换,直接修改solr源代码是一件冒险的事,一种可行的方法是进行定时进行tomcat重启操作,重启时要注意的是,在linux上,tomcat很有可能shutdown无效,那么需要进行强制Kill: public static void restartTomcat() {        if (SmsBase.osName==“windows”) {            String[] changePath_cmd = {                “cmd”,                “/c”,                 “cd ”+ SmsBase.tomcatPath,            };            String[] shutdown_cmd = {                “cmd”,                “/c”,                 “shutdown.bat”              };    … 继续阅读

Java文件夹操作的那点事, 嵌套,shell,bat,FTP

Java进行文件操作比较容易,但是进行文件夹操作,例如文件夹复制删除操作就比较麻烦,没有直接的操作符和API接口,需要自己进行递推嵌套完成相应的工作,下面是利用java进行文件夹的复制和删除操作:     public static void delete(File file) {             if (!file.exists()) return;             if (file.isFile()) {                 file.delete();             } else {                 for (File f : file.listFiles()) {                     delete(f);                 }                 file.delete();             }         }            /**       * 复制文件(夹)到一个目标文件夹         * @param resFile  源文件(夹)         * @param objFolderFile 目标文件夹         * @throws IOException 异常时抛出         */         public static void copy(File resFile, File objFolderFile) throws IOException {             if (!resFile.exists()) return;             if (!objFolderFile.exists()) objFolderFile.mkdirs();  … 继续阅读