百度深度学习进展介绍–余凯@CASIA

【主讲人】:余凯(Deep Learning):–百度深度学习研究院(IDL) 介绍百度DL进展,今年报告李彦宏(Robin)在国际数据挖掘会议ACM KDD上发表演讲,相信技术的力量,提出技术难题: 1:自然图片OCR,2:语音识别和理解,3:图像搜索(不是传统的以文搜图,基于图像内容的图像搜索) 业界趋势:移动互联网带入识图时代。图像:美图秀秀等产品;语音:siri,微软DL,google,科大迅飞,baidu语音识别 Gartner Emerging Tech Hype Cycle 2012 –技术热门曲线 2006 SCIENCE–> Reducing the dimensionality of Data with Neural Networks –Hinton. 分层Pre-Training. 最早从图像开始做,09年开始从语音开始做。 DL 被评为MIT2013十大技术之首,2012.6 Google-Brain 项目,2012.11 微软智能同声传译 Google Building 42, 把所有的AI Researcher 放到同一座大楼中 2013年1月19日,Robin宣布成立百度IDL研究院 2013年9月,Facebook宣布成立AI Lab,图像搜索,语义搜索。Deep … 继续阅读

【ZZ】寒门再难出贵子

本文是一位银行的HR写的,他工作了10年,接待了一群到银行实习的实习生,然后观察他们发生的一系列的故事。像小说,但比我们看过的小说更精彩;像现实,但比我们了解的现实更残酷。文章中的寒门,还不是家庭贫困,而是小城市、小城镇的学生。讲述了好几个残酷故事,应该是真实的故事。否则我不相信作者有这个水平虚构出来。文章来源天涯社区,作者:永乐大帝二世。 原文3万多字,微信作者鬼脚七修改了一些错别字然后发到了微信。但是错别字还是不少,不过至少比原贴舒服多了,以下是微信原文: 现在越来越看清楚“性格决定命运”,性格这东西是熔透于骨髓的,性格的养成和学校教育没有多大关系,大多决定与家庭背景,和成长环境。从大学毕业出来的第一步,往往起到至关作用的是家庭背景,也就是从起跑线普通家庭的孩子就输了一大截。 在一个物欲横流的时代,当金钱决定一切,成为人的终极信仰的时候,这时候也是“门阀”、阶层相应出现的年代。 一群实习的大学生 结合我自己近半年来的观察, 我在商业银行人力资源部上班。去年招了很多学校的实习生,实习可不是正式录用了。以前自己年龄也相对年轻,没有太多关注以往的实习生,今年正好我负责这些孩子,在我们这里招了大概60名实习生,其实最后录用不会超过10人。这些实习,其实就是银行的噱头,可以找些一个月几百块钱对银行来说的免费劳动力,对学校,对外宣传,对社会某种义务交代吧。但然能进入银行实习的都是学校推荐的所谓的好学生。 银行这种单位,在我们的体质下,纯国家垄断机构,待遇相交于其他行业待遇还是比较高,在银行工作可以得到优惠的贷款利率,买房子贷款都相对容易。总之一句话是那种世人眼里比较羡慕的单位。 接下来讲讲这些孩子的人生的第一步究竟是怎么迈出,怎么的实际结果。有时候相处了这些比我小将近10岁的孩子,真的觉得一切的理想主义都是狗屁,只有现实无法再接触的现实。 大学毕业,更何况是大四,还是一些孩子。 去年的2月份我接待我们这个省最好大学的这批孩子,来到我们单位,从中可以看出这些孩子都是一个名牌211重点大学即将毕业的学生,可是他妈的组成又分了这么几种: 一类,农村家庭出来就是学习很努力的,在学校很优秀的,大概能有20多个;还有一类就是家庭县城的的孩子,有那么十几个;再就是所谓的大城市的孩子十几个,这就是当时看到他们的资料的印象。 印象很深的是去年三月份,他们第一次来到银行。因为第一天报到,我们准备了一间办公室,早上等着这些孩子来报到,上班后开始等着这些学生的到来,我的同事跟我说:我告诉你我知道哪些孩子来的早,哪些孩子进来会和我门打招呼,哪些孩子会和我们聊几句,哪些孩子会进来会给我们倒水。打赌的结果是中午请他必胜客。。。。。。 然后,他输出了一大堆简历说这些孩子,会来的相对早点,然后把这部分简历交给了我,真的当时的结果,最早来的十几个孩子都是他给我的那些简历里面的。 慢慢的陆陆续续的来了这些孩子,然后真的有的进来很紧张一句话不多说,有的笑嘻嘻的和我们聊几句;有的会很自然的说:以后你们是领导了,给你们倒点水;有的孩子会大大咧咧的。其结果是我同事预测的,错误率只有两个。当时我就惊奇了,中午请他吃饭,我说你怎么看出的,他说这不是他的绝招,是以前跟着副行长接待实习学生从副行长那里得到的一个启示。其实很简单,看简历资料的户籍所在地,和父母工作单位,能归纳出群体来,也相应的能归纳这同一所大学,几种孩子的性格特点,处事方法。因为有些东西是共同,物以类聚,人以群分。站在年长的角度上去分析就和容易得到一个初期的鱼车。下面是同时分析的过程。 一,来的很早的孩子,大多是农村的孩子。因为他们重视这是一生中第一次离开学校去个正式单位实习,会很重视。因为是学校推荐,自然会打电话给家里,家里父母能给与的指导无非是好好珍惜。学校重视,第一天要早去,这一类的教导,自然来的最早的是这些孩子。但是都紧张,和我们几乎无交流。 二,进来和我们打招呼,并且还有倒水的那几个孩子无一例外,父母都是在党政机关工作,真的很准。 三,进来大大咧咧,还开几句玩笑的几个孩子,家里都是经商,可大可小,但是父母身上那种灵活态度的熏染,在身上能看出影子。 四,还有那么两三个,感觉挺冷傲,相对自信,对我们是属于那种不卑不亢的,这几个无一例外的属于大城市知识分子家庭的孩子。 就因为这个小插曲,我开始觉得很有意思,开始觉得应该去分析这群孩子。十年前的自己也是这个群体中的一员,我内心很清楚,实习的最后结果这群孩子只有几个可以留下,大多还是得自己找工作,那时候心里只是一个念头,保留下他们的联系方式,看看半年后,一年后,一年半后他们第一步迈出的样子,也许能追寻到他们十年后的样子,也就是现在的我,现在我身边的朋友、同学、同事。 就是这么个念头,让我注意去观察他们,去看着他们从孩子走向成人的第一步。没想到这一年多的观察,真的让我总结出了很多东西,也从里面看到了自己的困扰点。 选择哪个部门 这群大学生参观完单位后第一天报到的下午,需要在会议室这群孩子开个见面会,这种事是面子事,也是银行对外宣传点,自然会有位副行长级别的讲话,然后是人力资源部经理,然后就是具体的告诉这群孩子,去哪些部门实习。 就在领导们对着这帮孩子讲了一堆官话,套话的时候,一个小测验在我脑子里成型:让他们自己选择想去工作的部门,不能写一个,写三个,可以电话与家长交流,给他们20分钟时间考虑,他们直接在会议室不能相互交流,如果想得到指导,可以去走廊,给自己父母或亲人打电话咨询。 结果是大概十个孩子还明确的写出部门名称,选择的岗位相当不错,有一般随便写写,有的部门是自己臆想出来的,或者具体大概知道是什么工作性质,但是无法准确说出部门名称,就自己造了一个,还有几个写了就是写了 收钱,贷款 之类的几个字,这就是他们大学四年金融专业,经济等等专业。 然后,当然就是按照银行的实习流程,在给他们讲一下银行如何伟大,如何有前途,如何….. 当我拿着他们的自荐部门的小纸条,有了这么一个发现:能够精确写出银行部门的那十几个孩子,大多家里是机关,和经商的;农村孩子有一个能精确写出,问了原因是自家有个亲戚在工商银行上班;知识分子家庭的孩子,大多都是什么行政,什么管理,什么内勤,是绝对不会和外联部门的业务有关系;经商的孩子都想实习客户经理;家庭父母在机关的大多都想做主管助理。真的很有意思,一点一点看出了他们的性格,一点一点看出了他们的选择。 开完会的时候,副行长告诉我,今年行里大概会招15个应届毕业生,各个方面的关系需要应付,这群孩子,只能选择优秀的留下两个或者三个,让我们负责细心甄别一下,到最后,作为单位录用的主要依据。这件事让我扶着,回来再看到这群孩子,我就有点心颤,60个都是学校的好学生,只有两到三个实习完就可以来这里上班了,人生的第一步,就可以以这里为开始,其他的五十七八个孩子又得迈向人山人海的招聘会,又得一次次的面试打印简历,突然心里觉得很压抑。 第二天,就是给他们安排部门了。哪个单位都一样,有的部门自然是舒服的要命,自然有的累的要死,其实哪个部门也想要跑腿的小孩,但是对我们来说的跑腿,对他们来说也是有好部门,不好的。如果被安排做大堂经理就要一直站着,挂个横幅,一天在大堂跑来跑去;安排的老总办公室的外边就是接电话,复印个材料;安排到监察部,对不起,跟着去安装提款机和指挥工人安装摄像头吧。因为实习不能安排做窗口从事窗口业务,大多就是内勤,外联,和打杂了。 俗话说,有人的地方就有江湖。别看小小实习,斗争就开始了。第二天一早我总共接了四五个电话,也有直接去我办公室的同事,级别高点的有部门老总,低点的有普通同事,开始给我打招呼:把哪个哪个孩子,直接弄他的一亩三分地,无一例外要和我吃饭,哈哈。。没办法,只好按照他们的要求吧相应的孩子,分到他们的麾下,人数,五个,还有五十个多个,只好采取叫到谁,一个部门一个部门来,一个部门满了,去下一个。这里面除了家里能联系到银行打过招呼的,其他就是随机,也许是运气吧。不过出于人道主义,我定了一个活的规则:一个月后轮岗! 小胖和他爸的故事 时间就这么过着,我偶尔中午吃饭或者在办公楼碰到各个部门的同事,会问一下这些实习生的情况。当然了,什么情况都有,还不至于说捅篓子,但是有喜欢的,有夸的,当然也有抱怨的大学培养的是脑残吗,也有直接骂的,要我把蠢蛋弄到别的部门,给他们换个聪明伶俐的。。。。 然后在这些同事的夸奖、褒扬、抱怨的、还有直接骂大街的当中,我发现了一个规律: 1 农村家庭的孩子普通不会交流。当处于一个部门的新人的时候,不会去交流,不会去拉近,更谈不上和什么拉近关系。虽然不是绝对,但是这个比例超过农村家庭的90%,但是这些孩子有个很大的优点,都很勤快,很少找借口,大体属于那种可以容忍的范围内。 2 受到夸奖的孩子家庭大多是经商家庭的孩子,比较活,在实习的时候,和老员工的互动能力比较强,有的家庭个别吐出不差钱的,甚至可以请老员工吃饭,有的还能在解决问题弄出个新点子。属于那种不会让人讨厌的类型,属于收到赞誉最多的一个群体。 3 … 继续阅读

20131010 NLP讲习班2 –文本分类

【1】. 预处理 英文,去停用词,词根还原 中文,分词,词性标注,短语识别 词频统计,数据清洗,… 【2】. 文本表示模型 2.1. Bag Of Words 应用实例:朴素贝叶斯模型; 2.2. Vector Space Model 应用:KNN,LR,SVM BOW 词的概率来表示权重,VSM用TF-IDF来表示权重。 Term的粒度:Character, Word, Phrase, Concept, N-gram. 权重的计算方法:1. 布尔权重;2. TF-IDF权重;3. 基于熵概念的权重(Entropy weighting) 【3】. 特征选择 3.1. 有监督特征词选择算法: 信息增益(IG): 为该term为整个分类所能提供的信息量; 互信息(Mutual Information): 计算每个词t与类别c之间的互信息,存在问题,倾向于选择稀疏词; 相对熵(KL Divergence): … 继续阅读

Deep paging problem of solr, start设置越大查询越慢

进行solr查询时,如果查询结果很多而且业务需求需要全部返回时,传统的搜索引擎都会遇到一个棘手的问题:deep paging problem,即当翻页查询越多时,查询响应时间越长。传统的搜索服务如Baidu,Google 一般只提供1000以内的查询结果共用户查阅,如果需要更多的查询结果,用户可以输入更多的查询语句进行筛选。 下面利用Apache Solr进行deep page查询的性能测试: 【测试数据】:规模: 499W,内容一样(饲荆泞琴哇尘自缕勇恩本灾却咀功害鳃踪羽甲沏馏铆级奉耻陷下龄周),时间不同。 【机器性能】:64G内存 Linux-Suse 【测试一,翻页查询499W所有结果】 查询条件为rows为10000,timeAllowed为86400000 (即为一天), content为 饲荆泞琴哇尘自缕,进行rows=1W的翻页查询,查询的相应时间如下: 原始结果数据 单次查询结果数 单次查询耗时/ms 查询后结果总数 10000 1585 10000 10000 1585 20000 10000 1682 30000 10000 1818 40000 10000 1934 50000 … 10000 100138 4950000 10000 … 继续阅读