百度深度学习进展介绍–余凯@CASIA

【主讲人】:余凯(Deep Learning):–百度深度学习研究院(IDL)
介绍百度DL进展,今年报告李彦宏(Robin)在国际数据挖掘会议ACM KDD上发表演讲,相信技术的力量,提出技术难题:
1:自然图片OCR,2:语音识别和理解,3:图像搜索(不是传统的以文搜图,基于图像内容的图像搜索)
业界趋势:移动互联网带入识图时代。图像:美图秀秀等产品;语音:siri,微软DL,google,科大迅飞,baidu语音识别
Gartner Emerging Tech Hype Cycle 2012 –技术热门曲线
2006 SCIENCE–> Reducing the dimensionality of Data with Neural Networks –Hinton. 分层Pre-Training.
最早从图像开始做,09年开始从语音开始做。
DL 被评为MIT2013十大技术之首,2012.6 Google-Brain 项目,2012.11 微软智能同声传译
Google Building 42, 把所有的AI Researcher 放到同一座大楼中
2013年1月19日,Robin宣布成立百度IDL研究院
2013年9月,Facebook宣布成立AI Lab,图像搜索,语义搜索。Deep Learning
2013年10月,Redefines its whole research. Cognitive Computing
What is IDL? –百度的人工智能实验室,涉及机器人,无人驾驶车,等等。
imageNet 2012 Hinton参赛74%(2010)->85%(2012) 20个类别到1000个类别,直接作用在pixel上。2013年NIPS上竞标Hinton团队,最终13年3月份加入google  4700W$
机器学习技术的两次浪潮
1990年第一次浪潮,浅层学习,不含隐含层的浅层学习模型;2010年第二次浪潮,深度学习,含多层隐含层的深度学习模型。
狭义:深度学习就是深度神经网络。广义:深度学习在于分层,而不一定就是神经网络。层次结构才是更长久的研究价值。
深度学习更接近人脑,pixels –> edges –> object parts –> object models.
大家做拥抱的一个 人工智能新范式:大数据+深度学习 。语音,图像,文本。模型需要具备足够的复杂度,ICML Andrw Ng 100亿个参数
2012年夏天投入研发,用GPU提高运算效率处理海量训练数据,语音,OCR,人脸识别,全网相似图片搜索:效果显著超谷歌同类产品;全流量上线广告CTR预估
Baidu语音识别 PK google @中文,Google同时在做30多种语言
地图搜索;移动语音输入法;
人脸识别成功产品 百度魔图 。
图片的相似搜索,何为相似?如何定义!「百度识图」,已上线的产品,基于DL
新产品 「拍照写诗」
思考:DL第一次不分类别的大数据图像识别尝试
大数据+计算能力+统计模型+应用创新
Large-scale图像识别,训练数据数千万;OCR,数千万;语音识别,数百亿训练样本;广告,千亿训练样本。
深度学习总结和展望:
深度学习的关键技术在以下领域需要持续突破:
–大规模海量数据并行训练平台;
–对于结构和非结构数据的深度学习建模技术;
–对于语言,语义,知识的建模,学习,表示,集成;
–线上模型压缩加速技术;
–依赖于高性能计算,大脑认知机理,等领域的发展。
========================  问答环节  ======================
Q(刘成林_CASIA):科研人员没有资源的情况下,如何进展深度学习,目前深度学习还不是一门学问,虽然很热,但是没有什么可研究的算法。
A(余凯_BAIDU):1. 资源问题,目前的竞争在科研院所也没有太大的差距,几百万人民币能够购买足够的GPU用来训练,数据也不是问题;2. 科研价值, 直接方面,大规模分布式优化是很大的一个科研价值,以前的统计理论不关注于计算,只关注于收敛性,目前已经引起机器学习领域的关注。关于神经认知机理是另一个科研项目,用计算机去仿真,通过计算重新认知大脑。一个最直接的可研究是:为什么这个Model可Work的好。
Q(胡老师_CASIA):1. Deep Learning如果是个黑箱问题,该如何有效的结合先验知识;2. 从公司的需求应该如何培养学生。
A(余凯_BAIDU):1. Google关注的Research,Data Sets必须要有一定的灰度。Data Science不用于传统的自然科学,必须要有一定的黑箱模型。Prediction好的模型不见得就好解释,例如上一代的SVM 和决策树。领域知识其实已经应用到了Model的结构中去,这与传统不同的是,传统把先验知识应用到特征抽取和表示上,而DeepLearning则直接把先验知识应用到模型中。2. 如何增加学生的市场竞争力呢?推崇使用开源软件,学术界:turn money into knowledge, 产业界:turn knowledge into money. 共享精神。
Q:深度学习如何在文本上的应用?如何能够在文本上深入下去。
A:图像也遇到过同样的问题,06年到12年都没有过突破,目前NLP也遇到瓶颈,可能更是机遇。
Q:如果先验知识不名,如果进行模型选择;GPU的加速比
A:暴力选择–经验选择;加速6-30倍
Q:Deep Learning 和 NLP的结合,提供一个学习方向和学习来源
A:深度学习在语音方面的突破,微软。Google 是因为AndrewNG。
Q:训练时使用的SGD效果不见得好,黑盒为什么没有Overfit
A:1. 交叉验证;2. 因为数据量大。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>