CNCC2017和言语与听觉研究论坛

今年的计算机大会在福州召开,参会6000多,可谓各个方向的IT大聚会。 10月26日上午的大会报告上,微软副总裁沈向洋博士分享的报告为《理解自然语言:描述对话和隐喻》,AI最基本的两个要素分为感知和认知。过去几年里,视听觉感知技术突飞猛进。然而,在诸如自然语言理解和对话领域的认知研究方面,我们的进展还非常有限。沈博士认为在未来的十年中,自然语言处理会成为人工智能突破最重要的方向。所谓懂语言者得天下(这句话在会议期间刷爆朋友圈)。 同时,沈博士设想了三个层次来逐步让机器理解并掌握语言,从机器学习(表述),到机器智能(对话),再到机器意识(意境)。 第一个层次首先是建立客观的对观察到的或体验到的事物进行描述的能力。沈博士会用微软认知服务里面的CaptionBot为例,来展现通过机器学习对一幅输入图像内容产生客观描述的技术。第二个层次是建立持续对话的能力。因为在对话的过程中,机器要能答问题,还要能提问题。机器要理解上下文状况,常识,及情感来做出合理的判断和响应—所谓对话即智能。沈博士总结一下微软研究院在智能问答生成方面的一些最新研究工作, 以及其在微软小冰聊天机器人平均长达23轮对话中的应用。第三个层次是建立在有意识地思考之上的理解和表达隐喻的能力。尽管离建立完全的机器意识还很远,作为一个初步的尝试,沈博士展示一下微软小冰看图作诗的技术。 下面是几张PPT: 对话即智能 阅读文本及提问 端到端对话生成模型与记忆机制 小冰的聊天话题引导 理解和表达意境:有意识的脑补 微软对话式人工智能产品的布局 同时,微软仍在主推Image Caption,并发布了COCO这样的数据集,SeeingAI项目及http://captionbot.ai 平台。 斯坦福李飞飞老师演讲的题目为:A Quest for Visual Intelligence: Beyond Objects. 介绍了视觉对生物的重要性,以及计算机视觉在物体识别任务中的飞速发展。然后讨论了计算机视觉的下一步目标:复杂场景理解,以及计算机视觉与语言结合的任务。目前主推Image Reasoning, 并围绕CLEVER数据集进行视觉理解和推理。 10月27号下午参加的听觉论坛主要围绕如下几个问题讨论: 1)听觉场景的噪音问题; 2)ASR需求和实用性问题; 3)声音的多模态问题; 4)文字理解和自主学习问题; 5)听觉机理的科学问题。 包括李锦辉教授、蒙美玲教授等多名教授报告过程中不只一次提到其担心的问题:目前成熟的深度学习工具可能害了近些年的一代Ph.D,工具太好太成熟导致很多Ph.Ds对科学问题没有深入、缺乏工匠精神,不做细工。只知How,不知Why。 言语与听觉研究论坛的集体合影 今年的CNCC在福州召开。住在了鼓楼区,开会闲暇之余四处逛了一下。 宾馆附近就是国家5A级景区 三坊七巷 福州还有一个西湖公园哈哈。 =======嗯,这里有后记========= 在福州机场例行检查时一安检姑娘问我:你是来参加计算机大会的吧? 我:啊,这都能猜到,怎么看出来的? … 继续阅读