昔日火爆一时的AlphaGo和李世石的“人机大战”,AI的场景应用已经让无数人大开眼界。而在人工智能应用领域,AI语音对话堪称前沿技术,并依托背后海量搜索数据得以应用。在极客公园2016奇点·创新者峰会上,研究AI对话技术多年的360搜索技术总监魏少俊,与大家分享最新的技术成果。 “什么是AI技术?它和搜索对话有何不同?” AI对话是一种人机交互方式,人和机器展开人和人之间这种自然的交流。人们平时使用的搜索实际上就是一种人机的交流,当在搜索框输入查询词,搜索引擎会分析你输入的语义,判断意图,判断最匹配你需求的结果,并向你推荐精准答案,这就完成了一段和搜索引擎的对话。 搜索对话与AI对话存在很多不同,在搜索场景下,用户对话输入实际上是通过在搜索框中输入一句话,一次性解答。而在AI场景下,用户输入更加口头语化,口头语比书面语更复杂,所以它的处理难度会更大。同时,由于口头语的碎片化特点,很多时候需求在第一时间提出时,可能不一定一次性把意图都表达完整。 “AI对话的三种方式” 第一种叫功能型交互、也叫命令型交互,表现为用户向机器下达指令,例如:“帮我把灯打开”,在这种情景下,通常口头表达的能力是有限,不会有太多复杂的指令内容,这个是相对来说最容易实现的方式。 第二种叫内容型交互,也叫知识型交互,例如向机器人下达指令说“给我讲一个《小红帽》的故事”,或询问“北京到上海距离多远”。这个里面需要有海量的网页抓取技术,网页筛选技术等等支撑这样的应用。 第三是开放型交互,也叫闲聊,用户表达在非常庞大的语言空间上,甚至有些问题没有答案。比如说一个用户告诉你我今天摔倒了,这个时候没有答案的,机器需要分析用户表达的情感,然后适当给出安慰。 归纳下来,在AI对话里面,我们AI对话引擎需要具备哪些能力。第一个是对用户口头表达的理解能力,第二是需要强大的知识库在此基础上的应答能力。 “AI对话需要哪些技术?” AI对话要求需需要的技术模块一共有4个部分,第一部分是语音识别。语音识别相对来说目前技术比较成熟;第二部分是语义识别;第三块是云计算,AI需要庞大的计算支持;第四是我们基于360搜索大数据的海量语料训练。 语义识别需要用到基于上下文的自然语言理解技术。分为5个部分,第一部分是意图识别,根据用户输入明确理解所要查询的问题,或者对话意图,然后在意图基础上做解答。 第二叫情感识别,识别对话里想表达的某种情感,在开放式聊天主要用到情感识别这个技术,包括分析用户是高兴还是愤怒,或者悲伤等等,大概有21个情感。 第三个叫指代消解和省略恢复,比如说用户提起一个问题:“上海的天气怎么样?”这个时候机器回答,用户再接着一句,“北京的呢?”这个时候用户已经把北京天气怎么样几个字省略了,机器就需要结合上下文再做进一步回答。 第四是意图澄清,比如说用户说想看蓝莲花,这个时候需要区分用到底是蓝莲花的图片还是书籍,进而发起询问并进一步确认。 第五部分叫拒识判断,如果用户超出机器的范围,如果用户问的问题是涉及到一些反动的,色情的问题,这个时候机器也不能够回答。 “AI对话需要确认对话边界” 在应答层面,存在一个叫“多轮对话”的技术。用户意图如果需要多次对话才能表述完整,机器要区分出这个意图对话边界,用户表达意图从哪句话开始到哪句话结束。通常来讲我们判断一个意图起始的时候,我们基于当前用户表达这句话跟上一个意图之间,也就是跟上一个多轮对话之间有没有相关性,如果没有相关性,我们认为这是新的对话的开始。 用户在多轮对话的时候,可能因为口头表达失误,导致对用户的理解出现偏差,这个时候机器需要有一个纠错的机制,如果缺少一个机制,可能用户在说完很长的,就某一个意图进行很长对话之后,可能对用户的意图视做一个新的意图,这样用户体验非常糟糕。 所以在多轮对话里面需要一个智能的、能给用户进行一个确认和感受的机制,比如当用户说了半天,到最后机器会重复表达问一下,您说的是这个意思吗?如果用户说是,多轮对话继续,如果不是,再重启一个新的对话。 嘉宾介绍: 魏少俊 清华大学计算机专业硕士,现任360搜索技术总监,自然语言理解团队负责人;魏少俊在自然语言处理、内容推荐、数据挖掘、搜索引擎等领域拥有十多年经验,加入360之前,魏少俊为百度移动搜索团队总技术负责人。 |