聂再清:人工智能是为了帮助人,而不是代替人

[日期:2017-12-4 ]    来源:

图为阿里人工智能实验室北京研发中心负责人聂再清博士在论坛上做主题演讲。新华网 郭小天摄

  新华网北京11月29日电 以“跨界融合、协同创新”为主题的“2017中国机器人产业发展高峰论坛”今天上午在北京全国政协礼堂成功举行。本届论坛由工信部指导,新华网协同迪曼机器人共同举办,邀请众多专家学者及相关行业数百家企业参与,共同探讨智能机器人跨界融合新话题,共绘中国机器人发展新蓝图。

    阿里人工智能实验室北京研发中心负责人聂再清博士在论坛上发表了主题演讲。以下为主要内容实录:

    尊敬的各位领导、各位来宾,大家好,我今天要汇报一下我在智能语音交互和人工智能方面的思考。首先介绍一下阿里巴巴人工智能实验室。我们人工智能实验室想要打造下一代人机交互的方式,我们希望不仅让其拥有计算能力,而且还拥有知识、推理能力,提高机器的计算能力、感知能力和认知能力。

    什么是我们认为的下一代人机交互方式呢?最开始我们通过键盘输入一些信息去交互,慢慢地大家开始使用图形界面Windows通过网站追踪信息;现在很多人都是用手机,我们看到很多的低头族,一直使用手机接受信息,进行人机交互。我觉得在未来,我们要把低头族减少一些,希望他们不要成为我们最主要的交互方式,否则大家可能产生一些不好的习惯。我们希望大家用嘴、用眼睛、用耳朵,就可以跟机器进行自然的交互。

    我们阿里巴巴的天猫精灵不知道多少人使用过,最近越来越多的融入了大家的生活当中。我举个例子,现在我家里就有一个天猫精灵,我什么时候使用它呢?我是在没起床的时候,我想问一下他到底几点了,我又不想开灯,或者我也不想打开窗帘。这个时候我不需要手,只要用嘴就可以跟机器交互就挺好。吃饭的时候我想听听新闻,听听我感兴趣的歌,或者说出租车在开车的时候,我可以问一下今天到底会在哪个会议室?如果会议已经开始了,我说能不能帮我接入,直接进入会议现场听他们讲。或者说我们在一个酒店,我进入酒店以后,我经常会找,到底空调怎么设置,其实天猫精灵很简单,一句话就解决了,把空调温度调到多少度,就解决了。还可以告诉你健身房在哪里,需要你做很多工作的东西,可以通过语音交互来解决这些问题。所以我感觉就是说智能语音交互是越来越多进入了人们群众的日常生活。

    怎么样让智能交互的体验做的越来越好?我们的想法是希望跟所有的行业一起来建这个生态。这个行业可以是提供内容的,像喜马拉雅听音乐的,或者是给小孩的一些工具。也可以是服务的,点饭的、外卖的,饿了么这种。甚至可以是航空公司,给用户提醒一些东西。甚至是硬件的,IoT的,这样可以语音控制很多东西。

    我给大家放一个视频,大家体验一下具体的语音交互是一个什么样的概念。(播放视频)这个是日本网红在酒店的一个真实体验。大家可能还不知道到底有多热、有多火,我给大家一个数字,天猫精灵双十一的时候,不到9个小时卖了100万台。其实前几天我收到一个农村的亲戚告诉我,他希望我赶快买一个天猫精灵,在他的店铺里用语音代替计算器,感觉比较高科技,不用用手计算了,手上可以忙其它的活,天猫精灵给你计算。

    到底怎么才能够让各行各业多能够很容易地接入我们的天猫精灵,怎么样让每个机器和机器人都有语音交互的能力,这是阿里想的比较多的。是不是很多机器人公司都有很多的自然语言和专家呢?不需要的,我们做了你们很轻松的接入就可以了。所以我们有一个AliGenie平台,我们提供了语音唤醒、语音识别、声纹识别、语义理解和语音合成,各个能力都在。作为一个开发者,作为行业的一个公司,你需要做的就是,只要懂自然语言就可以做,只要懂人跟人的交互,就可以做一个人机交互的系统,我们的这些能力自然赋予给你的机器。

    给大家讲一个更加具体的东西,讲讲自然语言理解到底有多难,到底有什么样的方法让自然语言理解突破每一个开发的瓶颈。什么是自然语言,一个用户进来,一个指令叫做“明天杭州天气怎么样”,我们期待着机器能够回复,比如说杭州11月18日晴,温度多少。这样一个接受用户的输入,怎么样变成机器的回复呢?几件事情要做,第一个做的是意图识别,用户问这个问题到底想干吗?我们知道它的意图是天气预报,他要找天气。另外我们还要做一个槽填充,我问天气预报就是他关心的是哪个地方的,什么时间的天气预报,这个时候槽填充就是时间地点,浙江省杭州市,这样把自然语言变成结构化的槽值以后,我们把这个交给对话引擎,对话引擎会去调我们的第三方的天气预报的服务,在这一天这个时候到底是什么,弄好了以后对话引擎还要把反馈出来的值,生产语言反馈给客户,客户听到的不是数据,是自然语言。所以要做的是意图识别,槽填充,还有对话引擎。几件事情做好了以后,机器就具备了跟用户对话的基本能力。

    自然语言理解到底难不难,有多难?我认为自然语言理解是最难的,因为它涉及到了人的真正的对事情的理解,还有一些推理的可能。当然我先讲一个我认为现在首当其冲要解决的难点,自然语言句式和用词的多样性和歧义性。比如说同样问天气预报,用户可以多种方法说出来,比如说“我想知道明天天气怎么样,告诉我18号的天气情况,你知道明天适合出去玩儿吗,明天会下雨吗,明天空气质量怎么样,明天会不会有雾霾”,各种各样的说法,用户希望你全部能听懂,一句没听懂就认为你太笨了。这种情况下如果有大量的数据,知道这些所有做法,我的机器可以通过机器学习进行所有可能性的学习。但是刚开始一个机器人的项目,可能还没有用户交互呢,没有大量的数据,可能还有一些用户他因为隐私不希望你看他的数据,这样的原因会让自然语义理解变得非常的难。另外现在做这种工作的员工非常贵,如果每天让他做这样重复性的,可能成本性价比不高,所以我们提出的这个AliGenie系统,使每一个想要做语音交互的机器人公司,或者说开发者,或者说天猫精灵的提供者,都可以去做。

    当然我们提供几种方案?第一个我们提供很多标准技能,比如说你想做一个说说话的技能,我们把槽点和多种情绪都理解了,你只要把你的笑话上传就可以了。如果你觉得这个东西不能满足你所有的需求,我们可以提供自定义技能。自定义技能,我们所强调的是,开发者只 需要进行语义标注,不需要减程序就可以做。我们在这里面呢,基于语料标注也有几个问题,一方面没有那么多用户的语调的时候怎么办;另外你有你语调不写程序,怎样让机器把所有的语调写好;同时很多用户跟你交互,能不能让机器自主地学习,深度强化学习。

    怎么标注呢,只要把这句话写进去,这个就是叫车的意图,你告诉我就行了,机器自己会学习。然后你们就会有一个,根据不同的算法,给你一个意见最好的语音交互的能力。

    再讲点具体的东西,我们其实有从互联网挖掘各种各样的说法,用户只需要说帮我打辆车去哪里,这样一句话,通过互联网挖掘各种说 法,提供一些标注,这种标准生成自然语言叫开发者标注,开发者说这是对的,我们就可以开发出很多的职业。比如说“麻烦帮我叫一辆车去”,或者说“叫一辆车”,也可以叫做“打一辆车”“预约一辆车”,“计程车”“的士”都可以挖掘出来这些词语,然后我们加一些标注,自动的帮你学越来越多的语义化的模板,然后就产生了各种各样的用户输入都可以做到。如果你很多的语义愿意标注,我们有深度学习的识别,把意图识别和槽点自动学习特征,也不需要你写那么多,我们写的特征,会比程序员手动写的会好很多,这个也是很好的。

    我做了很多年的语言交互和自然语言处理。有很多人认为现在的交互,人工智能助理是一个智障,怎么避免这个智障?首先我们的技术现在还没有到做一个语音交互,把所有的情景都覆盖的地步,我们需要做的必须关注垂直应用,如果我们全世界的开发者都没几个,每一个人做一个应用,把很多试用的应用都一个一个做很好,这个就是垂直应用。同时用户虽然希望我们无所不能,但是我们的理解能够没有到这个地步的时候,我们希望指导用户,让用户理解,什么样的说法更容易被机器理解的。

    这里面智能知识,你没有知识,只是喊话不行的,又有知识又能听得懂才能显得自然。在座的有很多行业里面的人,我希望大家一起,建立智能语音交互的生态系统,一起让语音更智能。

    阿里巴巴在机器智能、人工智能方面做了很多的工作,我们的语音识别、自然语言理解和计算机是觉得文章都在顶级会论文上发展。同 时双十一期间很多的机器人在落地,鲁班的机器人可以帮你设计很多的banner,不用请设计师了。店小二机器人这个是语音客服,自动回复 。还有天巡机器人,还有小G二代的机器人,大量的机器人已经在阿里巴巴在使用。

    对于人工智能的理解,阿里巴巴认为,人工智能是为了帮助人,而不是代替人。我也不认为人工智能是对人类的威胁,我觉得我们现在人工智能能做的,就是将人类从重复性的物质文明建设中解放出来,更多地去从事创造性的精神文明的建设。人工智能现在能做的还是很多重复性的工作,这方面它是最在行的;你说让它创造一个很好的东西,至少现在我看它还没有这个能力。其实这个机器一直在进步,但是不会是有了汽车从事运输的人就没有工作了,有了汽车还有其它从事运输工作的人。人工智能能够帮人从重复性的物质文明建设中解放出来,这是我的观点。谢谢大家!