2019世界机器人大会——第五阶段：人工智能与融合

龚克：各位来宾，欢迎来到第五阶段“人工智能与融合”主题论坛，我们首先有请达闼科技（北京）有限公司创始人、首席执行官黄晓庆先生带来主题报告，题目是“拥抱5G+智能服务时代”。

黄晓庆：

非常高兴来到此次论坛，Senior Worker肯定是Crazy Engineer，不然不可能Consistently Continue This Cause。我的演讲主题是“拥抱5G+智能服务时代”，大家如果关注中国移动的话，应该知道我借用了中国移动的市场口号。尽管现在我不中国移动工作，但我其实是中国移动免费的员工。

5G+智能服务时代，某种意义上不是一个互联网+的时代，4G+的时代是互联网时代，所以叫做移动互联网，当我们把互联网赋予移动的能力，展现给我们的互联网是什么？就是第四代移动通讯。第五代移动通讯给我们展现的是什么呢？就是我将要给大家描绘的一个未来。

我在2012年提出了云端智能机器人的概念，原因是我们人类是一个生物架构，我们所掌控的计算能力是一个电子架构，二者之间功耗和重量有着巨大的差异。当然，我们可以间接地证明上帝为什么没有用电子技术来造人是因为上帝没电。如果要造出一个和人类一样聪明的大脑，我们是无法把它装在机器人的脑袋里面的。

这张胶片的右边过去的五年我已经讲了不下一百次，就是架构的不同。上帝的架构我们肯定不能用，人类的架构就是云端大脑，通过一个云端大脑和一个很优秀的、低延迟的安全移动网络，我们完全可以实现和人一样聪明的机器人。这样一个时代就意味着我们可以通过一个云端的大脑和一个移动通讯的网络，为千家万户、为各行各业，提供在工作能力、操作能力、灵活性都达到人类水平的机器人，因此我们把它叫做云端智能机器人。

云端智能机器人的核心关键问题是什么？要把机器的大脑和机器的身体连在一起，所以当我认识到这个问题以后，原来机器人问题是一个通讯问题。作为从事了三十多年通讯技术的工程师，我马上意识到我们必须参与到这场伟大的革命当中。

我的理想就是要在2025年做出一个机器保姆，实际上我的想法也相当现实，如果我老了，我的孩子们肯定不会来照顾我，我一定要做出一个机器保姆，能够照顾人类所有的老人，包括像我这个时代的人未来二三十年肯定就要退休了。

实际上全球已经开始了这样的云端技术架构，比如智能音箱就是一个云端架构只会讲话的机器人，而从产业的发展来说，以云端架构新型的机器人和智能机器技术的发展，未来的五年会以超过50%以上的成长率来发展，到了2023年市场价值会超过1000亿美元。

都是一些什么样的技术能够商业化？我们大家都很清楚，如果我们能够做出一个机器人家庭保姆肯定会是非常巨大的商业价值，但是今天我们面临的不是这个层面的技术，这个技术还需要一定的时间和空间、一定的使用场景来发展。什么样的技术现在是有效和可靠的呢？现在有效和可靠的技术还是垂直服务机器人。

什么叫做垂直服务机器人？就是在某些工业场景、某些生活场景，能够有效地取代一个人工的角色，而其成本降低了至少一倍以上，也就是二分之一左右的成本甚至更低。在这种情况下，实际上用机器就可以代替我们人类工作。

很多人会担心，是不是机器有工作，人类就没有工作了？我们的平台上改变了一个角色，就是让人类从服务的前端走向了服务的后端。为什么？因为机器人需要被管理，机器人需要被监控，机器人需要被教导和训练，所以人类就从劳力者变成了劳心者。中国古人说过，劳心者治人，这个时候就是劳心者治机器人，也就提高了整个社会的生活水平。

我们在这样一个云端大脑的支持之下就有了足够的预算能力，有了足够多的算法积累，足够多的数据引进未来的机器人，这些机器人在强大的柔性关节的支持下就可以给我们端茶送水做清洁，提供各种各样的服务，加上整个系统是一个云端架构，所以第一个机器人学会的技能，第二个一直到第N个机器人可以立即学会，所以机器人的协同和优化一切都不是问题。

大家肯定看过美剧《西部世界》，这部美剧出来的时候我收到了很多朋友的电话，这是你们达闼科技赞助的吗？我说不是，实际上《西部世界》也是一个云端机器人的架构。科幻和现实之间往往只有时间的差距，科幻讲的事情小以时日就会实现。

我们公司的中文名字叫做达闼，也就是英文Data的发音。什么意思呢？实际上不是数据的意思，Data是《星际迷航》当中的重要人物，也是一个机器人，是在二十三世纪，也就是在两百年之后被发明的。

怎么能够做出下一代真正能够工作的机器人？我们引入了一个概念，叫做Herics，未来所有机器人大脑的眼睛都在人类的辅助之下完成，工作当中积累数据然后再引进。我们提出的XR1机器人就是一个通用型的，代表未来的人形服务机器人，这种机器人也是一种很特殊的技术，就是柔性关节的技术制造，成本相比传统工业机器人关节要低至少十倍以上，而其本身又有很强大的，能够很安全地和人类一起工作，就是安全柔性的。我们提出的就是像通讯行业造手机一样来造它，要用标准的部件、标准的技术制造下一代机器人的协同系统。

云端大脑某种意义上代表了机器人时代的交换机，因为我是做通讯出身的，所以什么东西看起来都像一个通讯系统。如果我们做了一个云端大脑，连接一百万以上的机器人来运营，这不就是一个交换机吗？所以云端大脑肯定有一层是交换机，当然还有一层是人工智能平台。我们需要什么样的人工智能平台？需要一个多模态的人工智能平台，同时能够对自然语言、视觉和运动控制产生时间序列上的同步创作体系。

你们可能发现了，今天我们的人工智能平台一般都是单模态的，视觉平台只是看东西，语音平台、智能音箱也没看东西，只是对话，经常不知道跟谁对话，反正就是乱扯。我们也有运动控制平台，一般是在工业机器人的场景，没有其它的模态，就是做运动控制。要想实现服务机器人，我们必须实现多模态的人工智能控制，实际上多模态的情况下马上必须引入交换的概念，也是数据汇聚的概念。

然后第三层就是在人类的辅助之下怎么建立一个有效的机器人应用场景，机器人的应用平台是什么，我们提出一个新的概念。机器人的应用平台实际上是通过数字孪生的技术游戏化，也就是机器人的应用平台归根结底人类早就在做了，就是游戏，所以这样平台的体系之下我们就可以在大量游戏开发者的支持下开发出机器人时代的机器人游戏化应用。

怎么才能实现真正现实的应用？就是通过数字孪生，也就是为每一个机器人大脑100%符合它的物理模型，然后再进行虚拟化，剩下的工作各位专家就能够想像得到。

在这样平台的驱动之下，我们完成了一个云端化的机器人操作系统，它的可扩展性是无限的，相当于一个Google的搜索云，基本上有无限扩充的能力，未来人工智能的机器人大脑也有无限扩充的能力。一个搜索系统在人类的使用下可以变得越来越优化、越来越先进，一个机器人大脑在机器人的使用之下也可以变得越来越优化，越来越先进。

当我们完成这些技术层面的工作之后，怎么才能让它实现真正的落地？真正的落地有一个非常重要的要求，就是网络要求。如果我们把云端机器人投入商用，需要一个安全可靠、延时非常低的移动通讯网络，所以第五代移动通讯从某种意义上讲是专为这个应用设计的，因为第五代移动通讯可以给我们一个比现在的网络大100倍的新型网络，带宽可以保证，延时比现在低10倍的网络，延时可以保证，还有切片技术，就是把机器人技术和互联网100%隔离，也就是可以提供安全。所以云端机器人是5G时代的杀手级应用，三十年之后云端机器人的数量会超过人类，也就是说到那个时候我们可能需要的不只是5G，可能是6G、7G，越来越多对移动通讯的需求，包括低轨道卫星。

这里我们可以提出一个观点，如果我们认为自动驾驶最终能够真正实现，那么就会发现自动驾驶的车是什么？是一个机器人，如果我提出云端机器人的道理是正确的话，自动驾驶的车如果不是云端架构的话是不可能实现的，所以未来的自动驾驶汽车也是一个云端机器人。

为了让所有的开发者都能够参与这场伟大的，可能直接导致第四次工业革命的工作，我们也开发了一个机器人的RDK，就和SDK一样，属于机器人应用的开发环境，可以通过一个云端的架构和实体的机器人同步产生开发，我们也欢迎业界一起参与RDK的开发，这也是未来我们走向机器人社会和机器人时代的一个非常重要的起点。

5G服务能够给我们带来什么？这是人工智能领域第一次出现一个端到端的，完全可以通过人工智能和人工辅助一起完成的工作环境。云端大脑某种意义上讲是由专家开发，由用户使用，然后在工作当中采集数据，最终再来演进。这里会产生很多很重要的问题，核心问题是这样的一个系统必须要保护隐私，又要共享，所以保护隐私肯定要通过一定的规则，保证数据的来源和数据的拥有者都要有效保护，同时又要共享由于这些行为产生的科学，这些科学又要通过某种算法。这里我们提出一个观点，就是未来我们要推动个性化的神经网络。

什么叫做个性化的神经网络？就是每一个专家都有可能把你的知识和经验固化，打造成为有你的烙印和签名的新型神经网络，这个神经网络对未来机器人的应用、包括品牌和每一个贡献者都会产生影响非常深远的东西。因为过去无论我们开发任何软件应用都是开发商最后拥有这个软件，到了人工智能时代我们应该让知识的拥有者拥有这个软件，应该怎么实现它？就要通过云端智能的平台，通过一个非常有效的数据共享技术，通过比较科学的标识，甚至有些标识是完全自动完成的，也就是说一个专家通过某种方法不断跟踪他的工作，我们就知道他的能力和水平，能够通过一种方法论来实现。

讲到这里我就想到，在我们中国，我们非常尊重老专家、老医生、老的中学老师，这些老专家在退休之后实际上比退休之前更忙，他们一生的经验用什么方法传承下去呢？所以通过人工智能，我们可以让他们的经验传承下去。

最后我们提出一个对未来的展望，就是3C、3R和3H。简单来说，这涵盖了整个服务行业今天的2B场景。

首先是社区场景Community，这是服务机器人第一个需要服务的重要领域，社区场景有接待、安保、清洁。

企业服务场景Company，包括清洁服务、安保服务等等。

园区学校场景Campus，一个工业校园和一个普通的社区又不太一样，更注重对企业以及企业之间一系列有共性的服务。

3R代表了我们很多服务的场景，也就是角色。Reception、Reach和Retail，这些都是非常符合人形助理机器人的工作。

最后实际上还有行业，包括健康行业、家居相关的行业，包括房地产，最后是包含和旅游相关的行业，包括酒店和主体公园等等，这些都是潜在的对机器人技术有非常重要的需求。当然，我们最终的理想是进入家庭，进入家庭最重要的需求点就是照顾老人。

根据卫计委的统计，到了2030年，中国将需要1500万工作人员，我们需要的肯定比那个还多，因为没有统计需要进入家庭的，只是在养老院的，也不可能找到更多的人，我们的人口是下降和平缓的趋势，所以我们需要服务机器人完成这些使命。

现场嘉宾提问：我是学国际政治的，关于机器人发展的前景，会有大量的工作岗位被人工智能替代，由于机器人非常廉价吗？这是肯定发生的事情，那么这些被替代下来的人口会有什么样的结果？我一直在思考这个问题，想听一下您的思考。

黄晓庆：

这位先生的问题是很多做机器人的同业都经常被问到的问题，我可以很肯定地告诉你，不会出现你描绘的那种情况。因为在现在我们面临的行业当中实际上是人工短缺的时代，很多工作实际上是找不到人来干的。中国主要的城市现在建筑工人已经从十年前的平均年龄二十四岁变成了平均年龄四十四岁，建筑工人的孩子们都不去干建筑工人了，如果做清洁行业的调查也会发现同样的事情正在发生，看一看那些做清洁的阿姨平均年龄是多大，自然而然你就知道了。未来我们面对的是严重的服务行业人工短缺，不是我们要取代任何工作。

机器人时代的来临意味着什么？意味着一次新的工业革命，每一次工业革命都会转换社会的架构，也就是说不能假设每次工业革命发生之后所有的人都还干从前的工作，肯定要干比从前的工作更好、更优厚、收入更高的工作，所以干管理、控制、训练机器人的工作，这个行业会需要很多的人类来工作。人工智能到了最高水平的时候，可能每一百个机器人也需要一个人类管理他们，中国有4.5亿家庭，每个家庭当中都有1个机器人家庭保姆，我们需要450万管理家庭保姆机器人的新的机器人训练师、操作师，这种工作现在是没有的，那么就创造了450万新的工作。从这个角度来说还有行业，一百年前我们开始第一次工业革命的时候，全世界99%的人都是农民，一百年之后99%的发达国家可能99%的人都不再从事农业了，但是也没有出现没有人有工作，而是有更多更好的工作给他们。

生产力的提高一定会给我们带来更多的财富，会有更多更轻松的工作。今天如果我们来看一个社会，至少90%以上的人并不想干那份工作，只是因为薪水才去干工作，一百年之后呢？也许不需要一百年，五十年之后就有90%的人只干自己想干的工作，剩下很少一部分人干自己不想干的工作，所以第四次工业革命给我们带来的就是这样的革命，也就是自由的革命。

龚克：我很赞同晓庆的观点，工业革命是工作岗位越来越多而不是越来越少，但是就业者必须适应新的岗位，如果不能适应的话是很容易被淘汰的。希望云端大脑能够把那些枯燥、危险、肮脏的工作替代掉，让我们人做更舒适、更有价值的工作。下面有请日本东北大学教授、IEEE候任副主席Kazuhiro Kosuge带来主题报告，题目是“一种协作型机器人的概念及其实际应用”。

Kazuhiro Kosuge：

非常高兴见到大家，我来自日本东北大学，之前我的一个学生把我的PPT翻译成了中文，所以大家可以看到左边的中文。

2012年的时候，美国国家信息部发布了一个2030年的四个会改变世界的趋势。发布这个报告之后，很多国家、很多公司、很多机构都开始谈论这样四个大的趋势。最近的一个版本是这个版本，是由安德鲁温斯顿发布的，也是麻省理工大学的教授，认为主要有几个大的因素。首先是人口会变化，增加10亿人口，我们生活的时间更长，人口越来越老龄化，六十五岁以上的人到了2030年会超过10亿人口，再就是城市化，三分之二的人口将会生活在城市，气候危机、清洁技术也是新的大的趋势。

这是世界人口的曲线图，2050年的时候20%多的人口都会属于超过六十岁的老龄人口，过去经历了人口金字塔的增长，也就是过去一个国家的人口都是金字塔型的，但是在2050年的时候人口就不是金字塔型的，印度也会成为一个老龄化的国家。

这是2050年的日本，年轻人要支持这么大的老龄化基数，美国也是这样，可能美国的情况比日本要好一些，但是仍然有非常严峻的老龄化问题，欧洲可能比日本还要严峻。大家可能觉得中国没问题，但不幸的是中国也有问题。2050年中国的情况可能会变成这样，要比日本更差，这是理论的估算，现在日本都在考虑这个问题。

《金融时报》发布的一篇文章认为日本对未来的劳动力变化准备不足，可能出现2016年到2017年劳动力短缺造成的大量公司破产。美国会从其他国家输入很多劳动力人口，尤其是制造业劳动力的水平在下降，技术劳动力的缺乏会造成2028年制造业GDP4540亿美元价值的减少。

大家知道现在存在全球气候变化的问题，但这也是理论上的，到了2100年绿色的部分是新的农田，世界的北部将会有更多的农田，红色的部分原来是农田，到了2100年就不是农田了，这些地方都会出现缺食物的问题。

城市化是另外一个问题，68%的世界人口在2050年会成为城市人口，摩天大楼会越来越多，同时也要维护这些摩天大楼的使用。能够把这些工作自动化吗？我们可以找到另一个建筑的方法，如果延续这种建筑的话一定要找到自动建筑的方式，目前的工人是没法这样继续工作的。

十年前就有很多关于机器人怎么为社会做贡献的讨论，这些都是讨论的议题。我们想找到机器人和AI怎么为社会做贡献的方式，结论是机器人可以提供人和服务，通过这些服务，机器人就可以给社会做贡献了。作为社会有三个价值，个人、集体和全球，同时发现机器人的研究者有很多机会。最有意思的是，这是机器人的技术基础以及新兴技术，我们可以通过这些服务对社会做贡献。

日本科技协会有这样一个员工，做了这样一个理论，我们可以开发机器人的基础技术进行护理工作，可以把别的技术和机器人基础技术进行结合，创造出新的机器人，但这是不够的，更重要的部分是需要设计、评估必须的服务都是什么，这样才能进行更好的规划。

有的时候我们发现一些技术还不够好，所以我们要把这些技术提高到足够满意的程度才能满足这些服务的要求，有的时候我们会发现一些技术是完全缺位的，过去没有研究过技术，但是会有这样的需求，所以我们要去开发这些没有的技术。通过这样三步，我们可以加强和丰富机器人学科的基础理论，也就是这是一个以应用为导向的研究。

如果说机器人是唯一的几个能够解决未来问题的方案，那么人类未来还是会有挺大问题的。

这些是机器人助手、舞伴机器人以及同事机器人，AI和机器学习都可以加强机器人的表现。

这是1993年我做的一项研究，通过控制器加强人的力量，大家就会觉得真危险。我们当时也做了一些帮手机器人，可以帮助人提取单一的物体，几年前乔治去世了，他很喜欢这个概念，就把这张照片放在了他的著作的封底。这是一家公司，我们一起研究的产品叫做帮手机器人先生，两个机器人在帮助这位先生运送一个物体。

当然，开发这种控制器之后我们就可以向其它领域发展了，但我们发现还是少了点什么，即使有控制器可以实现人机互动，还是差了点什么。这个过程当中我们学到的一课是一些简单的测试，需要借助帮手机器人完成，不幸的是大多数一般的任务，即使借助多个帮手机器人也难以完成，因为机器人不知道如何与人进行协作。

机器人必须明白任务是什么，也就是使用者的目的，人想以哪种方式被协助，这是当时我们没有考虑或者没有想通的，所以我们就开始做了另一项研究，叫做舞伴机器人。很多人说天啊，你做这个研究太奇怪了，开始做舞伴机器人之后他们就说做研究挺有意思的。大家知道Interesting这个词并不一定真的代表有意思，也可能代表我的东西很无聊。

我开发了这样一个跳舞互动的协作机制，不幸的是我本人不会跳舞，所以我让学生去舞蹈学校学一学跳舞，我们给你研究经费，有的学生挺感兴趣就去舞蹈学校学了，很多学生说所有跳舞都是一男一女进行，男舞者负责领舞，根据规则和身边环境选择下移舞步，女舞者在交互当中感受男性意图，结合舞蹈知识推测下一舞步。

因为跳舞是很有意思的，我们没有任何主体去操纵，唯一的运动就是这个任务当中，运动就是这个任务本身，经过好几年的研究以后开始做这个机器人。当时我们有机会开发新的舞蹈机器人，而且日本科学机构也支持了我们，我们就进行了机器人开发。问题在于什么？如何估测对舞步的反馈信号，基于时间顺序我们设计了一个预测的设备，然后可以做舞步。

机器人根据互动交互来做模仿，很遗憾的是这是十四年前，当时机器系统是非常慢的，因此当时我们只执行了舞步的预测设备，也吸引了很多注意力。《时代周刊》将其选作2005年的十大发明，也是很久之前的事了，《Spectrum》也是讲到了这个机器人，最近韩国的儿童书当中也有我们舞蹈机器人的图片。

舞伴机器人的挑战存在二者之间的物理交互，女伴机器人要识别人类的意图，很多舞蹈学校的老师跟我们说他们不需要女性舞伴，因为在日本学舞蹈的女生比男生多得多，你们应该开发一个男性的舞蹈机器人，如何向人类舞伴传达意图，这是一个真正的问题。

舞伴机器人如何应用在真实世界之中？我曾经访问一家汽车工厂，报纸和杂志上大家可以看到很多机器人在汽车制造厂工作，但在实际情况当中，很多人都是人类要参与部件的组装，日本至少4.5万工人参与汽车装配，而在中国的人数会更多，因为现在你们生产的汽车数量是非常多的。

这是舞伴机器人很好的应用场景，就是如何预估和跟踪步伐，因此我们开发了这样一个产品。如果机器人能够为工人提供必需的零部件的话就不需要来回找部件，然后可以更加高效地工作，我们开发写作机器人在合适的时间、合适的工位递送或者返还装配工序当中的零件和工具，降低工人负担，提高装配效率，降低犯错概率。

当然，和舞伴机器人比较类似，协作机器人为了在正确的时间达到正确的位置，我们需要知道用户知识、用户意图、用户期望的协作方式，比如用户接下来想做什么，用户希望以什么样的方式得到帮助。基于这样的理念，我们开发了协作机器人Padi。

安全性必须得到保障，因为我们希望能够把它放在装配线上面和工人一起工作，因此我们开发了一个很长的手臂，手臂重量也是非常合适的，一开始有三个电机，后来我们发现就是一个机器人的话，我们需要按照ISO的标准来做。当时我们还没有这种理念，现在他们已经建立了安全标准，开发系统需要基于评估，保障机器人和工人进行合作。ISO定义的是这不是一个机器人，只是一个机器，我们也是根据这家公司当时的要求满足设计的需求，之后我们就进一步开发，把它放到了工厂。

这是金融危机发生之后紧接着出现的情况，汽车企业的销售大幅度下降，也不太能够接受我们的设备，通过应用这种机器人，这个案例当中设置了两个激光寻找的设备，借助这个设备可以减少20%-30%的工人工作时间，这也就是如果我们能够真正引进机器人的话，一个工人就可以做其它工作，美国公司也有很多工人和工作，他们的工作量很大，希望能够做更多的工作，因为工人短缺没法做更多工作，一家企业用了我们的设备以后开始更加认真地对待，所以我们开发了这个系统。

为什么这是很有意思的呢？因为真实世界是很有意思的，大概三个月以后从生产线上拿走我们的机器人设备，大家猜一猜为什么？为了使用这个系统，为了适应这个系统，然后让他们做其它工作，需要改变自己的程序，但是没有提前写好程序。这家公司的工程师不好，不太理解我们的理念，我们就决定做一个不同的设计，使用机器学习的技术设计自适应运动规划系统。这个论文本月刚刚在机器人杂志上发布，大家如果对相关细节感兴趣的话可以在网上找这样一篇论文，这是开放式的，可以免费阅读，没有任何局限。

我们采用自适应运用规划系统，这意味着什么？我们需要评估预测工人的动作，规划运动的轨迹，根据预测去做轨迹的评估和定位。我们使用的是混合的建模，每一个阶段一旦一个工序完成，使用工人实际的运动数据进行更新。为了做这项工作，操作臂的末端需要达到预定位置，而且是在工人需要的时候正好达到这个位置，机器人的手臂轨迹可以避免与人相撞，因为可以实时计算工人的位置概率分布，而且每个时间点都可以去做计算。

机械臂会受到预速度和加速度的限制确保安全，比如预测的工人运动位置是高斯混合模型，所以会有一个分布，使用的是一个感知模型和目标函数，这样的话可以控制机器人的运动，也是进一步得到优化，可以实现之前的函数最小化。

我们在车上面有一个悬挂的物体，就是代替车体，大家可以看到这是机器人开始工作，然后又到了另外一个位置去做工作，第十次尝试这个机械臂，系统可以做出预测，预测工人的运动到下一个位置，经过第一次和第十次尝试的对比，第十次尝试以后工人会准确预测工人的运动，但是现实很有意思，有些时候工作人员的行为非常奇怪，因此我们去做这种混合复杂的实验，通过实验能够证明这是能够适应工人的异常行为。

我们想把系统放在其它的组装过程当中，最近电脑系统的发展、传感的发展、AI的发展可以加强写作机器人的适用性。

龚克：这是一个非常动人的人机协同，通过一个优美的舞伴达到人机协同可以达到的场景，但无论是和人协同进行操作，还是机器人独立进行操作，如何做到灵巧的操作是机器人本身需要克服的难题，下面我们有请优必选科技股份有限公司副总裁谭欢先生带来主题报告，题目是“让机器人走向千家万户：面向智能机器人的认知和实体功能实现”。

谭欢：

非常荣幸和大家一起探讨人工智能和机器人的问题，我们讨论人工智能的实现和融合之前，首先讨论另外一个问题，就是人工智能究竟要解决什么目标或者任务？

《Super Intelligence》当中有这样一个提法，人类是这个星球唯一的高等智能体，所以我们一直想创造一个和我们类似的智能，也许这个智能可以超越我们。人工智能是这种方法其中的一种，更重要的一点是，我们希望我们创造的智能能够嵌入人类的智能当中。

这是2006年美国人工智能学会的愿景图，上面有很多的机器人，表达的一种理念就是总有一天机器人能够和人类和谐地生活在这个地球上。十三年前大家觉得这个目标很遥远很难实现，但是大家可以看到，经过研究人员的努力，很多概念已经得到了实现，比如里面的智能车、无人车、手术机器人、机器人教师、机器人伴侣。

孙正义先生在2017年有这样一句话，“也许三十年后我们将第一次和一百亿机器人共同生活在这个地球上”，那么我们来看过去的七十年里，研究人员是怎样一步一步把人工智能带到我们的身边，融入我们的生活当中。

四十年代开始有了计算机，很多人就在想怎么才能通过计算机程序解决问题，特别是数学问题。这个萌芽期有了很多研究，直到1956年的达特茅斯会议，我们用人工智能定义很多领域，已经远远超出了之前的目标，研究人员开始想我们怎么才能创造一个和人类一样的智能。黄金二十年当中，很多人工智能的基础研究已经得到了提出并且实现，理想是很美好的，现实是很残酷的。由于目标和现实之间的巨大差距，我们迎来了第一次低谷。

八十年代以后，人工智能得到了蓬勃发展，一个主要原因是我们致力于将人工智能和产业相结合，这个时候专家系统和神经网络已经被提出而且实现。到了1988年大家可能没有意识到，人工智能产业已经有几十亿美元了，但是低谷又来了，专家系统太昂贵了，导致落地和商业化的难度大大增加。

九十年代以后，我们第一次提出智能体的概念，通用人工智能和类人工智能也得到了提出和实现。由于大数据平台的广泛应用，我们真正将人工智能和很多产业级的应用相结合。到了2010年以后，由于深度神经网络和智能推理的大规模应用，人工智能得到了更快速的发展。

回首这七十多年，我们可以用四个字形容人工智能的历史，那就是荡气回肠。几起几落的人工智能一直在往前发展，因为有无数的研究人员在用他们的智慧、心血和汗水推动和产业结合，并且落地。

什么是智能？按照图灵测试的定义，如果我们和一台机器进行对话，不能辨别出这是人还是机器，那么这台机器就具有智能。人工智能需要很多的学科支撑，并且从这些学科汲取最先进的理念和设计方法。第一步需要的是分析感知信息，就是从环境当中获取信息。第二步是最关键的一步，就是知识的表述，因为接下来所有的研究都是基于这种表述方法，不同的智能系统有不同的表述方式，比如符号系统存储规则，连接系统存储神经网络，运动系统存储回归模型，这些方式直接决定了下一步我们怎么进行这么多领域的研究。

怎样把智能在机器人上面落地？1943年开始出现的是乌龟机器人、工业机器人、移动机器人、人形机器人，再到现在优必选的Walker。我们发现机器人是验证人工智能最好的硬件平台，因为我们对机器人的期望不管是来自电影、来自小说，还是来自媒体报道，很大程度上都反映了我们对人工智能的期望。

如果把这些领域放在机器人上面体现的就是两个问题：首先是硬件平台，用什么承载这些智能，其次是智能功能的实现，也就是硬件与软件，体现为移动、交互、感知、决策、动作和记忆六大模块。组合到一个更典型的机器人设计框图当中，机器人可以利用环境信息进行决策，这种决策是基于记忆的信息，对外输出的是移动、动作，还有各种交互。现在世界上有很多机器人，不同的智能机器人有不同的实现方法，简单的机器人只需要用到其中的几个模块，很复杂的智能机器人就可以把所有的功能都实现，不同的实现也就是不同的人工智能模块在硬件平台上的组合和应用。

人类对机器人智能的探索持续了很多年，这是两个很简单的智能，两个传感器，两根线，两个电机就组成了可以避光和驱光的智能体，八十年代罗德里格提出这样一个架构，第一次将行为概念引入到了机器人设计当中，这不仅仅是一个概念的引入，更重要的是从那以后整个机器人学界会有苛刻近乎到极致的要求，就是智能的实现必须在物理平台上去落地，很多智能机器人搭载了不同的功能，很多论文必须有一章是关于怎么把这个智能实现，然后用时间去验证。

符号标征和零件系统是通过Symbolic的方法和神经网络实现智能，代表着两种不同的方向，共同点是对记忆和数学模型两个部分的重要性。近期兴起的混合系统当中我们将前面说的行为、符号、连接融合在一起，提供的是实现更复杂人工智能的解决方案。

这是一篇在2008年的论文，也是一个Hybrid System。左边的部分是底层物理功能和初步认知功能，右边的部分是基于人脑运行机制的高级认知功能。通过短时记忆和工作记忆将二者结合在一起，就给我们提供了一种可能实现复杂人工智能的方法。这里对记忆的要求是非常严格的，包括Long-term memory、Short-term Memory，将动作和感知融合在一起，给我们提供了一种可能的解决方案。

智能的实现包括几个原则：首先是从简单到复杂，教育机器人的功能很简单，只是辅助和教学的功能。非常复杂的机器人集成了很多高级的智能功能，而且智能形态是不限形态的，有的是像人形的，有的不是人形的，都有一个共同的特征，必须要和实际应用相结合。

过去的十几年里优必选一直致力于构建人工智能和机器人的生态系统，分为四个部分：硬件、软件、内容、服务。硬件是基础，软件是核心，服务是灵魂，只有有了内容的服务才是这个产业长久不衰的秘诀。

2015年，我们有了春晚上的机器人，就是第一个Alpha系列，过去几年当中我们创造了各种各样的机器人。我们也和很多研究人员一样在探索一个目标，就是怎样将人工智能在这些形形色色的机器人身上实现，就和人工智能七十年的历史一样，我们在探索、我们在前行，我们在积累经验，我们也在发掘一条可能的道路，今天我们可以很自豪地说，我们找到了一条可行的道路，就是我们希望将人工智能和机器人生态系统与不同的垂直领域相结合落地，实现产业化和商业化，并且最终让机器人和人能够共存，医疗到文化、教育到体育、商务到巡检到智能零售，这些垂直领域的应用和落地都是人工智能和机器人相结合的美妙之处。

如果我们把机器人和教育相结合，大家可能会问是不是太简单了？但是这个领域的需求是五脏俱全。这个机器人可以自动避障，体现的是感知和机器人运动能力的结合。这个机器人可以玩游戏，体现的是感知、决策和快速稳定的操作智能。这个机器人是典型的将感知和决策相结合的对人的跟踪功能。教育机器人当中我们想将复杂的感知智能传授给我们的学生，这个机器人能够简单地实现对人体骨骼的跟踪，下面的机器人是简单的人机交互功能，我们按一下这个机器人，机器人就有所反应的时候，我们可以想到这不是简单的机器人，这就像我我的伙伴，它有生命，我们将这些概念通过教育传输给我们的下一代，让他们更好地学习科学和逻辑的思维能力。

安防是一个非常有刚需的领域，如果我们要做安防，意味着我们需要从环境当中稳定地、持续地获取信息，并且做出决策，然后才能进行动作的规划和行为的规划，我们在机器人上面集成了很多传感器，帮助机器人更好地对这个环境进行识别和分析，最终在场景当中进行规划和动作。

有了这些传感器和感知功能，更重要的是，一个能够自主移动的机器人，能够将人从7×24小时枯燥、简单、重复的活动当中解放出来，如果机器人能够用智能功能执行任务的话，这种性能可能会比人类执行任务更加精确、可靠和稳定。

我们将机器人商务业务和政务相结合就会需要更多的智能，比如人机交互、感知和动作的智能。大家可能觉得这已经不像是一个机器人了，而是在帮助我们，引导我们更加高效地执行任务，就是将更多的任务集成在机器人身上得到的结果。

现在有很多大型机器人，包括机械臂和扫地机器人，机器人不一定是大型的，也不一定需要到处走来走去，一个放在桌面上，放在手里的机器人，你的第一感受就是这是一个面向你的伙伴，将交互、感知、决策、动作和记忆这些功能集成在一个机器人里面的话，你可能感受到的是它是有生命的，能够成为你最好的伙伴，提供陪伴和教育的服务。

我们创造智能的时候也在用这种创造的方法塑造人格，让大家感受到机器人是有生命的，如果我们将所有的智能模块集成在一个机器人上面会是什么？也许就是我们期待的未来的智能机器人。

大家看到这个机器人的第一感觉应该很亲切，因为它是人形的，一个能够行走的机器人赋予了机器人更多的灵活性，可以在不同的环境执行不同的任务。这个简单的操作功能集成了感知、决策、稳定的动作，同时利用大脑里面的记忆信息去规划一个可靠的抓取动作，移动当中的操作就更是几乎集成了所有机器人的智能，需要分析人的需求，找到我到底需要去拿什么东西，需要定位机器人在这个环境当中是什么位置，打开冰箱门的时候是需要拿可乐还是拿别的东西。机器人走向人的时候你会感觉到这是一个伙伴走向了你，可乐放在桌子上面把薯片递给人的时候，你会想到这是一个典型的基于物理的人机交互。

我们的目标是让机器人走进千家万户，这个目标是非常具有挑战性的，因为我们最终希望机器人智能和人工智能能够融合在一起和谐共存，我们努力了很多年，也许还要再努力很多年，但我们坚信总有一天，机器人将和人类共存、共生在这个地球上。

这部视频描述了未来有一天机器人最终走进千家万户的时候，对你来说不仅仅是一个助手，更像是我们的伙伴和亲人，能够和我们的下一代一起成长，当这一天来到的时候，我们可以说欢迎走进人机共存的时代。

谢谢大家！

现场嘉宾提问：最后那一款人形机器人，日本用了三十年时间，最后阿西木团队还是解散了，你们有没有什么特别的渠道突破它？

谭欢：

这个问题很有挑战性，机器人产业如果需要发展的话，很重要的一环是和刚需的结合以及和产业化的落地，优必选一开始就强调我们创造的机器人是能够解决人类生活当中的某些刚需，同时技术上我们是在不断地将机器人的功能和日常生活当中的需求相结合，不是简单地做一个Demo。从一开始的出发点，我们瞄准的就是机器人某一天能够实际应用到日常生活当中，这是从技术和产业的角度分析这个问题。同时我们也在探索机器人走进千家万户的障碍是什么？可能是硬件上觉得太庞大了，可能觉得材料太冷冰冰了，也可能是机器人的功能达不到我们的要求，这是一个长期的过程，我们需要一步一步解决这些问题，最终我们希望机器人不仅从硬件上，还可以从软件上融合到日常生活的功能当中，这样落地才是自然和顺理成章的。

现场嘉宾提问：您对一个很接地气的产品、很智能化的东西在社会上的普及是怎么看的？比如社会层面的孩子和受众尽快了解这个东西？因为我在工作当中发现了一个很严重的问题，产品很好、很接地气，但我们的世界是处在一个四维世界，我们的受众处在一个二维空间，本身差的非常多。

谭欢：

其实你最后一句话已经把这个答案说出来了，如果我们的产品是N维，用户可能想到的是二维，我们的目标是什么？就是用各种方法尽快让他们认识到我们的产品能够满足他们N维的需求，这一步不仅仅是依靠产品和技术，好的产品、好的技术也需要在生态系统当中和用户相接触，如果简单地把机器人放在舞台上大家觉得不错，但是究竟有没有用呢？需要依靠我们的生态系统和平台，要让用户了解到如果有这样一款机器人在生活和工作当中，能够帮助你满足什么需求、达到什么目的。现在我们提倡AI教育或者Steam教育，没有一个新的系统帮助用户了解这个系统究竟能够带来什么样的AI Training，那就只是一个机器人，不是我需要的东西，要是把生态系统理念传输给我们的用户，那么不光是了解我的产品，更多的是怎样帮助我将智慧教育这个理念更加推行下去。

龚克：优必选怎么才能让机器人真正活起来，就是要和需求结合起来，机器人要是有用的机器人，而且要变成好用的机器人，对于教育从业者来说最好是用户可编程的机器人，背后需要有很强大的技术支撑，也需要进一步的技术进步。下面有请我十多年前清华的同事，智能机器人研究中心的孙富春教授带来主题报告，题目是“面向灵巧操作的主动感知与技能学习”。

清华大学教授、清华大学人工智能研究院智能机器人研究中心主任孙富春做了题为《面向灵巧操作的主动感知与技能学习》的演讲。

孙富春：

很高兴我们的老校长作为这个论坛的主持人，尊敬的各位来宾、女士们、先生们、朋友们，大家上午好！我是来自清华大学人工智能研究院的孙富春，今天向大家汇报的题目是“面向灵巧操作的主动感知与技能学习”，主要包括五个部分。

首先是意义和挑战，马克思曾经讲过，劳动创造了人，劳动最主要的成本就是我们勤劳的这双手，所以手的操作是智能的直接体现，也是能力进化的一个主要的驱动力。

小孩从生下来开始发育、生理、心理的成熟很快就可以灵巧地搭积木，让我们叹为观止，但要让一个机器人像人，哪怕像小孩那样灵巧地搭积木却是一个挑战性的问题。

机器人的装配和打磨需要灵巧操作，我们特别需要厨房机器人给我们全包了，当然我们也希望机器人能够进入艺术表演，比如我的团队在做机器人弹钢琴，包括清华大学美院做表演，丰田的机器人在弹钢琴，拉小提琴，然而目前大部分机器人产品都没有这种操作机构，主要是外观和手势的展示，即便有些操作也是非常简单的操作。

要让机器人完成灵巧的操作需要完成感知、目标特性识别、规划机构、技能的表达和学习，也是一个非常烦琐的工作。现在世界机器人大会上都有关于灵巧操作的比赛，我的团队获得了2016年灵巧操作比赛的世界冠军，由此可见机器人操作离不开像人一样的双手发展。六十年代到八十年代受到关注，八十年代到九十年代蓬勃发展，经过一段时间的低谷，人工智能开始兴起，面向人工智能的智能操作已经成为现在机器人发展当中非常重要的部分。

这是我们清华大学研制的带有指间传感器、掌面传感器和节间传感器带有多模态感知的灵巧手，我们可以完全多模态信息的感知，包括对目标特性的识别、操作技能的学习，这是一个非常典型的融合系统。其实每个人每天都在弹钢琴，我们经常讲琴键手感特别好，我们如何获得手感？首先要有皮肤感知这个触觉，并且在大脑当中形成觉，这样才能形成触感。机器人怎么形成呢？我们要研究机器人的传感器，包括触觉传感器，这里展示的是我们团队研制的指间传感器，达到每平米241个触间，检测高达700赫兹的振动。两个事件检测间隔达到30-50毫秒，检测精度达到40谬米。

基于视觉的传感是目前的主流方向，我们研究的指间传感器用到了弹性体表面的浮作材料，这个材料非常重要，上面有很多标志点，下面就是相机，摄像机会把标志点的移动记录下来，通过标志点的移动，通过人工智能的算法就可以得到表面的颜色、纹理、增压力、温度等等非常丰富的信息。

这是我们研究的两款触觉传感器，包括接触物体表面的纹理信息，我们做了43种布料，可以展示的触觉纹理信息和视觉，它们之间是完全不一样的，触觉更多的是展示深度信息和结构信息，一把尖刀在各种温度下的颜色和纹理信息。

这里讲到的是标志点的移动，如何通过人工智能的方法处理成三维的计算，目前我们从六个指标来做比较，综合指标上面应该处于前列，上面的是我们的各种样品和操作过程，然后用于各种样品的检测，比如勺子，不同温度的盐水，不同盐水的水杯，包括各种豆类，不同纹理的布料和毛巾，怎么挑选需要的豆类？比如要挑绿豆，这里就是两种实验，一种是仅仅用到温度决，一个是用到纹理，二者都用的情况下识别的成功率远远高于单一模态的信息。

现在这种灵巧手用在各种操作当中，我们做了一个人工假肢，可以感知到12种行为，并且参加了2018年世界制造大会，中央电视台用了1分钟介绍我们的工作。

再来看多模态的感知，我们都在想机器人能不能像人一样做到环境的感知和理解？比如这两张图一个是花一个是老虎，但机器是这样做的吗？机器根本不认识什么是花什么是老虎，只知道花的底层特征是什么，老虎的底层是什么，我们需要学习从底层特征和语义关联，但是难以告诉我们这是一个画里的老虎还是真的老虎，老虎未来的行为是什么我们无从谈起，必须通过认知办法解决这样的问题。

我们都讲乌鸦是最聪明的，看一看乌鸦是怎么在水杯里面吃到给它的食物，用眼睛看一看这个高度是嘴难以达到的，所以把石头填进去水位会上升，食物会慢慢缩短和我吃的之间的距离，然后再看一下，高度还是没有到，不断地试探，觉得可能很接近了，再加一个，它成功了。乌鸦的感知过程是什么？就是从感知到行为，行为又帮助它感知，感知的越精确，最后再到行为，实际上就是一个闭环过程，感知到行为，行为又来增强感知，最后到行为实现目的这样一个过程。

这就引入了一个问题，机器学习和机器人学习，这里很多人做机器学习，机器学习不强调和环境的交互，所以是典型的开放学习，我们研究人工智能的学习过程，比如深度学习要研究可解释性的问题，乌鸦的学习过程当中既用到了感知过程，就是大脑、眼睛和行为之间形成的行为共融，通过不断地从感知到行为，从感知到行为的闭环过程实现了认知的过程，实现了非常复杂的操作过程，机器人学习是和环境交互过程当中，从感知到行为，再从行为到感知的认知过程。

于是我们提出了一个主动感知的概念，主动感知由三个部分组成：一部分是传感器主动，传感器怎样最快地找到感兴趣的目标。另一部分是感知模式主动，那么多传感器究竟如何做到传感器的模态选择，包括行为的选择？机器人能不能像刚才的乌鸦一样，通过不断的实践越来越精明？我们把它叫做发育。

搞自动化的人也用这个词“主动控制”，就是目标开始在坐标系当中通过非线性滤波使得它总是在视场中心，但是不在你的视场当中你怎么找到它呢？如果伪装了、遮挡了、变形了，你能找到它吗？比如我们可以通过场景运动的办法，通过对抗式学习实现这样的认识过程。

我们有一个优点叫做选择注意机制，人的视觉系统就是有这种注意机制，比如大的物体、近的物体，色彩对比度比较大的物体比较感兴趣，如何把人视觉的认知过程和检测结合？我们开始把金字塔模型具有认知过程跟卷积网络结合，实现多尺度不同大小的检测，提高它的检测率。

我们如何提高视觉系统对物体的检测率？比如无人车在这个角度来看物体检测率比较低，通过深度强化学习找到一个合适位置，这个位置上面检测率大大提高了，就是从感知到行为的交互过程。其实对我们机器人来讲，操作过程的手感编码非常重要，现在虽然有很多编码，但是编码过程还跟什么有关？跟手的构型有关，构型也是影响编码非常重要的因素。

我们团队研究了这样几项工作，通过先进动态系统的办法实现对触觉的建模过程，什么东西是具有不变性的？只有不变的东西才能变，先进动态系统当中观测数据具有不变性，这种观测数据恰恰又是在离漫空间当中，很难去编码。我们提出一种办法，通过核函数的办法可以从离漫空间进入。

刚才谈到，编码不只是和接触面有关，还和手的构型有关，如何考虑构型的结构信息？我们提出了联合编码的方法，这篇文章也是这篇杂志当中唯一的一篇最佳论文奖。

机器人装载了那么多的传感器，我们能不能做到面向任何场景，有的传感器不用的时候关掉，需要用的时候打开，尤其是航天当中，包括今天讲的我们国家发现月球背面的嫦娥四号巡视车特别需要这种技术，能不能根据场景和任务选择不同的传感器？我们也看到不同的传感器比如视觉，跟视角有关，哪个角度很好？触觉和动作行为有关系，雷达和扫描方式有关系，能不能一下子就确定最好的模态内的行为？这是摆在我们面前非常重要的问题，如何来做这件事情？我们可以通过强化学习结合。

现在遇到了一个更重要的问题，视觉和触觉怎么融合？我们来看视觉和触觉的重要性，这是两个矿泉水，一个是空的，一个是装满了水，按照视觉表现来讲非常接近，但是触觉是完全不一样的，通过触觉的显著性很容易判别。这是两个相同材料做的玩具，视觉上看完全不同，触觉却是相当接近的，我们通过视觉的显著性很容易判别他们，问题来了，我们如何利用视觉和触觉的好处实现对目标的识别，包括对物体材料特性的识别？这里提出通过组吸收的办法进行融合的过程。

我们也要研究视觉的发育机理，机器人经常用到视觉、听觉和触觉这些关联部分，如何做到这些关联部分的联合学习？比如我们特别强调感知是为动作服务的，动作又会对感知产生作用，联合学习的过程是不是也需要发育和学习？这是未来机器人学习当中非常重要的部分。

大家都想说今天的机器人如果能够像人一样，哪怕前面谈到的像小孩一样从事非常灵巧操作的工作该有多好？我们能做到什么呢？前面其实也谈到了，我们用到了人的眼、手和脑这种高度的协同，实现这样的机器人学习。目前来讲技能学习主要用到了两类方法，一种方法就是机器学习，比如大家经常看的Workshop Learning，就是给机器人一段视频，这个视频告诉机器人怎么去搭积木，机器人怎么去理解它呢？因为给我们的信息有两个部分，一部分是视觉信息，一部分是接触力信息，我们要把这个视频通过机器学习分段，这个动作过程究竟包含哪几个动作？然后再和力的动作做配对，我们可以通过深度学习去学习，就是把这个联合动作序列学出来。

由此我们可以看到，机器学习依赖于效用函数，较少依赖于人的参与，比如通过这个特征自动学习，不依赖于模型，但是缺少可解释性，具有很强的普适性。很多人是学控制理论的，闭环控制就可以做技能学习，只要把理想的学习过程变成期望的行为，深入到闭环系统，然后通过闭环控制使得控制系统的输出跟踪期望的行为，这也是我们搞控制理论经常用到的技能学习的办法。我们必须知道整个操作过程系统模型是什么，而且还要去调参数，发现学得不太好，要把这个参数调整，好的地方是具有比较强的可解释性。由此我们可以看到，机器学习和今天谈到的控制系统学习具有很强的互补性，这种互补性的结合就是强化学习。

今天很多人在研究强化学习，主要通过机器人和环境的交互过程形成奖惩信号，做得好就奖励，做得不好就惩罚，通过奖惩信号指导学习。为什么我们要研究模仿学习和偏好学习？就是因为强化学习在很多情况下难以应用。比如我们要研究汽车怎样避炮，我们要研究飞机在空中的格斗，能够做环境实验吗？不好去做这个实验，那么另一个问题又出现了，刚才讲到的奖惩和奖励机制，这些和技能很难贯穿起来，所以有的人说能不能利用那些操作好的人，比如乒乓球比赛那些打得好的人，这种行为学习不是更好吗？所以模仿学习已经可以引入强化学习当中。有些人某些工作做得特别好，为什么要把这个技能学会？这是未来技能学习非常重要的工作。

我们团队围绕着刚才谈到的传感器、人机交互做人的意图理解，通过技能学习演示验证这个工作。我们做的第一项工作就是能不能让机器人弹钢琴，通过人的手指示教，通过训练集找到对应的动作。我们把这个工作引伸到倒水的技能学习，也有研制数据手套，里面有三十六个关键传感器，能够检测人在操作过程当中所有关节的角度和压力信息，通过它来构造数据集进行技能的学习。

基于主动模仿的学习是目前技能学习非常重要的过程，就是把好的学习行为做下来，这就引出一个很重要的问题，就是传统的示教特别依赖于示教者的动作行为，学习非常烦琐，也是被动的，我们克服这种能力？为了简化这个过程我们做了一项工作，就是想说示教者和模仿者，如果是行为的概率特性一致的话这个学习就是成功的，如何利用这个差别指导学习？这是数学上的一个问题。最近我们做了一项工作，就是概率差别可以归结为力动力学的测度差别，通过这种优化我就能够做到基于主动模仿的学习。

装配过程当中拧螺丝是非常重要的环节，学习得好与不好影响不是很大，但恰恰是拧螺丝这个行为是非常重要的，能不能把这种学习的机制搞好？通过这种机制让机器人去学习，然后机器人操作各种各样的行为，让操作比较好的做老师判别一下你这两例学得比较好，你这两例学的还有问题，操作机制也有一些问题没有教给你，再通过机械学习和人的示教对比学习弥补这个差别，从而让拧螺丝的过程成为学习能力的过程。

这是我们做的一项工作，四足机器人漫无目的地移动，公安部希望它能够沿着某种气味找东西，按照这个方向学习，所以我们现在建立了一个产生库，通过专家自动产生这个库，并且通过差产生的轨迹做了一个软件系统，我们设计了各种场景展示这种能力。

最后我们来做一个展望，今天上午第一场报告谈到了云端智能，其实云端智能在未来的技能学习非常重要。技能学习需要通过各种传感器获得信息，包括视觉、听觉、触觉、穿戴设备，也可以通过云端和网上信息找到各种类似的操作行为。这些数据应该怎么处理？如何把这些多模态的信息分解在一个一个动作，并且形成多模态的配对？这就牵涉到技能的分割和解析的过程，通过这样两个过程我就可以做操作技能的表达，这种知识表达是分层的，然后在这种基础上做到技能的学习和技能的增强，可以做各种各样的事情。我们国家3C行业当中一个最大的问题就是非标准件的安装和插件的操作，因为标准件有大有小、各种各样，宽的线窄的线，机器人有没有这种能力？宽带可以插，短线也可以插，这就需要技能迁移和增强学习。

大家都知道，我们国家3C行业目前的产值是15万亿，而我们国家的GDP是90万亿，很多标准件装配都可以用机械完成，但是非标准件和插线现在恰恰是通过人工去做的，如果我们把这部分代替可以把工作效率提高200%以上。做人工智能一定要做有用的人工智能，机器人一定要落地，我们特别希望这项技术能够改变我们国家3C行业制造的现状，造福我们国家的智能制造发展。

现场嘉宾提问：现在随着智能机器人的延伸，大家在接答电信移动联通客服的时候会不会遇到这种情况，人工客服比较忙，由智能提供服务？之前我遇到过这样的问题，就是在拨打客服的时候，智能机器人跟我对话，我向它提问说我的话费是多少，智能机器人告诉我它听不懂，老是在重复同样的问题，未来这个问题能否得到有效的解决？

孙富春：

这个问题提得特别好，有人说2017年是对话机器人的元年，也就是说对话机器人从此进入我们的家庭。今天我们订飞机票、移动话费都有聊天机器人帮助我们。刚才你谈到的问题就是目前聊天机器人的知识库做的还不够全，就是你提的问题并没有涵盖在它的知识库里面，它难以产生推理。我们要让我们的机器人学会学习，这是2018年国际人工智能大会提出的重要议题，叫做元学习，要让机器人学会学习，我的数据库没有覆盖的地方，能不能让它学会回答类似的问题？就是和它很接近的问题向外推广，学会学习。2017年是聊天机器人的元年，2018年是元学习的推出，不久的将来一定能够满足在特定行业当中的聊天需要。清华大学作为国家智能实验室专门研制了一款餐厅里的聊天机器人，基本可以涵盖一个餐厅点菜的能力。

现场嘉宾提问：现在人工智能和云这么普及，机器人越来越普遍在生活当中，安全性的问题一直没有什么解决方案，未来这肯定是越来越重要的问题，因为我们看过很多科幻电影都是机器人遍布之后叛变人类了，这也应该是未来一个非常重要的话题，不管是服务机器人用到家庭还是工业机器人用到工厂，未来安全是很重要的，现在有没有这方面的解决方案？

孙富春：

这个问题提得特别好，其实你这个问题包含两个问题：一个是机器人被动犯错，一个是机器人主动犯错。被动犯错可以通过传感器技术，通过设置安全算法解决。主动犯错牵涉到机器人是不是有自我意识，这个问题是目前讨论最多的话题。我自己听到的有三个重要的学说：什么叫意识？意识是记忆，也有学说认为意识是量子纠缠，还有一种学说认为意识是感知包，没有感知怎么形成意识？将来机器要产生意识，也要有自己的语言，人类是有语言才产生更高级的智能，所以我想意识距离机器人还会很远。为什么？人是探知产生的意识，硅是不是能够产生人的意识？科学还是要不断研究，但是有一点可以告诉你，现在我们在把碳智能和硅智能结合研究新型材料，未来会不会让机器人产生意识？这个问题还在研究的过程当中。

龚克：下面有请猎豹移动董事长兼首席执行官王兵博士带来主题报告，题目是“机器人的下一站，开放、场景和生态”，应该就是昨天发布的白皮书里的操作系统。

王兵：

各位领导、各位嘉宾，大家上午好，我是来自猎豹移动和猎户星空的王兵，今天和大家聊一聊我们AI赋能的算法和我们的一些工作。

最近特别热的一个主题就是5G，大家都在讲5G会对我们的生活、会对我们的工作、会对我们的行业带来什么变化。为什么5G这次有这么大的冲击？通讯行业也变化了很多，因为我的第一份工作是做通讯行业芯片，做的是调试解决芯片，当时我们公司在行业的市场份额还是第一。固网到移动通讯一直到2G3G和4G，我们建立的大部分都是人和人、人和商业之间的连接，很多环节已经被数字化了，今天买东西也好，看视频也好，消费内容也好，很多环节今天就已经被数字化了。

5G真正带来的变化是什么？物理世界将会被数字化，因为5G覆盖的面可以更广，成本更低，流量更大，延迟更小，可以让我们把整个生活的环境，工作的环境，企业的环境装上更多的传感器，这些传感器都能够上网。我们有一个说法叫做万物互联或者泛载传感，实际上就是今天用非常低的成本可以把物理世界高精度、低延迟的数字化，数字化带来的后果就是非常深刻的变化。

之前我们一直在说线上和线下，互联网公司是线上的公司，传统行业是线下企业，线下企业很多时候没有办法进行效率上的竞争，为什么不能进行效率上的竞争？原因就是没办法数字化，如果有了5G，能够把很多线下的行业、传统的行业大规模数字化，这样的企业本质上也变成了一个线上的企业。如果我们的通讯能力足够强大的话可以把整个地球数字化，没有传统行业和线下企业，所有企业都会是线上企业。

这种变化也会对机器人行业带来特别重大的影响，因为我们在做机器人行业的时候都会遇到通讯的问题，很多场景下部署机器人，要么就是WiFi覆盖范围不够大，很多地方有盲点，或者是以前的4G网络还是不可靠，人多的时候连不上网，有了5G以后对机器人行业，包括所有智能硬件行业将是一个巨大的帮助。

猎豹移动是一个美股上市公司，之前主要的业务是做移动端的工具和内容产品。我们公司经历过好几次转型或者跨越型增长，傅总最开始创业的时候是做PC安全工具，2012年的时候iPhone和Android系统都起来了，我们看到了移动端的机会，后来猎豹转型做移动端的工具产品，很快获得了很大的市场成功，然后就在美国上市。之后我们也做了移动端的内容产品，包括很多轻游戏，这样的过程当中我们已经从PC转型到移动端的公司。

最近三年时间我们通过投资猎户星空正在酝酿下一次转型，这次转型是什么呢？我们看到AI时代来临了，傅总三年前就创立了猎户星空并且做了布局，包括5G通讯技术会让整个传统行业非常深刻地数字化，数字化的结果就是会从一个传统的C端互联网时代进入新的B端或者产业互联网的时代，我们希望在这个时代运用技术能力、产品能力为更多的企业服务。

猎户星空是三年之前我们成立，专注于做人工智能和服务机器人技术的公司，猎豹移动也是我们最大的股东。为什么要做这个战略转型？因为我们之前做的所有产品，不管是PC端还是移动端，本质上是依赖于别的生态的。PC端很简单，依赖于Windows和Intel，没有Intel的芯片和Windows的操作系统什么都做不了。移动端就是两个巨头，苹果和Google，没有设备端的支持，没有操作系统的支持，什么工具都做不了。我们本质上所有业务都是依赖于生态系统，就是让业务存在一些风险点。进入AI年代，我们希望自己拥有一个平台，能够自己打造一个生态，花了大量的力气和资源投入去做猎户星空这家公司，可以通过猎户星空建立我们自己的生态环境和平台基础。

这张图看上去有点复杂，其实核心思路非常简单，我们认识到AI这个时代，包括服务机器人这个领域本身不是一个单点的能力，而是一个极其复杂的系统，单纯地从基础能力来讲，这里包含了芯片的能力、算法的能力、底层系统的能力、应用的能力、商业智能的能力。目前我们看到两个比较大的应用领域：

首先是在服务机器人领域，其实可以用在相当多的商业场景，我们已经有在几十个不同的场景有服务机器人实际落地的案例，通过我们打造服务机器人的过程其实有大量的技术积累，比如语音视觉导航和算法积累，包括芯片定制能力、系统能力和产品设计能力，这些能力可以赋能非常多的行业，通过以模块和智能硬件的形式赋能大量的传统行业。

今天无论是AI还是服务机器人行业都是很难做到标准化的服务，不能依靠一个算法在所有场景工作得都非常好，所以一定是需要针对每一个场景把我们的算法进行优化，把我们的AI能力进行优化，或者把服务机器人产品进行优化，这样的话需要非常快速、非常有效的定制方法。

我们推出了三个操作系统，分别是语音操作系统猎户星空语音OS、机器人操作系统RobotOS和基于机械臂的操作系统ARMOS，可以把底层技术在每一个场景极其高速地做场景化的定制。

最近有一个名词特别火叫做“私域流量”，以前是叫做KOL，找到一个明星网红代言，能够带来大量的流量，现在我们发现这件事情越来越不好做了，要么就是太贵，要么就是这样的KOL越来越少，是不是可以利用长尾的流量集合到一起变成私域流量，形成足够大的流量入口。这和服务机器人AI落地有很大的相关性，因为服务机器人没有单一大客户和单一大场景，会有非常多的场景、非常多的客户，每个客户都可能需要定制，所以我们取了一个名字叫做私域定制。这个含义非常简单，就是可以根据用户的需求非常低成本、非常快速地去定制一款用户体验非常好的产品。

为什么我们能够做这件事情呢？因为行业当中有很多不同的公司，有些是专门做机器人硬件的，有些是专门做算法的，还有一些是专门做集成和应用的，很少有猎户和猎豹加起来这样同时具备AI能力、软件能力、硬件能力、产品能力和服务能力的公司，我们具备这样的能力以后就能够做非常快速、非常深度的定制。

我们公司的核心基因还是互联网基因，为什么互联网基因看上去和硬件没有太大关系？其实互联网基因的本质叫做用户思维，不管是任何行业都是适用的。我们做硬件产品和算法产品的时候也是用互联网产品的思路在做产品优化，产品思维具体表现在什么方面？一个场景下落地一个产品，先用一个最简单的模板设计去给用户试用，根据用户的反馈快速调整每一个环节，根据数据快速收集用户反馈，根据这些数据的情况快速进行产品迭代，快速进行算法迭代，然后不断地升级我的产品，从而快速达到适应场景的能力。

我们也是一个非常专注于知识产权的公司，到目前为止我们成立三年时间，已经申请了400多项专利，其中300项以上是发明专利，如果要在这个领域深入做下去的话一定要有足够多的知识产权。

讲一讲服务机器人的基础能力，过去几年深度学习的一些发展，包括算力的大量提升，GPU的发展让我们今天可以在一些基础交互能力上接近人类的水平。语音方面我们有全链条的AI技术，高噪音环境下的识别、自然语言理解和OP，TTS方面我们都可以做到非常接近人类的水平，视觉识别反而是机器比较有优势的，可以用更好的传感器在很复杂的环境下用更大的算力，某些领域甚至能够超过人类的视觉识别能力，我们还有在室内自主研发非常低成本的视觉导航系统能力，通过猎豹有互联网整体软件的开发能力和应用场景的拓展能力。

具备这些能力以后，我们推出了很多服务机器人产品。

我们的一个比较重要的产品叫做“豹小秘”，这是一个五星级的服务接待机器人，主要功能是导览、导购、问询。相信大家在很多一二线城市商场也看到过豹小秘，我们已经在商场部署了很多台这样的设备。可以作为博物馆的讲解员、商场的促销员、自动巡逻，多模态的人机交互，并且可以做智能的引领。目前已经在几十个不同的场景落地，包括政务大厅、公安系统、学校、酒店、银行、图书馆、商场、零售店，非常多的场景。

目前还有一个大的品类就是运输型机器人或者送货机器人，其实也是线下场景有非常多的需求。我们有一款KTV场景下的运输型机器人，因为我们的长项是智能交互领域，运输型机器人也有一个头，可以和人进行智能交互，就是多模态的智能交互设备，“豹小范”可以在新零售场景主要找到客户进行营销。

我们目前已经有非常快速的定制能力，给定任何一个场景，可以三个星期出一个样机，因为我们所有底层能力都已经具备，三个月就可以进入量产，只要有用户需求，给了我们一个场景，了解这个场景的用户需求以后可以非常快速地针对这个场景做服务机器人的定制。

我们展台有很多消费级的机械臂，非常应用于不同的消费场景，可以模仿咖啡大师的动作，做出的咖啡也是世界级水平。当然，哪怕是咖啡大师做二十杯咖啡之后手就开始抖了，没有办法保证再做出高品质的咖啡，机械臂是可以一天二十四小时持续工作的。

我们有一套专门针对机械臂的操作系统叫做ARMOS，通过这个操作系统不用编程就可以快速地为一个场景定制应用，无须任何编程。

服务机器人三部曲究竟是什么？第一阶段是技术积累，形成技术闭环，比如我们首先要有语音视觉导航底层算法的能力，软硬件的能力，应用开发能力，操作系统能力。这些能力具备以后就有足够的技术积累去做一个服务机器人，但是不代表已经能够形成好的产品，所以第二阶段叫做产品闭环，这个时候就要给定一个场景，选择怎样的技术，做好怎样的产品设计，怎样做好算法优化和所有细节应用层面的优化，这些东西都形成以后在这个场景下真正做到有用。

我们认为这个环节就算完成，产品闭环完成仅仅是有用，其实我们真正把服务机器人或者智能硬件落地到传统行业或者场景，最终目的是要把这个企业数字化、在线化，所以最终会通过服务机器人，使用服务机器人以后可以把所有数据收集起来，要到一个商场问询台，一天下班的时候你问服务员用户问了什么问题，估计很难记住几个问题，也是很难总结的，如果我们用的是服务机器人，用户所有的交互状态我们全部都可以记录下来。

本质上这个环节商场已经实现了数字化，通过这种数字化的环节，我们可以帮助商场打造商业大脑，这样的话就可以知道今天用户究竟关心什么，来了多少人，用户组成是什么，男生多少女生多少，小孩多少老年人多少，关注的问题是什么，有没有什么问题需要解决，这样才是真正的商业闭环。

为什么会有两个看上去不太相关的业务，一个是服务机器人业务，一个是AI相关业务。前期我们花了很多时间打造基层能力，然后把底层能力组合做服务机器人，通过场景收集数据，通过场景用户需求，本质可以反向反馈到算法的提升。通过算法的提升，我们可以服务更多的客户，这些客户就是所谓的广义机器人客户，或者是AI赋能的客户。这些客户是在各行各业，也有各种各样的需求，本质上就是我刚才讲的最大的核心点，所有这些企业都需要更智能的设备，也都需要把业务数字化、在线化、智能化，这就是我们通过服务机器人打造的底层技术可以帮助他们做到的事情。

这些是我们语音全链条的技术，麦克风阵列的识别，原厂大空间高噪音环境下已经做到效果非常好了，包括唤醒、识别，整套技术我们都可以提供第三方使用，也有大量的应用场景，各种各样的垂直行业，车载、家居等等都可以使用。语音OS是目前国内智能音箱领域得到广泛使用，大概三分之一的智能音箱产品都是我们语音OS系统支持，包括喜马拉雅音箱、小米小艾音箱、垂直AI音箱、我们自己的音箱、美的华为音箱都在使用我们的语音技术。

去年我们推出了一款专门为语音AI能力定制的芯片，现在我们和喜马拉雅合作的音箱当中已经发货了100万片，工业OCR其实是一个非常有大量需求的领域，比如一些快销品牌的序列号，有些东西老旧或者经过一段时间以后人也识别不出来，通过深度学习的方案，做了很多优化以后，我们可以达到比人类识别更好的水平，并且成本也很低。

智慧办公方面，很早之前我们自己总部就是全部人脸办公、人脸支付、人脸会议室登录，人脸闸机全部使用，这套方案和技术我们也在陆续输出给很多合作伙伴，方案特点是反应速度特别快，20毫秒就能完成识别，现实场景可以达到98%以上的准确率。

我们可以把语音识别多模态交互能力输出到各种智能设备，比如地铁站售票机、政府大厅问询机、银行酒店自助设备等等。底盘技术是我们自研的一套算法，可以使用国产几百块钱的激光雷达达到非常精准、非常稳定的导航系统，目前这个能力也作为一个模块向第三方输出。

最后总结一下，我们公司的本质是通过猎户星空和猎豹在一起，利用全链条的AI技术，加上软硬一体化的能力和操作系统提供的快速定制的能力，加上和很多合作伙伴建立的生态系统，可以为各种各样的行业和客户服务。我们的远景是猎户星空、猎豹移动在一个机器和人共存的世界，通过科技让这个世界更美好。

现场嘉宾提问：我看过您送快递的那个产品，因为我自己有物业公司，这个场景非常需要，但是我也看过很多京东的产品，你们是用底下四个轮子寻找路线的机器，我觉得那个很不合适，建议使用自平衡的两轮车，小区当中有很多不平的道路和无障碍的通道，然后还要开电梯，今天电梯是平的，明天会出现两公分的高低差，是不是要让场景进入更多一些？

王兵：

我不太确定您讲的是我们那款产品，我们的是两轮驱动和四个辅助轮，而且是为室内设计不是为室外设计，所以可能和您的场景不太一样。

嘉宾：因为我看到上面写的是送快递。

王兵：这个叫做豹小秘，是KTV和酒店使用的。

现场嘉宾提问：：你们的操作系统能不能让用户可编程？

王兵：

我们就是专门这样设计出来，这个操作系统是不需要编程的知识和能力，也是一个全可视化编程的环境，就是在一个界面上面直接拖拉拖拽形成程序，最大的好处就是我们可以把代码直接生成，可以再去改代码，可以理解为儿童编程的概念，没有任何编程知识的情况下就进入快速定制的环节，基本上几分钟的时间就可以定制这样的机器人能力出来。

龚克：四十年前只有极少数专业人员可以用计算机，后来有了DOS操作系统，更多的人可以用计算机，到了Windows可见即所得，再到了iPad操作系统邻居家的孩子都会玩计算机，希望有一天我们的操作系统能够像iPad这样非常方便，可以很快地组合，也有非常丰富的APP，这样才能让我们的机器人真正走进千家万户，希望猎豹继续努力坚持下去。

现场嘉宾提问：我是做SLAM技术，及时定位地图构建，以后机械装置发展的过程当中定位精度也会遇到各种挑战，比如现在室内定位技术可能会有一些比较深入研究的，自主定位技术还有哪些亟待突破的方向？有没有什么期望或者展望？

王兵：

不管是室内定位还是室外定位，以后更多的趋势会是人类的导航能力，SLAM技术本身是要建图的，但是人没有建图能力，人是语义地图，看到一个地方就会把场景抽象成一张图存在大脑里面。我知道场景下有哪些物体，物体之间相互关系，只要记住这个就行，根据这个去做移动判断。深度相机、各种各样的相机超声波传感器方面真正达到我们非常高精准的室内和室外导航，其实还是有很多技术要去研究的。

龚克：最后我们有请康力优蓝搁起人科技有限公司创始人刘雪楠带来主题报告，题目是“人性化设计在服务机器人场景应用中的发展趋势”。

刘雪楠：

非常荣幸能够在这里和龚校长、孙老师以及各位服务机器人行业的同行一起就服务机器人产业要素进行分享和交流，康力优蓝已经是服务机器人行业十年的老兵，准确地讲，这个过程当中趟过很多的雷和坑，今天要分享的第一个观点就是如果想要少趟雷少掉到坑里的话，首先对服务机器人的全要素要有准确的认知和判断，也要在产品创造的过程当中、行业选择的过程当中准确的取舍，到底用哪些硬件，如何有更高性价比的消费者喜欢的产品贡献给不同场景的，这是作为产业的服务者需要重点考虑的问题，所以我的第一观点就是服务机器人需要全要素发展。

服务机器人的全要素包含什么？就是字面上的四字词，智能、服务、机器和人。智能是大家从不同的维度可以分析，我这里讲的是偏类人型的服务机器人，一旦接近人性化就要和人的特点关联。佛学有一个分法比较好，叫做眼耳鼻舌身意六觉八识，如果对应人工智能的话，眼就是机器视觉，耳就是听觉，鼻就是感知智能，舌是语义，其它的就是机械运动和算法等等，阿拉耶识和莫纳识针对的就是云平台、大数据、算法和边缘计算。实际上佛学给了一个很好的理论框架，我们公司一直按照佛学的观点设计整个机器人的人工智能构成。

服务也很简单，就是场景应用，目前服务机器人场景应用刚刚开始，未来就像手机上有几十万、上百万APP等着我们选择，给予机器人开发的APP也会越来越多，有的是和硬件结合，有的不需要和复杂硬件结合，现有的手机、Pad就能够支撑，这种场景应用正在持续裂变。更重要的是，服务机器人有高度的机械运动性，包括可移动能力，手的上下肢的移动能力。基于这样的移动能力，机械运动也是必须作为服务机器人产业要重点思考和分析的。目前我们能够看到的比如机器人头面部的运动，躯干运动包含上肢手臂的运动和腰部的运动，不同的场景都会有些需求，下肢运动就会更丰富了，包括过去的轮式的、履带式的，还有没有成功地被产业化的固态行走，当然也包含今年8月20日刚刚发布的轮步结合，我们称之为“哪吒式运动模式”的形态。

更为重要的是，智能服务机器三项其实在过去的工业机器人时代和其它电子设备时代都实现了，但是人性化在未来几年内可能会得到更大的发展和突出，因为人类第一次开始让机器人扮演一些人性化的角色，比如陪伴小朋友、照顾老人等等，除了有工具化的因素还有感性的因素，而且人性化的因素还要考虑到机器人与人之间的社交，机器人与机器人之间的社交，机器人在社会当中的地位，比如这个机器人在家里管我叫爸爸，来了一个同事好友就不能把这个辈分叫错了，类似这种事情很快就会在机器人发展规则当中成为规则和技术进行深度的发展和建设。

服务机器人会呈现一个类人式的成长，在座的各位从一个小朋友的阶段发展到今天，上学阶段最多接触的是德智体美劳五个方向的发展。机器人是要有安全以及规则的建立，接下来肯定都会有统一的机器人操作系统，统一的机器人身份认证和统一的动作代码，后面我们也会做更进一步的介绍，包含机器人以后还会有很多的行为和形式的规则。

机器人智的建设无论是底层的基础还是场景应用级的二次创意开发，这是一个持续裂变不断发展的过程，目前包含我们的机器人也已经在很多行业都有很深度的人工智能发展和设计，更重要的是机器人体的发展需要经历几个方面，就是机器人和人类的器官已经不一样了。眼睛会有单目摄像头、双目摄像头、体感摄像头、红外摄像头，黑夜看不到的东西你是可以看到的，耳朵不能做到眼观六路耳听八方，但是会比人类识音能力更强大，耳朵甚至不一定长在身上，可以和身体有一定距离，手就是机械人运动能力，目前我们看到的服务机器人，抓个苹果可能还颤颤巍巍，但是已经能做了。

之所以会有这样的情况，因为我们和很多公司都是这样思考的，需要考虑成本，没有把工业级别的机械运动直接叠加过来，如果叠加过来的话，机器人现在特别细微到微米级，甚至比微米级更加容易做到，作为服务机器人，只是接下来的几年当中要把成本和性价比的问题解决，这种运动能力特别是进入生活的运动能力也会全面提升。

刚才说过，底盘是履带式的，轮式的，轮步结合的，根据不同的场景会有不同的变化。感官又是机器人完全超越我们人类的，我们深吸一口气，谁能告诉我这个房间PM2.5有多少？没有人能知道，但是机器人可以，谁能马上告诉我这个房间里有多少个人？最快的速度数一遍？机器人可以通过感应器快速做到和人类不同的很多事情。我们对器官有充分理解的话就知道机器人的建设过程当中针对不同的场景，要对不同的感应器，不同的硬件结构甚至材料进行选择，然后推出超越人类的一些能力的机器人。

身体的成长也包含机器人身高和大小的变化，不一定和你长的一样高，可能小的比苍蝇还小，承载不同的工作能力，最接近于我们人类生活的还是人形化的机器人，会和人类数字比较接近，因为所有的这些场馆、厅台楼阁都是照着人类的适应性做的，想要一个更好的工具服务的话毫无疑问也得照着基本接近人类的感觉建设。

更为重要的就是运动能力，能动手就别瞎吵吵，目前很多机器人发展的还是互联网的或者移动互联网的能力，基本上拿Pad也可以解决，机器人接下来的发展重点方向就是能动手就别吵吵，肯定是上肢要有充分的发展。技术不是问题，成本是问题，就是如何把低成本的机械臂应用到生活，应用到服务机器人身上，这是接下来的一个突破。机器人通过位移以后抓一个苹果，抓一个水果，抓一瓶水都不是问题，成本也不贵，而且我们会持续地对它进行训练。

个人有一个观点，认为轮步结合有可能是更高效的一个方向。飞机是学着鸟来的，大家也没看到飞机扇翅膀，因为必须讲求运动效率。世界最棒的机器人在我们看来是变形金刚，另外一个名字是汽车人，汽车人的运动模式是什么？轮步结合，所以我们认为走入我们生活主流的服务机器人的运动模式应该是轮步结合，我们推出的“优优小哪吒”就是这样，综合成本是世界上所有步态机器人的几十分之一，已经完全可以量产了，也可以上下台阶，只是今天刚刚发布，上台阶还有点慢，但这只是过程和时间问题，我们会进一步优化算法和材料，提升这种运动能力。按照三年一个品类的发展过程，最后运动的效率会非常之高。

大家如果感兴趣的话一会儿可以去看它打一套太极拳和上台阶，现在上台阶还略显笨重，但这也是我们短期的策略，我们认为该慢的时候就可以慢，轮式的话快的时候就可以上台阶了，完全可以满足当前的需求。

刚才讲到德智体美，美是机器人艺术的创造性，这件事最难了，机器人短期做不到，但是人类要把美感赋予机器人。这是我们公司创造的部分机器人的外观，我们比较注重这种人性化的设计。这是今年我们做的送给小朋友的机器人Hello Kitty，漂亮与否实际上也是一种生产的战斗力，颜值也是一种生产的战斗力。我们准备做一款能滑冰的机器人，可以在冬奥会上滑冰。

机器人的场景智能也在不断升级，就是它的劳动技能。第一步做的是角色的替代，比如司法咨询人员已经可以被替代了，迎宾接待可以被替代了，博物馆导览员绝对可以被替代了，甚至是热场的舞蹈演员完全可以被替代了，现在机器人吸引人的能力要比一般的舞蹈演员强很多，胜任的角色非常之丰富。

机器人正在从单一的场景智能变成综合的场景智能，也有整体的解决方案，无论是司法、电力、文化和党建。举个例子，在座的很多人可能是中国共产党党员，也有很多人不是，但是如何让每一个人都把党建或者党课讲好？人可能做不到，机器人完全可以做到，不厌其烦地把很多东西讲得非常精准，所以整体方案升级的过程我们也在实时看到。参与这些的不是国内小公司，都是国内最顶级的公司在做这项工作。

我们公司正在和日立做养老机器人，初步方案也已经做好了，包含健康的监测、用药的提醒，和老人一起做健康体操，紧急呼救和监控等等几十项功能，这些功能都会在实际的养老过程当中有典型的应用。再就是智慧酒店，机器人完全可以替代酒店的前台接待，你去办房卡直接找机器人做人脸识别认证刷身份证打小票，这是普通人做不到的，机器人是只要登录就知道你的使用习惯。

机器人将来可以替代一些寺庙神圣工作者，这是我们曾经给龙泉寺做的贤二机械僧，也是一个网红，非常多的人想把这个和尚请回来，但我们认为这是一个神圣的代表，所以我们只做了一台首版，目前供奉在龙泉寺。

人类和动物最大的差别就是善于使用工具，这里想要和大家分享的是，智能服务机器人第一次变成了一个智能的工具，同时又是智能工具的使用者，这是和过去所有工具的最大不同。到了工业机器人的时候仍然是一个工具，服务机器人已经变成了既是工具又是工具的使用者，所以我们用八个字形容未来的趋势，就是接下来会呈现智行合一、人建合一的态势。所谓的智行合一就是智能和行为、智能和动作会结合在一起，机器人、服务机器人会完美地呈现这一点，人建合一就是人性化和工具化完美结合，不再是特别生硬的工具。

今年我们看到的巡逻机器人是坦克，还是工具，坦克跟你打个招呼你会觉得怪怪的，明年我们再推出的巡逻机器人不是必须是人，但是会非常人性化地开始和你打招呼，你会觉得它是一个生物。所以接下来就是两个趋势：机器人会充分使用各种工具，机器人会是工具化和人性化非常好地结合发展。

既然机器人既是工具又是工具的使用者，接下来我们的重点任务就是要充分培养机器人的使用者和创造者。作为一个新物种，机器人的使用者和创造者不亚于过去电脑的使用者和创造者，我们看到的巨量市场就是人工智能和机器人实验室的现场。只要有过计算机教室的学校都会有人工智能实验室，我们的观点就是无AI不Robo，无场景不智能，没有充分智能的机器人不叫机器人，如果只是插拔式的玩具的话是不可以担当很多AI的二次开发和创意，不足以支撑中国乃至世界儿童这种大脑思维的变化。无场景不智能，如果只是在桌面上玩玩最后创造不出来的东西，不亚于很多学电脑的只学了点打字，而且学的还是五笔字型打字就觉得是学电脑了，我们的主观点就是一定要做到无AI不Robo，无场景不智能，应用为本，创造为魂。

围绕这些，目前我们是四个特点：

真正全人工智能硬件作为教学载体，我们使用的智能机器人就是模块化的智能机器人，1.1米的高度，里面有CPU、GPU、MCU、3D摄像头、激光雷达等等，而且模块化设计可以插拔，也和全套的知疼家居系统连接在一起。全套26组不同的感应器，可以让中小学生无线和机器人同联，知道机器人可以借助感应器去做哪些二次场景应用。

全面人工智能要素的课程设计，包含智能服务机器人，人脸识别、物体识别、人体追踪、室内定位导航、行为决策等等，只要我们开发过的程序都和我们的战略合作伙伴非常好地完成了二次定制和开发，可以开放给中小学生和大学进行定制化开发。目前我们有小学、中学、职教和高校的版本，硬件也有这样的差别，就以优灵6为例，主要合作者就是大学。

全套可视化AI编程系统，中小学生不用写代码，拖动色块就可以很好地完成二次编程，包含迎宾接待、会议导览等等，几十个场景都可以进行二次编程，更为重要的是编程之后可以和行业应用相结合，实验课程是场景应用级的实验，对应的都是医疗、安防、养老等等，这些场景应用都是我们和不同大型公司共同开发，这样一上来就可以让参与这样实验的中小学生知道未来的机器人以及今天的机器人能够做到哪些事情。

更为重要的是，我们也有一个培养技术创造者，就是行业技术参与者的平台，原创生态系统开放平台，但是我们不敢说自己有操作系统，关于操作系统我们也有一些想法和大家分享。我们有个性化的外观定制系统，智能服务应用设计系统，也有行业定制系统，场景交互系统，我们和国内外不同的公司都有很深度的合作，特别是在结构和外观方面我们认为是有比较绝对性的优势。

我们是国内和国际在服务机器人领域唯一采用模块化设计的，我们的机器人都可以拆解成几十块，非常便于机器人的二次维修、开发、组装、运输，非常便于定制。我们最新一代的机器人已经是轮步结合，运动模式也很强。

服务机器人不能太单纯，目前服务机器人在不同的场景应用都是用于医疗的就是用于医疗的，用于安防的就是用于安防的，用于酒店的就是用于酒店的，每个人使用的过程当中觉得不够聪明，很重要的原因就是太单纯了，到了酒店跟他们说养老的事情他们不懂，但是要跟养老来说的话非常清楚。怎么才能让它不单纯呢？我们会和一群合作伙伴做到四大统一，统一机器人的身份认证，统一机器人的数据共享关系，统一机器人之间的社会交互系统，统一机器人的操作系统。

基于这种统一，机器人B端和C端的数据，学校端、家庭端应用都可以全面统一，我在家里和机器人聊天，去了酒店它还能认识我，我又换了个饭馆，服务员机器人都能认识我，这些数据都是相通的。

我们公司有一个软件叫做I Know You，机器人持续对你进行用户画像，有点类似于大众点评和今日头条，通过持续对你进行用户画像，能够更精准地提供更优势的服务。

我们认为机器人正在从单挑模式进入打群架模式，一家公司开发的内容全场通吃是不可能的，因为人类正在做的是五十年内把人类所做的所有事情都赋予机器人，一家公司把这件事情都干了不可能，我们认为快速发展模式、正确打开方式，难听地说就是打群架，往好听的说是我们共同完成几场战役，把机器人推向一个更高的高度。

这里我们给中国最大的服务机器人联盟RFC中关村双创智能服务机器人联盟做一个广告，这个联盟是国家唯一批准注册的服务机器人联盟，中国最好的服务机器人企业，包含本次参展的服务机器人企业都是这个联盟的会员单位，无论是技术的供应方、生产方还是销售方都要加入这个组织，我们共同做一些打群架的事。

规则有界，AI无疆。人工智能是无穷无尽的，可以持续发展，但规则是有界的。就以操作系统为例，每个国家的操作系统会不一样，因为事关国家战略安全。中国会有独立的操作系统，国外的操作系统不可能跑到中国指挥中国的机器人，因为这件事太危险了，比控制中国的核导弹还危险，你家机器人随时纵火就纵火，操作系统会有序统一。

机器人会有独立的身份证，就像每一台车都有独立的车牌号一样，未来哪个机器人伤人的话必须追根溯源，所以机器人要有独立的身份证，国家目前也在推动，只是机密我们不能多说。机器人会有统一的社会规则，I Know You是一种形态，也会有统一的社交关系。

服务机器人的发展会由渐变向突变发展，刚才说的所有的都能够实现，但是要有一个过程。十年前我做的一台机器人叫做I Love You，只是一个声控机器人，能力要比今天的Hello Kitty差得很远，再过十年时间一切比这个迭代速度还要快，所以要用渐变到突变的观点看待，想要明天一下子怎么样是不可能的，但是十年的跨度一切皆有可能。

这种发展的趋势会从单纯的移动互联网技术为主的人工智能技术趋势变成仿人形和仿人性两个方向：仿人性的重点发展是结构科学、材料科学和仿生模拟，就像战斗机一样刚开始发展出来，大家觉得发动机很重要，到了今天大家不是觉得F22和中国J20隐身材料、轻型化、结构化都是非常重要的吗？所以机器人结构化、材料仿生模拟化都是重点，重点的方向就是仿人形。仿人形就是机器人的人性化、社会化、交互化设计，目前我们只是刚刚开始做这种仿人形的优优小哪吒，十年内会有快速的裂变和迭代。

最后还有一些想法和观点和大家分享。

未来十年以内，甚至个人认为五年以内家家都有机器人，现在家家都有智能音箱已经接近了，接下来家家都有机器人。我们明年会推出家电级的机器人，至于这个机器人是干什么的我们不能说。2B机器人很多单位都在买，总量会像汽车市场一样大，2E的话只要有电脑教室的中小学和大学都会有人工智能和机器人实验室。我们看到的市场总量有多大呢？白电市场加上汽车市场加上电脑市场。

就像习大大提到的，舵稳方奋起，风劲好扬帆，机器人一定是私有化、个性化和定制化的。我们说哪个明星特别漂亮，大家不可能最后都娶这一个明星，手机、电脑都有这么多的厂家，机器人一定是极个性化的，所以每一个人都有机会。

最后以这两句话作为我演讲的结尾：NASA航天中心有这样一句话，只要人类能够梦想的，就一定可以实现。目前我的理解是只要我想到的，一般五年之内我的团队就可以帮我实现。另一句话是习大大鞭策我们的，人民对美好生活的向往就是我们的奋斗目标。

2019世界机器人大会——第五阶段：人工智能与融合

山猫M20 VS Spot/GO2W：轮足/四足/轻商用机器狗横向测评

持续加大研发投入、推进技术创新滴滴自动驾驶发力

见证具身智能技术重要里程碑，智元A2-W从实验室走向产线

智元机器人完成全球首次通用具身机器人工业现场常态化作业直播

2025RoBoLeague机器人足球联赛总决赛在北京亦庄开赛

智元机器人主办56万美金Manipulation挑战赛全球开启

2019世界机器人大会——第五阶段：人工智能与融合

山猫M20 VS Spot/GO2W：轮足/四足/轻商用机器狗横向测评

持续加大研发投入、推进技术创新 滴滴自动驾驶发力

见证具身智能技术重要里程碑，智元A2-W从实验室走向产线

智元机器人完成全球首次通用具身机器人工业现场常态化作业直播

2025RoBoLeague机器人足球联赛总决赛在北京亦庄开赛

智元机器人主办56万美金Manipulation挑战赛全球开启

持续加大研发投入、推进技术创新滴滴自动驾驶发力