人机交互主题:学习交互以及从交互中学习

Jens Kober现任荷兰代尔夫特理工大学副教授。他曾同时在德国比勒费尔德大学的CoR-Lab和德国欧洲本田研究所担任博士后学者。2012年毕业于达姆施塔特工业大学和马克斯普朗克智能系统研究所并获得工程博士学位。在研究方面，他曾荣获每年授予欧洲机器人学最佳博士论文作者的Georges Giralt博士奖以及2018年的IEEE机器人与自动化学会青年科学家奖。他的研究领域包括机器人技术、机器学习和控制系统。下面是荷兰代尔夫特理工大学副教授Jens Kober带来主题报告，题目是“学习交互以及从交互中学习”。

荷兰代尔夫特理工大学副教授Jens Kober

谢谢主办方邀请我参加世界机器人大会并发言，我要讲的是通过学习进行交互，并且在交互里学习。

视频当中是当今最先进的人形机器人，可以做非常令人赞叹的事情，虽然还是很保密的，但肯定有些机器人的编程人员好几个月忙着做这种编程，还是有些小的变动造成问题出现。我们并没有听过人工智能应用在机器人领域取得巨大的成就，实际上这些案例还是有差异的，所有左边的这些更多的是通过感知去看去听，也是和高层推理有关，但是和身体关系不大，人工智能做的是这些相关的。

人工智能机器学习的具体挑战是什么？首先是保证安全性，我们不想破坏周围的环境或者伤害人类，而是希望能够快速学习，因为数据是很昂贵的，要是想在真正的机器人来做研究的话，需要收集数据犯错，这会花很长时间，除非在Google可以有很多机器人不分昼夜地工作，这很令人赞叹，但是对其他人来说不太务实。

怎样避免这种问题？昨天几位嘉宾都有讲到这一点，就是把之前的模型和控制的知识加入进来加速这样的过程。我们不希望很多没有明确的参照数，同时也希望能够实时工作，我们需要适合不同领域的做法。

这是一个博士生拿着深度强化学习的做法运用在机器人身上，任务是去接近绿点，左边是非一传统的做法，刚开始看起来几乎是差不多，继续学习的话可以看到教科书式的做法失败了，因为机器人忘记一开始学的是什么，这是灾难性的遗忘，右边是把额外的信息提供给它，预防这种灾难性的遗忘。

具体的研究领域就是运动技能，什么是运动技能？Sami Haddadin之前也做了介绍，这是一种简单的运动，在打网球的时候需要往前往后或者跳舞，也是非常复杂的行为基础，需要改变简单的行为，然后实现复杂的运动，所以需要学习新的运动，或者是微调一些运动。

实现这些目标有些相辅相成的做法，模仿式学习展示技能，然后学生去做模仿，这些对简单任务来说是非常好的，但是有些做法还是需要去做练习和培训，也就是所谓的强化学习。哪些任务对机器人来说比较难？之前我看到一个视频，左右摇摆是有很复杂的动力学，环境当中也会有挑战。不确定性和变化可能会很难建模，如果想和人类进行交互的话，机器人就更难做了，因为人类更不可预测，所以要学习如何进行交互。

我们看一看人类是怎样学习的，因为经常会有老师、教练和学生之间的交流，刚开始有老师展示，学习过程当中也会反馈怎么改进，但是这个过程我们也在机器人学习当中做到了，应该把这种间歇性的反馈提供给机器人，很快地加快学习机器人这种复杂的运动，并且对人类来说也是很重要的。

怎样学习交互呢？这是小组讨论当中我的展示的图片，我的表妹当时十岁，正在学习一个任务，花了三十五次才把球放在杯子里面，机械臂的关节速度是这样的，运动命令造成状态的变化，每次变化会有一个回馈的信号，继续这样做直到达到T平方的数量。目标不一定是实现每次回馈的最大值，但是希望实现总体的最大值，所以如果不断地有状态和运动的持续变化，那么就会造成维度非常高、非常难学习，我们所做的就是从低维度表现某种参数标准。

强化学习的方法有很多，有些我们称之为政策研究，有些我们称之为加权回报，之前很多不同的东西都可以结合进来。横轴是状态，竖轴是你要采取的行动，这里我们来看一个好的行动和一个差的行动，需要关注好的例子，不去模仿差的例子，到了最后看起来的情况是这样。

这是把球扔进杯子的游戏，机器人第一次错过了，大概是差11米，第二次更近一点了，但是掉到了另外一个方向，两个案例当中从零到一的回馈是非常小的，如果做一个平均就可以更接近目标了，第三次可以有更多的考量，效果就会变得更好，第四次的时候就可以达到目标，不过事实上可能需要更多的数量。

如何帮助机器人去做这样的训练？就是机器自己模仿会模仿这个东西，第一次还是做不到，只差15厘米，第二次更多了，做了25次尝试以后就比刚才更近了，45次以后终于碰到了杯子，但是会弹出来，做了100次以后就可以用非常稳定的方式把小球甩进杯子。

提醒一下，孩子要练30次，机器人要练100次，这个结果已经很不错了，否则常规的方法可能要训练机器几十万次才行。

这里我们想拿一杯水来给机器人展示，可能机器人不能那么直接地学会，如果位移是指搬桌子的话就完全没有意义了，所以需要教给机器如何模仿我们的动作，这也是我们的研究，就是展示展示再展示，直到让机器做这样的总结。

我们可以用一种合并性的方法进行处理，包括用力和位置，以及相互的作用力和环境等等，使用同样的东西、同样的力做出不一样的展示。当然，有的时候也会使用不同的东西，看一看位置和力有没有相关的变化。

这里轻轻往上移了一下，现在灯泡就拧下来了，这里一共教了机器10次，也有很多单体动作，不过要有顺序才行。这里有预先定义的动作，每个顺序、每个方向都是预设的，每一步会进行不同位置的概括总结和学习，什么时候拧得快，什么时候旋转，现在灯泡就松了，之前往上稍微拽一下才能拧下来，否则不往上拽一下的话一直拧也拧不下来。

刚才说过，和环境的互动是一方面，和人的互动是另一方面，因为人是难以预测的，有的时候人会做一些很奇怪的事情，比如要保证人和机器尤其是人的安全，机器会探测人是在哪里施加的力。

这是机器获得的信息，右边的是真实的情况，进行了再现和组织，一个人的老师会给机器反馈，比如有人坐在键盘前告诉机器人下一步怎么去做，所以经过人的现场纠正，机器会很快地学会适应，然后学会怎么清理这些东西。

我们怎么进行强化学习或者从试错经验当中进行学习？探索的意思是机器人一定会尝试新的东西、新的策略，找出合适的策略是什么，我们一会儿会给大家看一个例子，这个例子是人机互动进行纠正以及反馈，然后把这个做成建模，加强机器的学习。

刚才这个人坐在前面，给了机器人一些建议和纠正，这样机器人就能够更好地试错，做了15次以后机器人可以很好地把球甩进杯子，20次以后就非常稳健了，这是一部电影在教机器人拳击手打拳击。

总结一下，这些都是机器人的小数据，也是机器人学习的限制，我们要知道怎么把仅有的数据变成真实的能力，不是练习的时候有多安全，而是练习应用起来安全性能不能保证。

我觉得最大的挑战是不确定性和变化性，这是贯穿人和机器互动的所有环节，具体到真实的人机接触会有更多的不确定性和变化，互动性的机器技能学习也要变得更加高效、更加直觉性，这样才能进入我们的日常生活，每一个人都可以教机器人去做我们想让机器人做的事情。

我觉得最大的问题是如何表达，把人的反馈给到机器人。这里是一些案例，很多都是游戏或者日常常见的东西，但在工业领域有很大的潜力，不一定要和人并肩工作，有些小规模的生产如果能教机器去做定制动作的话会很容易，比如农业、老年人护理、厨房或者餐厅的工作。

人机交互主题:学习交互以及从交互中学习

山猫M20 VS Spot/GO2W：轮足/四足/轻商用机器狗横向测评

持续加大研发投入、推进技术创新滴滴自动驾驶发力

见证具身智能技术重要里程碑，智元A2-W从实验室走向产线

智元机器人完成全球首次通用具身机器人工业现场常态化作业直播

2025RoBoLeague机器人足球联赛总决赛在北京亦庄开赛

智元机器人主办56万美金Manipulation挑战赛全球开启

人机交互主题:学习交互以及从交互中学习

山猫M20 VS Spot/GO2W：轮足/四足/轻商用机器狗横向测评

持续加大研发投入、推进技术创新 滴滴自动驾驶发力

见证具身智能技术重要里程碑，智元A2-W从实验室走向产线

智元机器人完成全球首次通用具身机器人工业现场常态化作业直播

2025RoBoLeague机器人足球联赛总决赛在北京亦庄开赛

智元机器人主办56万美金Manipulation挑战赛全球开启

持续加大研发投入、推进技术创新滴滴自动驾驶发力