筹备了半年,想通了技术路径,也就是去年春夏之交,陈建宇开启了自己的新目标:
打造人形通用机器人,以及搭载在上面的“通用智能”。
目前人形机器人存在的技术难题是什么?陈建宇总结了最受关注的三个方面:
首先,由于人形机器人具备高度集成性和复杂性,硬件本体构建具有较高挑战性;
其次是运动小脑的构建,如何控制双腿行走和操控双臂完成各种任务,还未被很好解决;
最后是人形机器人的“大脑”,如何将目前只有语言功能的大模型拓展到物理世界,并让其进行行为决策,是实现具身通用智能体至关重要的一环。
——这就引出近期最火的技术话题之一,具身智能。
5月的ITF World 2023半导体大会上,黄仁勋在演讲中明确表态,下一波AI浪潮就是具身智能(Embodied Intelligence)。
所谓具身智能,就是能够理解、推理并与物理世界互动的智能系统,可以理解为有身体,并支持物理交互的AI智能体。
而具身智能的终极目标,就是具身通用人工智能。以ChatGPT为代表的通用人工智能虽然带来了极大的轰动,但其只有语言与文本处理的能力。未来我们一定需要更加有用的具身的通用人工智能。
7月WAIC的具身通用人工智能论坛,邀请了包括姚期智先生、Sergey Levine、Anca Dragan、Koushil Sreenath、Jiajun Wu等国内外知名大咖学者一起探讨具身AGI的未来,内容涵盖决策控制、感知认知、本体构建、算力支持、大模型理论等。
小星也在论坛上进行了现场首秀,获得了大量关注。
国际上,一些团队已在这个方向上有了初步的成果:
今年年初,谷歌推出5620亿参数的多模态具身视觉语言模型PaLM-E,可以执行各种复杂的机器人指令而无需重新训练。
哪怕受到干扰,也能完成“帮忙从抽屉里拿薯片”的指令。
李飞飞团队也新近发布了具身智能最新成果,大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。
人类可以很随意地用自然语言给机器人下达指令,如“打开上面的抽屉,小心花瓶!”
陈建宇团队也在推进这方面的研究工作。
并且做出了世界上第一篇大模型结合人形机器人的学术工作。
他们用大模型来指导小星的上层任务规划,用强化学习来获取小星的底层控制器。
与此同时,还提出了一套新的框架来解决上层规划和下层执行之间的对齐问题,以确保下层控制能很好地执行上层规划的任务。
“我们发现,一些简单的操作场景,接入13B的开源模型就比较够用了。”陈建宇分享了实验过程中的发现,“作为定位家庭服务的机器人,对数理逻辑、推演等功能的要求并不太高。”
紧接着,量子位又把“大模型幻觉在具身智能身上的解决思路”这个问题抛给了陈建宇。
比起网络世界里的胡说八道,现实世界人形机器人受到带有幻觉的指令,似乎是一件更为严肃、需要正视的事情。
思考片刻后,陈建宇给出了他的答案,那就是可能需要两手解决方案,一方面是大模型产品本身对幻觉的控制,另一方面,在底层的控制也要加强。
“