AI，来感受被「分手厨房」支配的恐惧吧

AI资讯2年前 (2023)发布 AI工具箱

489 0 0

盆友，你感受过被分手厨房，啊不，《煮糊了》（Overcooked）支配的恐惧吗？

其实，别说是你，就是AI们碰上需要多人配合，又得切菜，又得上锅，又得送菜，地形还复杂的情况，也一样会分分钟败下阵来。

这不，来自诺丁汉大学、UC伯克利和微软研究院的研究人员，现在就提出：不会玩《煮糊了》的深度强化学习模型，不是好协作AI。

他们还发现，当前多数深度RL模型，竟然都没法儿在《煮糊了》里拿到65%以上的分数。

为此，他们专门写了一篇论文。

用简化版《煮糊了》进行基准测试

想要在现实世界中应用深度强化学习模型，实现AI与人类的协作，目前一个大的挑战在于，这类系统在遇到开发过程中未曾见过的情况、未训练过的行为时，能否保持鲁棒性。

而如何去评估模型的鲁棒性，也是困扰学界的一个难点。

不知道是不是分手厨房带来的胡闹现场启发了他们，研究人员认为，《煮糊了》能够成功在系统能够处理的范围内，测试出潜在的边缘案例。

比如，在游戏中，系统必须应对这样的场景：盘子被不小心落在了柜台上，搭档因为思考或者暂时离开停留在原地……

于是，他们根据《煮糊了》的环境，设计了简化版的单元测试。

主要分为三类：

状态鲁棒性单元测试，这时成功的标准不取决于搭档的状态。如上图（a）中，绿帽子厨师已经拿到了一个盘子，所以无论绿帽子厨师接下来作出怎样的决策，蓝帽子厨师都只要向左拿一个洋葱就是了。

智能体鲁棒性单元测试，这时搭档的状态会影响结果，需要衡量智能体的鲁棒性。如上图（b）中，通道只有一条，绿帽子厨师想要去送汤，蓝帽子厨师就得让开。

智能体&记忆鲁棒性单元测试。如上图（c）中，绿帽子厨师没动静了，出于离开状态，那么蓝帽子厨师应该自己去取盘子送汤。这个状态需要结合历史记录来检测。

研究人员表示，这套基于《煮糊了》的测试套件，能提供无法通过简单考虑验证奖励获得的信息，因此未来可以作为一个评判人工智能协作能力的基准指标。

传送门

论文地址：
https://arxiv.org/abs/2101.05507

代码地址：
https://github.com/HumanCompatibleAI/human_ai_robustness

参考链接：
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/

— 完 —

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

我在上海的AI新地标，看懂了明略的游戏规则

AI工具箱

422

阿里全球数学竞赛落幕：全球最强73人出炉，北大获奖人数第一，还“炸出”各路世界大牛

AI工具箱

524

戴森最新吸尘器，竟用上了无人车和宇宙飞船黑科技

AI工具箱

425

把“AI威胁论”观念植入马斯克大脑的那个人，现在“反水”了

AI工具箱

345

美国登月技术退步了？50年前就能载人着陆，怎么现在只能带着史努比绕一圈

AI工具箱

410

一个API调用27个NLP预训练模型：BERT、GPT-2全囊括，就像导入NumPy一样

AI工具箱

372

暂无评论

暂无评论...

AI，来感受被「分手厨房」支配的恐惧吧

用简化版《煮糊了》进行基准测试

传送门

SpaceX星舰爆炸，马斯克发来贺电

兰大本科生发31篇论文引质疑，研究范围从改革开放到呼吸道感染，本人：我努力有错吗？

相关文章

暂无评论