DeepMind大放送:开放4个多物体表征学习数据集+智能体新研究

AI资讯1年前 (2023)发布 AI工具箱
240 0 0

“专注开源一百年”的DeepMind,今天又有了新动作。

这次连环放送包含的新物件不少:四个多物体表征学习数据集,还有一个能在强化学习中有效利用演示解决难题的智能体新研究。

具体来看。

多物体表征学习数据集们

这是4个多物体表征学习数据集,可用于开发场景的分解方法,如MONet模型和IODINE。

MONet(简称“莫奈”)是DeepMind今年3月发布的神经网络,它把每个物体,圆满地从背景里分离出来。这样的技能,完全是在无监督的学习过程中解锁的。

就像下面这样:

IODINE (简称“碘”) 是与莫奈一同发布的,也是无监督网络,也可以让画面里的每一个角色随意奔跑。

而新发布的这四个数据集,就可以与莫奈与碘配合使用。

研究人员表示,这个数据集由多个物体场景组成,每张图像都包含场景中所有物体的ground-truth分割蒙版。

研究人员还为每个物体提供了生成因子(generative factors)促进表征学习。生成因子包含了描述和渲染场景中出现物体的所有必要和充分特征(Feature),包括大小、颜色和位置等。

此外,segmentation_metrics模块中包含调整后Rand index的TensorFlow实现,可用于比较推断物体分割和ground-truth分割蒙版。

这些代码已经经过内部测试,与TensorFlow r1.14配合服用效果更佳。

数据集四胞胎的大娃叫Multi-dSprites,大小500MB到1GB之间,是一个基于精灵图的数据集。

在计算机图形学中,当一张二维图像集成进场景中,成为整个显示图像的一部分时,这张图就称为精灵图。所以在这个数据集中,多个物体是椭圆形、心形或者方形的图片。

这个数据集由三个版本,每个版本有1M数据点。每个数据点包含图像、背景和物体蒙版,以及ground-truth特征。

二娃是Objects Room,这个数据集基于生成查询网络(Generative Query Network)的MuJoCo 环境,是3D形状数据集的多物体扩充。

每个场景中包含2种元素:1间由天花板、墙壁和地板组成的空房,最多六个物体,并且颜色随机、样式随机。训练集大小为7GB,测试集在6-8MB之间。

三娃是CLEVR (with masks),这是基于此前的Clever数据集改造的,可以生成ground-truth分割蒙版。

数据集中的图像和蒙版规模为320×240大小,整个数据集大小为10.5GB。

四娃是Tetrominoes,这是一个类似俄罗斯方块里形状的数据集,大小为300MB。

每个形状都由四个方块组成,总共有17种排列。颜色有6种选择,分别为红绿蓝黄品红青。

研究人员用x和y坐标进行定位,用shape和color(整数编码)代码块为ground-truth特征。数据点还包括一个visibility向量。

还有新论文

DeepMind开源动作频频,除了这些数据集,这两天还公布了一项新的智能体研究。

在论文Making Efficient Use of Demonstrations to Solve Hard Exploration Problems中,研究人员提出一种能够利用演示解决部分可观测环境中硬探测问题的智能体:R2D3。

研究人员R2D3利用演示解决高度可变的初始环境中的稀疏奖励任务,并用8项任务进行测试展示了智能体的有效性。

值得一看~

传送门

数据集GitHub地址:

https://github.com/deepmind/multi_object_datasets

论文地址:

https://arxiv.org/abs/1909.01387

今天的DeepMind大放送就到这了~

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

© 版权声明

相关文章

暂无评论

暂无评论...