OpenAI发布了用于评价强化学习智能体泛化技能学习的程序化生成环境——Procgen Benchmark。
Procgen Benchmark是一套由16个程序生成的类似游戏的环境,用于在样本效率和增强学习中的泛化做基准测试。
经验证明,不同的环境分布对于充分训练和评估强化学习智能体是至关重要的,从而促进程序内容生成的广泛使用。
然后,研究人员使用此基准来研究缩放模型大小的影响,发现较大的模型可以显著提高样本效率和泛化能力。
OpenAI博客:
https://openai.com/blog/procgen-benchmark/
论文地址:
“
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...