单手凌空打俄罗斯方块,这样的神技如何炼成?

AI资讯1年前 (2023)发布 AI工具箱
308 0 0

假期模式已经开启了~

学生党已经赋闲在家,工业党不少也已带着橘子返乡。

阖家欢乐,面对亲朋的时候就要来了。

那么,如何才能在乡亲们面前,显得特立独行、与众不同?

你看这样如何。

喧嚣的人群之中,只见你端坐其间,面单不易察觉的微笑。

突然,你出手了!

手型扑朔变换,位置迷离转移。

最新版喝酒划拳?不,他们很快发现,你神秘的手势,竟然的控制着一个一个落下的彩色几何图形,完美的错落叠加!对!你是神秘的俄罗斯方块大师!

这么传统的游戏,也能耍酷?当然,越是看似平淡,越能剑走偏锋。

在那些打农药、晒青蛙的军团面前,你是如此的出众。

套用某机构的话,那就是:

一样的打游戏,不一样的酷

最后,深吸一口气,告诉乡亲们:这就是传说中的——人工智能。

(众人皆惊)

摄像头is all you need

这套俄罗斯方块AI心法,今天就传授于你。

心法源自一位名叫Marianne Linhares的Medium用户。基于去年Google发布的Teachable Machine,她构建了一个Demo,只需一个摄像头,就能玩转俄罗斯方块。

先来介绍一下Teachable Machine。

Teachable Machine本身是一个基于浏览器的工具,任何人(科学上网之后)都可以借助这个工具,使用电脑上的摄像头,亲手体验如何训练一个神经网络。

无需代码,只需电脑浏览器+摄像头!

去年10月,量子位的李根同学在大理,亲测表明:从一无所知到训练完成,不超过3分钟,而且还挺有意思。

方法很简单,以科学的方式,打开这个页面:

https://teachablemachine.withgoogle.com/

Teachable Machine的神经网络,能够通过摄像头,学会三个你发出的指令。整个训练过程就是机器学习的三大步骤:输入-学习-输出。

1)输入

在摄像头前做某个动作,数量不低于30次,多些角度和场景,然后在“准确值”接近100时开始下一个动作输入,总共三个。

2)学习

在你超过30次的动作捕捉中,机器通过这个“数据集”的学习,掌握了你这个动作代表的意思。

3)输出

三个动作均按要求输入完成后,一一对应的“输出”也会在这个过程中学习完毕。你可以在屏幕前做出任一动作,机器会通过相机输入后给出对应的“意义”。

当然,这个“意义”完全可以自定义,形式也多种多样,比如GIF动图、声音,甚至某段回答。

get凌空打游戏神技

然后,说一下如何改造出一个用手势凌空控制的俄罗斯方块。

这项神技的基础,就是让计算机能通过摄像头认出你的手势,然后“翻译”成游戏中对应的按钮,比如说上下左右。

这是一个图像分类任务啊同学们!我们刚才讲的Teachable Machine,就刚好适合活学活用到这儿。

Google Creative Lab还在GitHub上公开了它的一个样板文件。别客气,这些代码拿去改!

https://github.com/googlecreativelab/teachable-machine-boilerplate

关注人数并不多,可惜啊可惜,只能用俄罗斯方块来拯救它了。我们可以在Teachable Machined基础上构建一个模型,来识别各种手势。

要让机器能认识摄像头拍到的手势,我们的模型得能适应这些限制条件:

  1. 从用户的摄像头获取输入,就意味着我们事先不知道要将图像分成哪些类。
  2. 由于我们事先不知道有哪些类别,就需要在浏览器里直接训练。
  3. 如果每个有电脑的人都能运行这个demo就好了,也就是说,它对计算力的要求不能太高。
  4. 要快。如果玩游戏的时候该按左键还是右键都得花5分钟来决定,那就不好玩了。

对于前三条限制,迁移学习是个好方法,拿一个在现实世界数千类图像上训练过,已经学会分辨形状和边缘的模型,再针对特定的数据稍加训练。

Google Creative Lab就是这么做的,他们用了SqueezeNet,这个模型的精度和AlexNet不相上下,大小却不到0.5MB。

不过,怎么用连我们自己都不知道什么样的数据,在浏览器里重新训练模型呢?

可以在SqueezeNet的其中一层插入一个KNN(k-nearest neighbors)。KNN是基于实例的模型,因此,它不会执行明确的泛化,而是会将新的问题实例和训练中见过的实例进行比较,也就没有明确的训练阶段。

维基百科上是这样描述KNN的:

k-NN是一类基于实例的学习,或者叫懒学习,它的函数只是局部近似,所有计算都会推迟到分类时。k-NN算法是所有机器学习算法中最简单的之一。

对于我们的任务来说,简直再合适不过了。

训练

要训练这样一个模型来识别你的各种手势,还有一些注意事项:

  • 要用容易分辨的图像;不幸的是,小细节不足以用来区分图像。
  • 各类图像尽量用同样的背景;如果你改了图像背景,KNN学会去分辨的可能就是背景,忽略了目标本身。
  • 目标要居中,而且要确保训练模型辨认不同位置的目标,每个类别大约20-50个样例就够了。

Tips讲完,训练正式开始。

我们训练的目标,是让模型将特定手势与游戏中的按钮对应起来。

比如说握拳伸到画面右端,就是向右;握拳放在画面左侧,就是向左;伸出大拇指,就是向上;手掌平放在桌面上,就是向下。

↑↓←→四个按钮,就都有了。来测试一下:

作者提示:本文为向上选择的手势不太好,有时手势从向左改到向右的时候,模型会误认为看到了向上的手势。用源代码请小心。

最后,完成好的源代码在这里:

https://github.com/mari-linhares/teachable-machine-games

玩起来是这样的,有时也会犯个小错误什么的:

更多选择,更多欢乐

Tetrishttps://github.com/ttencate/tis

上面,是本文所玩的俄罗斯方块。实际上,同样的心法,不止于俄罗斯方块。

GitHub上这两个游戏也适合这种方法:

Snake https://github.com/maryrosecook/retro-games

Asteroids https://github.com/maryrosecook/retro-games

如果你觉得手势还是不够酷,还可以用更无厘头的东西来训练这个模型:

还有更炫酷的。

在deeplearnjs.org网站上,专门有一个Cam Arcade。这个页面收集了不少使用摄像头+神经网络可以训练控制的经典游戏。

包括《毁灭战士》、《超级马里奥》、《俄罗斯方块》、《毁灭公爵3D》。同样的用法,也是使用摄像头训练,而且可调参数更多。

地址在此:

https://deeplearnjs.org/demos/teachable_gaming/

希望你训练的开心。

提示:尽量用手势,不要轻易尝试上下左右晃头,亲测会晕。

最后,附送一个老游戏的大集合。

不用翻墙,直接在浏览器玩。

不用翻墙、不用翻墙、不用翻墙……纯玩。

地址:

https://js-dos.com/games/

© 版权声明

相关文章

暂无评论

暂无评论...