鸟叫就能黑掉AI系统，而且你根本察觉不到

AI资讯2年前 (2023)发布 AI工具箱

464 0 0

和AI一起听小鸟的叫声吧，它可能会给你一些“惊喜”。

货真价实童叟无欺的鸟鸣，但是，AI却认为这是一句话：

Visit evil dot net and install the backdoor.

也就是说，语音识别AI，从鸟鸣中听出了奇怪的命令：要访问邪恶网站evil.net，还要安装后门。

指令中的网址和后门当然是凭空胡编的，不过，也直白得足够让人惊出一身冷汗。我们身为人类，什么也没听出来，可是AI却……

能把这样一段话藏到鸟鸣里，那么黑客想要设计一些隐藏指令，在人类耳根底下悄悄指挥智能音箱，下个单付个款控制个智能门锁什么的，岂不也是轻而易举？

这段有猫腻的鸟鸣，是一群德国科学家制造出来的，第一件原材料，是一段人畜无害纯天然的鸟鸣；第二件，是一段噪音。单听杂乱无章，通过一些“化学反应”叠加到鸟鸣的原始音频里，AI便收到了噪音要传达的信息。

用这些原料制造出让人类没有防备，又带偏AI节奏的一石二鸟邪恶音频，并非简单的操作，需要用上深度学习。

先骗AI再骗人

如何迷惑神经网络？

机器学习里有个冉冉升起的研究领域，叫对抗性攻击 (Adversarial Attacks) 。

这种对深度神经网络的误导，在视觉上比较常见。大家可能还记得，MIT团队曾经骗过谷歌AI，让它把一只3D打印的乌龟认成了步枪。

MIT开发的EOT算法，能识别带有纹理的3D模型，再对原本的纹理做些微小的改变，就生成了“对抗性图像 (Adversarial Image) ”。

肉眼看去，对面依然是只乌龟。可AI看到的已经是完全不同的东西了。

把视觉换成听觉，原理也相差不多。

在原始音频和隐藏指令之间，能找到一种美妙的融合。不论本来的声音是鸟叫，还是人类的歌声，或者什么别的音色，都不是问题。

融合的方法，就来自德国波鸿大学（Ruhr-Universitaet in Bochum）一群科学家们的研究。他们运用深度学习生成对抗样本 (Adversarial Example) ，来误导当下主流的语音识别系统Kaldi，分三步走：

第一步，输入原始音频 (比如“我爱学习”) 以及目标指令 (比如“放弃治疗”) ，用强制对齐(Forced Alignment) 找到二者之间最佳的时间对齐 (Temporal Alignment) 方式。第二步，用反向传播来改变输入的“我爱学习”声波，从而令语音识别AI把它转写成“放弃治疗”。第三步，便是欺骗人类了。请继续阅读。

如何躲避人类的疑心？

要给语音助手下达隐藏指令，只要生成特定的波形就做得到。但在送信的时候，还要避免被人类发现。

这里用到的方法叫做心理声学隐藏 (Psychoacoustic Hiding) ：

算法知道，你会对怎样的噪音缺乏警惕。

这就涉及到人类听觉的一个弱点，叫掩蔽效应 (Masking Effect) 。

当两种声音同时传进耳朵，人类会对音量更大的那段声波比较敏感，对微弱的那一段就不敏感。

团队用了一个心理声学模型，来分析将哪些声音叠加到原始音频里，不易影响人类感知，然后在这个范围里悄悄改变声波就行了，神不知鬼不觉。

你听，音频里，是再普通不过的新闻内容：

但语音识别的结果，却是完全不同的句子了：

竟然听成了关闭监控摄像头并打开房门？

细思恐极。

能打开你家大门？

攻击方法有了，怎样让人类主动播放这些“转基因”的音频，给语音助手听个清楚？

想也容易，只要在大家听的音乐、看的电影、或者刷的剧里面，偷偷混入一小段：

一是很难让人产生警觉，二是攻击范围非常广泛，可至全球。只要公放声音，就可能顺利控制语音助手。

毕竟，如今的许多智能音箱，都可以用语音来购物。这样的话，银行卡就可能遇到危机。

确实，付款环节可以开启密码保护，但至少在Alexa身上，密码功能是默认关闭的。

以上并非全部。

如果，智能音箱 (或者其他什么设备) 的语音助手连接着整个智能家居系统，包括摄像头和安全警报系统呢？

友情提示，上一章节末尾，那条被修改过的音频，里面藏的就是关闭摄像头并打开房门的指令。

群起而攻之

当然，也不用太害怕了。

毕竟，攻击语音助手，招式早就不止那一种。

海豚音攻击

这是浙江大学团队去年发表的成果，可以利用人类听不到的超声波，向语音助手传递隐藏指令。

人类听不到的波段，却被麦克风收录起来，又被系统解调成人类语音的频率。这样一来，语音识别AI收到的波形，就和原本的样子完全不同了。

团队表示，他们已经用超声波发射装置，攻击过谷歌助手、亚马逊Alexa、微软Cortana、苹果Siri、三星S Voice和华为HiVoice，语音助手全员败阵。

并且，即便是拥有声纹保护的语音助手，也不能保证安全。因为，黑客仍然可以用语音合成来模拟声纹，攻入设备。

不过，超声波这个强大的方法也有缺点，一种算法只能针对一种特定的麦克风。毕竟，要在收音上做文章，不同的麦克风情况会有不同。

同音字攻击

一种名叫“Voice Squatting”的招数，利用了语音助手的三方应用市场。

每个开发者都可以发布，自己为Alexa编写的技能 (Skills) 。黑客也可以开发一些恶意技能，关键是让用户在无意中触发这样的技能：

只要恶意应用的名字，和某个正常程序的发音足够相似就可以了，简单易行。

比如，已知有一款叫做Rat Game的游戏，那给恶意应用起名“Rap Game”，就能骗过Alexa。

这两个字还不算同音，而Capital One (第一资本App) 和Captial Won (恶意技能可取的名字) 之间，应该更难找到破绽。

当智能音箱打开一个冒牌App，用户以为打开的依然是平时常用的软件，就可能在不经意间向恶意应用输入自己的重要信息了。

远程窃听术

腾讯团队在今年的DefCon大会上，成功演示了攻入亚马逊第二代Echo智能音箱，控制设备，窃取录音的方法：

多亏Echo有多台设备联网功能，只要连接相同的WiFi，几台智能音箱之间，就能通过名叫“Whole Home Audio Daemon”的守护进程相互交流。

研究人员让一台改装过的Echo，和一台普通Echo连上同一WiFi，利用守护进程的一系列bug，魅惑了多台音箱。

这样，想让它播放什么声音，就播放什么声音，还可以把麦克风捕捉的音频偷偷传到远程服务器里，实现窃听。而用户全程不会收到任何警报。

当然，腾讯团队事先告知了亚马逊，后者火速发布一块补丁，解决了这个问题。

网络安全领域的科学家们，一向热衷于探索智能设备的漏洞。

亚马逊音箱Echo和里面的助手Alexa，可能是他们最常用的小白鼠，研究成果大多诞生于此也很自然。

不过，现实里还没有发现类似的攻击事件。在这段暂时安全的日子，不断中枪的亚马逊，以及其他科技大厂，也可借鉴所有被黑的经验，把产品升级成更加安全可靠的样子。

黑客和智能设备，不知将来谁会跑得更快。但对两者来说，都是有了对方，才能更努力地往前跑吧。

论文传送门：

https://arxiv.org/pdf/1808.05665.pdf

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

居家办公每5分钟要被抓拍一次人脸?这家上市公司的“骚操作”火了

AI工具箱

395

氢能第一股来了！北京冬奥供应商，丰田北汽都是大客户，“下一个宁德时代”

AI工具箱

298

腾讯青少年科学小会，5位科学家分享中国“上天”的故事

AI工具箱

378

深圳率先立法：支持L3自动驾驶上路，凡公开道路皆可行

AI工具箱

357

腾讯员工平均年薪福利84万，比上一年涨薪7万；研发每写1行代码能赚19块

AI工具箱

476

微信支付能绑定国际信用卡了，已支持五大卡组织

AI工具箱

512

暂无评论

暂无评论...

鸟叫就能黑掉AI系统，而且你根本察觉不到

先骗AI再骗人

能打开你家大门？

群起而攻之

半年内第二块国产全功能GPU，附带首个游戏显卡！摩尔线程造芯神速，张建中“黄”气逼人

RTX 3080被炒到原价7倍，最高卖5000美元，英伟达官方道歉：将打击黄牛抢购

相关文章

暂无评论