脑波直接转语音，不开口每分钟“说”出150词：Nature发表脑机接口新突破

AI资讯2年前 (2023)发布 AI工具箱

339 0 0

只要静静坐着，世界就能听到你的声音，这样的画面你可曾想象过？

是的，不必动手，也不必开口，只要你的脑波流转，AI就能以每分钟150个词的速度帮你说出心声。

Nature上最新发表了一篇论文，科学家们设计了一种新的可以将大脑信号转换成语言的装置，不需要劳动任何一块肌肉，深度学习就能直接读懂大脑，解码脑中所想，实现流畅交流。

△受渐冻症折磨的霍金后期依靠活动脸颊上的一块肌肉来打字

如何做到

研究团队来自加州大学旧金山分校，神经外科教授Dr. Edward Chang等人试图将大脑中的神经活动转换成语音，以造福因为神经损伤而失去交流能力的人。

说话这件事其实并没有想象中那么简单，看似只是动动嘴，事实上却是对声道咬合结构精准、快速的多维度控制。

研究人员选择了深度学习方法。

为了进行试验，专家们招募了五名在医院接受癫痫治疗的志愿者。

神经解码的第一步是从高密度皮层活动中提取相关信号特征。志愿者们说了上百句话，而通过植入性大脑皮层电图（ECoG），研究人员可以跟踪控制语言和发音的大脑区域的活动，并将这些活动与志愿者说话时嘴唇、舌头、喉部和下颚的微妙运动联系起来，然后将这些运动学特征翻译成口语句子。

研究人员采用bLSTM（bidi-rectional long short-term memory）循环神经网络来破译ECoG信号表达的运动学表征。

接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。

声学特征是能从语音波形中提取的频谱特征，因此用解码后的信号就可以合成出语音波形。

在这个过程中，两个神经网络都会被投喂训练数据，以提高它们的解码性能。

对比志愿者说话的频谱图和大脑信号合成的频谱图，可以看到它们已经非常接近了。

研究者们让以英语为母语的人听了听合成的语音，结果表明，至少有70%的虚拟语言是可以被理解的。

有何提高

脑波转语音已经不是什么新鲜事了，这篇文章能登上Nature，自是有过人之处。

这个新的装置每分钟能生成 150 个单词，接近人类的自然语速。

要知道已有的语音合成脑机接口每分钟只能生成 8 个单词，使用者也能用它们来表达自己的意思，但那远远称不上是“人类交流”。

想象一下，倘若霍金健在，在这种技术的帮助下，他可能再也不用艰难地活动脸颊上的肌肉来拼出单词，AI能真正帮助他重新“开口”，传播智慧。

“这是一项艰巨的工作，它将我们推上了语言恢复方面的一个新台阶。”神经学家Dr. Anthony Ritaccio这样评价。

网友反应

论文一出，惊叹声一片。

有网友称赞这是ECoG领域非常有价值的一个结果，并且也给未来的实际应用打开了新的大门：

还有网友已经迫不及待地开始畅想未来：

如果将来这项技术能被放入耳机这样的可穿戴设备，那我们就能以最快的速度在手机上打字了！这种可能性实在是鹅妹子嘤！

也有一些负面的声音：

我们总有法子让你开口的。

嗯…不过事实上这项技术只会在你想开口时捕捉相应的脑电波。

必须说明的是，这项技术使用的ECoG电极阵列需要通过开颅手术来放置到大脑之中，对于饱受疾病、意外之害而失去语言能力的患者来说是福音天降，但更大范围的应用还有很长的路要走。

传送门

论文链接：https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf

— 完 —

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

AIoT时代，如何颠覆传统AI硬件产研模式

AI工具箱

484

微软报告：GPT-4可以算早期AGI/ 百图生科发布AI生成蛋白质平台/ Arm寻求上调芯片设计价格…今日更多新鲜事在此

AI工具箱

357

福特一口气发9款电动车！这是拼命了啊

AI工具箱

379

抱紧华为大腿一年，赛力斯挤进新势力前三，但还未跨过生死线

AI工具箱

431

GitHub防黑客新措施：弃用账密验证Git操作，改用token或SSH密钥，14号0点已执行

AI工具箱

519

AI工具箱

396

暂无评论

暂无评论...

脑波直接转语音，不开口每分钟“说”出150词：Nature发表脑机接口新突破

如何做到

有何提高

网友反应

传送门

人鼠混合大脑出现了！斯坦福大学7年研究登Nature

Nature封面论文撤稿闹大了，认定首个室温超导体数据存疑！领域大佬尝试复现6次全失败，9位作者集体抗议无效

相关文章

暂无评论