意念实时转语音！Facebook的非植入式脑机接口，解码准确率达76%

AI资讯2年前 (2023)更新 AI工具箱

350 0 0

今天，加州大学旧金山分校（UCSF）和Facebook在Nature Commuications上发表的一项研究显示：

他们在“非植入式”的穿戴设备上取得了最新进展，构建出了一个大脑-计算机系统，能准确解码佩戴设备的人听到和说出词语和对话，实时从大脑信号中解码。

也就是说，在这种脑机接口面前，你的所思所想已无处遁形，Facebook已经让意念打字成为了现实。

此前，马斯克的脑机接口公司Neuralink也发布过脑机接口系统，但这种植入式的设备需要向大脑中植入3000多个电极，以此来检测神经元的活动，但非植入式的设备就免去了复杂的植入步骤。

研究人员表示，目前对生成和感知的两部分语言进行解码，准确率超出了他们的想象，分别能达到61%和76%的准确率。

这项项目对于正常人和残疾人来说，都具有实用意义。

比如，你可以将思维直连到语音助手siri，查询天气、搜索信息不用直接喊出来了。

研究人员之一、加州大学旧金山分校神经外科医生Edward Chang表示，这是向神经植入物迈出的重要一步，因为中风，脊髓损伤或其他疾病而失去说话能力的患者，有望因此获得自然交流的能力。

如何意念转语音

这项成果来自Facebook Reality Labs，一直与加州大学旧金山分校合作开展这项脑机接口的研究。

Facebook的设想是，设计一种可以将大脑信号转换成语言的装置，不需要劳动任何一块肌肉，深度学习就能直接读懂大脑，解码脑中所想，实现流畅交流。

为了进行试验，研究人员此前还招募了五名在医院接受癫痫治疗的志愿者。

他们先是从高密度皮层活动中提取相关信号特征。志愿者们说了上百句话，而通过植入性大脑皮层电图（ECoG），研究人员可以跟踪控制语言和发音的大脑区域的活动，并将这些活动与志愿者说话时嘴唇、舌头、喉部和下颚的微妙运动联系起来，然后将这些运动学特征翻译成口语句子。

研究人员采用bLSTM（bidi-rectional long short-term memory）循环神经网络来破译ECoG信号表达的运动学表征。

接着用另外一个bLSTM解码先前破译的运动学特征中的声学特征。

在这个过程中，两个神经网络都会被投喂训练数据，以提高它们的解码性能。

在今年的四月份，利用这样的方法，Facebook已经实现了以每分钟150词的速度帮你说出所思所想。

而在这篇最新的论文Real-time decoding of question-and-answer speech dialogue using human cortical activity中，他们在此前研究基础上，研究人员想进一步提高精度。

大多数语音解码的工作原理是对一个人在想什么声音做出最佳猜测，在解码过程中可能会被“synthesizer”和“fertilizer”这类发音相似的单词混淆。

但Facebook的新系统增加了上下文信息来帮助区分这些单词。

首先，这个算法预测从一组已知问题中听到的问题，比如“你在一块土地上撒了什么?”然后，这些信息作为上下文来帮助预测答案：“肥料”（fertilizer）。

Edward Chang表示，通过添加上下文，这个系统能够用的指定问题和答案解码感知（听到）的语音准确率达到76%，解码产生（口头）的语音准确率达到了61%。

Facebook表示，未来将扩大系统的词汇量，让其能适用在更广泛的领域。

缘起两年前

Facebook早在两年前，就开始着手这个项目了。

2017年4月，Facebook旗下的前沿产品研发团队Building 8负责人Regina Dugan宣布，这家社交网络公司将在未来两年内，开发出一个能以每分钟100字的速度从人脑向外传输语句的“帽子”。

Facebook设想中的“帽子”，是用来分享你的思维的。此前清华大学也做过类似概念的研究，头戴一个小巧的电极帽，控制屏幕软键盘上的26个字母就能打出任何语句。

Facebook最终计划，是想打造一款AR眼镜。

Facebook AR/VR业务副总裁Andrew “Boz” Bosworth表示，这个项目的初衷，是想构建一个非侵入式可穿戴设备，让人们只想通过想象他们想说什么来打字，展示未来对AR眼镜的投入和互动成为现实的潜力。

传送门

Facebook官方博客：

https://tech.fb.com/imagining-a-new-interface-hands-free-communication-without-saying-a-word/

论文Real-time decoding of question-and-answer speech dialogue using human cortical activity

地址：

https://www.nature.com/articles/s41467-019-10994-4

论文Speech synthesis from neural decoding of spoken sentences：

https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

马云正式卸任后，阿里巴巴开盘跌0.87%

AI工具箱

362

性能最高提升480倍：Arm推出2款新AI边缘计算芯片设计，专为物联网设备打造

AI工具箱

489

最高5000倍加速模拟物理世界，育碧在修复bug上又进一步

AI工具箱

495

特斯拉的三季度：车卖很多、车主很烦、股价很魔幻

AI工具箱

403

只要你一句话，马斯克就得留扫把头，项目已开源丨Adobe等出品

AI工具箱

387

MIT科学家首次发现只对歌唱有反应的神经元，对，只能人声带伴奏的那种歌

AI工具箱

406

暂无评论

暂无评论...

意念实时转语音！Facebook的非植入式脑机接口，解码准确率达76%

Linux之父警告全球程序员：我刚发布的5.12内核有bug，你们千万别用

真「祖传代码」！你的GitHub代码已打包运往北极，传给1000年后人类

相关文章

暂无评论