【导读】脑机接口技术炙手可热,马斯克的Neuralink更是吸引了全球目光。然而其侵入式方案的风险不容忽视。Meta AI则另辟蹊径,近日推出了非侵入式的Brain2Qwerty深度学习模型,它能通过分析脑电图或脑磁图「读」出人们在键盘上输入的文字。
脑机接口一直是全球关注的新技术。尤其是有着马斯克光环加持下的Neuralink,更是备受瞩目。
几天前,Neuralink发文称,过去一年中已经有三名瘫痪患者接受了Neuralink的植入。
通过植入物,这几位患者仅凭思想就能控制手机和电脑,这种能力被Neuralink称之为「心灵感应」(Telepathy)。
参与者已经累计使用「心灵感应」超过4900小时,其中大部分是独立使用,这表明了该技术在现实生活中具有应用潜力。
其中一位名为Brad的参与者通过该项技术成功摆脱了对眼动追踪器的依赖,能够在各种环境下与人交流,甚至可以外出参加活动(下图)。
尽管这些案例都清楚地表明了脑机接口近年来取得的显著进展,然而,Neuralink的方案也并非完美。
主要的问题在于其使用的侵入性方法,如电极植入,这会带来包括感染和长期维护问题在内的医疗风险。
Meta AI团队几天前刚刚发布的名为「Brain2Qwerty」的全新深度学习架构,正是为解决这一挑战而来!
论文地址:https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/
实验表明效果还不错。
这个新架构可以解码参与者的脑电图(EEG)或脑磁图(MEG)信号。对于表现最好的参与者,该模型实现了19%的字符错误率,并且可以完美解码训练集之外的各种句子。
最关键的是,Brain2Qwerty是非侵入式的,它大大缩小了与侵入式方法之间的差距,为开发更加安全的脑机接口技术开辟了道路!
首先,研究者让35名参与者在键盘上打出他们短暂记住的句子,同时通过脑电图(EEG)或脑磁图(MEG)记录下他们的大脑活动。
然后,研究者开始训练Brain2Qwerty——一个三阶段的深度神经网络——来从这些大脑信号中解码出文字,并评估效果。
首先,第一阶段卷积模块(Convolutional Module)接收500毫秒的脑电图(EEG)或脑磁图(MEG)信号作为输入,提取这些信号的特征。
然后,转换器模块(Transformer Module)利用自注意力机制捕捉句子级别的上下文信息,优化按键预测,并输出每个字符的logits。最后,预训练语言模型(Pretrained Language Model)利用统计规律,修正转换器的输出,从而进一步提高解码的准确性。
具体过程如下图1,Brain2Qwerty模型利用脑电图或脑磁图信号,通过卷积、转换器和语言模型3个阶段来解码键盘上输入的文本。
研究人员首先关注左右手按键引起的诱发反应差异,结果显示,脑磁图(MEG)在手分类的准确率上优于脑电图(EEG)。MEG的峰值准确率为74%(±1.3%标准误差均值),而EEG的峰值准确率为64%(±0.8%)。
这些结果验证了当前的实验方法确实能在脑中产生预期的按键反应。
Brain2Qwerty在脑磁图(MEG)数据上的表现明显优于脑电图(EEG )。具体来说,MEG的平均字符错误率(CER)为32%(±0.6%),EEG的平均字符错误率(CER)为67%(±1.5%)。
这种性能差异在统计学上非常显著。
尽管平均性能上存在显著差异,研究人员也注意到了个体之间的差异。EEG表现最差和最好受试者的CER分别为61%(±2.0%)和71%(±2.3%)。MEG表现最差和最好受试者的CER分别为45%(±1.2%)和19%(±1.1%)。也十分明显。
为了评估Brain2Qwerty模型的性能,研究人员选择了两种经典的基线模型进行比较:线性模型和EEGNet(一种在脑机接口领域经常用的紧凑型卷积神经网络)。
结果显示,EEGNet在MEG数据上优于线性模型,但在EEG数据上的优势不明显。Brain2Qwerty模型在EEG和MEG数据上的表现均显著优于EEGNet和线性模型。
这种优势表明,Brain2Qwerty模型的三阶段架构(卷积模块、转换器模块和语言模型)对于解码脑活动中的文本具有重要作用。
下图A和B表明,左右手按键会在大脑皮层产生不同的神经活动模式,这些活动模式可以通过EEG和MEG检测到;C和D验证了分类器可以有效地区分左右手和不同字符的脑活动;
E-H比较了不同架构(包括线性模型、EEGNet以及Brain2Qwerty模型的不同变体)在手错误率(HER)和字符错误率(CER)上的表现。每个点代表一个受试者的平均得分。
研究人员重新训练并评估了以下两种消融版本的模型:(i)仅卷积模块(Conv):移除了转换器模块和语言模型,仅使用卷积模块进行解码;(ii)卷积模块+转换器模块(Conv+Trans):移除了语言模型,使用卷积模块和转换器模块进行解码。
然后研究者使用相同的数据集和超参数对这些消融模型进行训练和评估,并使用手错误率(HER)和字符错误率(CER)来衡量性能。
结果显示,仅卷积模块 (Conv)在EEG和MEG数据上的性能均优于EEGNet。添加转换器模块后,卷积模块+转换器模块 (Conv+Trans)在EEG和MEG数据上的CER均得到改善,这表明转换器模块在利用上下文信息方面发挥了关键作用。
使用语言模型后,完整的Brain2Qwerty在EEG的CER进一步改善了4%,MEG的CER进一步改善了6%。语言模型通过利用自然语言的统计规律性,有效地提高了解码准确性。
研究人员指出,MEG可以完美解码一些句子。这表明Brain2Qwerty模型在MEG数据上具有相当高的解码精度。例如,「la silla ocasiona las lesiones」这句话就被完美解码。
更有趣的是,Brain2Qwerty的语言模型可以纠正受试者的输入错误。例如,即使受试者输入了「ek benefucui syoera kis ruesgis」,仍然被完美解码出「el beneficio supera los riesgos」了。
相比之下,EEG的解码效果较差,很少能产生可理解的文本。这与之前报告的统计结果一致,即MEG的解码性能明显优于EEG。
在EEG的例子中,解码结果通常包含大量错误,如「la ciencia de la idea las mas de esos」,与原句「la ciencia de la idea rompe la vision」相差甚远。
下图3A显示了Best(最佳)、Median(中位数)和Worst(最差)MEG受试者的句子字符错误率。每个点代表一个独特的句子。图3B显示了两个例句的解码预测结果,其中使用了多个分割种子来获取跨句子的预测。
如果Brain2Qwerty模型依赖于运动皮层的脑活动,那么其解码错误应该与QWERTY键盘的物理布局相关。也就是说,模型更容易将一个按键错误地预测为键盘上物理位置接近的按键。
研究人员分析了错误预测字符的混淆模式,并计算了解码字符和实际按键在键盘上的距离。
结果显示,距离和混淆率之间存在显著的相关性。这意味着,键盘上物理距离越近的按键,越容易被混淆。
下图A表明模型解码错误与键盘的物理布局有关,模型倾向于将按键混淆为物理位置接近的按键。图B进一步证实了模型依赖运动表征。图C显示打字错误与较长的按键间隔相关。图D证明打字错误会导致解码性能下降,表明运动过程的准确性直接影响解码质量。
研究人员发现,打字错误占总按键次数的3.9%,65%的句子中都存在打字错误,实验中不允许参与者使用退格键纠正错误。
错误按键的按键间隔明显长于正确按键。具体而言,正确按键的平均间隔时间为50±7毫秒,而错误按键的平均间隔时间为114±12毫秒。
这种现象反映了打字错误时,参与者会出现犹豫或对错误进行监控的行为。
为了评估打字错误对解码性能的影响,研究人员分别评估了正确按键和错误按键的字符错误率(CER)。使用 Conv+Trans模型时,正确按键的CER为38%,而错误按键的CER为65%。
这表明,正确按键的解码性能显著优于错误按键。
为了减少句子上下文对错误分析的影响,研究人员还评估了卷积模块(Conv)的性能。即使仅使用卷积模块,正确按键的CER(52%)仍然低于错误按键的CER(71%)。
这些结果表明,当运动过程执行不准确时,解码性能就会下降。
Meta AI团队开发的这款Brain2Qwerty模型可以通过非侵入式脑机接口解码句子生成。为开发更安全、更易于访问的非侵入式脑机接口打下了基础。
虽然Brain2Qwerty模型的解码性能缩小了与侵入式脑机接口之间的差距,但是差距仍然显著。最新的侵入式脑机接口字符错误率仅为15.2%,使用纠错模型时,打字速度可达每分钟90个字符,离线字符错误率更是低于1%。
虽然脑磁图(MEG)的效果优于脑电图(EEG),但目前的脑磁图系统,包括本研究中使用的系统,都还还不能穿戴。不过,随着基于光泵磁力仪(OPM)的新型脑磁图传感器的发展有望解决这个问题。
Meta AI的Brain2Qwerty深度学习新架构展示了非侵入式脑机接口技术的巨大潜力。
这项研究不仅是技术上的突破,更是对未来人与机器交互方式的探索。
参考资料:
https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/