主要观点总结
该文章介绍了一项新技术,能让患有失语症的瘫痪人士通过脑机接口进行口语交流。研究团队开发了一种流式处理方法,能将脑信号解码为语音,实现了低延迟的自然口语交流。这项技术的原理是通过采集神经数据,利用AI将大脑功能解码为言语。实验结果显示,该技术能够近乎实时地合成语音和文本解码。
关键观点总结
关键观点1: 技术概述
新技术能让患有失语症的瘫痪人士通过脑机接口进行口语交流,解决了一直存在的延迟问题,使交流更加自然流畅。
关键观点2: 实验方法和原理
研究团队使用深度学习模型和AI技术,从大脑活动中解码副语言特征,实现流式处理方法。通过采集神经数据,利用AI将大脑功能解码为言语。
关键观点3: 实验结果
实验结果显示,新技术能够近乎实时地合成语音和文本解码。合成语音的自然度和流畅度得到了提高,延迟问题得到了解决。
关键观点4: 技术的潜在影响和应用
这项技术对于改善严重瘫痪且言语受影响患者的生活质量具有巨大潜力,可以助力开发适合失语者日常使用的语音神经假体。
关键观点5: 未来研究计划
研究团队将继续优化算法,探索如何更好、更快地生成语音,为开发适合失语者日常使用的语音神经假体奠定基础。
正文
这样一来,研究人员就能在受试者产生的神经活动窗口块和受试者试图表达的目标句子之间建立映射。
由于受试者无法发出声音,因此研究人员无法拥有目标音频或目标输出来映射神经数据。但是,他们使用 AI 填补了所缺失的细节,从而解决了这一难题。
具体来说,他们使用一个预训练的文本到语音模型来生成音频和模拟目标声音。同时,他们还使用了受试者患病之前的声音,这样一来解码输出的声音在音色上也就更加接近受试者患病之前的声音。
此前,在解码声音时往往存在较长的延迟,单句解码的延迟约为 8 秒。而本次研究采用新的流式处理方法,因此当受试者尝试说话时,可以近乎实时地生成可听见的输出。
为了测量延迟市场,研究人员采用了语音检测方法,以便识别出表明受试者开始尝试说话的大脑信号。
在意图信号出现后的 1 秒之内,系统就能发出首个声音。与此同时,本次技术能够持续解码语音,因此受试者可以持续地输出内容。
就参与本次研究的这名受试者来说,她在 2023 年就曾作为受试者参与过该团队的课题。那时,她参与的是文本到语音解码方法的实验。
相比之下,她在本次研究中尝试的新型流式合成方法,能够近乎实时地听到自己的声音,这增加了她的代入感。她表示,流式合成是一种更加能够受到意志控制的模式。
尽管实现了更高的速度,但却并没有以牺牲精度为代价。与之前的非流式处理方式相比,这种速度更快的脑机接口能够提供同样高水平的解码精度。
研究人员表示,以前人们并不清楚能否从大脑中实时地提取出可被理解的语音信号。同时,此前人们也并不清楚 AI 到底是在学习和适应,还是仅仅在进行模式匹配并重复训练数据中的部分内容。
为了厘清这一问题,研究人员测试了模型在训练数据集词汇之外的单词合成能力。具体来说:他们测试了 26 个来自北约音标字母表的生僻词,例如 Alpha、Bravo、Charlie 等。
这样做的目的是想看看模型能否针对未见过的单词进行泛化,以及是否能够真正地解码受试者的说话模式。结果发现:实时模型做得非常好,这表明它确实是在学习声音或学习语调的基本要素。
(来源:
Nature Neuroscience
)
自然流式无声语音解码系统
研究中,研究人员设计了一款语音合成神经假体系统:通过植入受试者言语感觉运动皮层及部分颞叶表面的 253 通道皮层电图阵列采集神经信号,进而合成目标语音,使受试者能够实现自然流畅的语言表达。
为了针对系统进行训练,研究人员记录了受试者在尝试默念单个句子时的神经数据。
受试者会在屏幕上看到一个文本提示,并被要求在看到绿色的“开始”视觉提示后,立即尝试默念说话。
合成的语音会通过附近的模拟扬声器进行播放,解码后的文本则会显示在监视器上。
研究人员所使用的神经解码器采用双模态设计,其在接受联合训练之后,不仅可以合成语音,还能同步解码文本内容。
实验中,研究人员将高伽马活动和低频信号传输到自定义双峰解码模型,该模型在每次实验中从 GO 提示音的前 500 毫秒时,开始以 80 毫秒的增量处理神经特征,针对可听语音与文本进行同步解码。
(来源:
Nature Neuroscience
)
在流式自动语音识别(ASR,automatic speech recognition)方法的启发之下,研究人员采用了循环神经网络转导器(RNN-T,recurrent neural network transducer)框架,这是一种灵活的通用神经网络架构,其特点在于无需依赖未来输入上下文。