这个系统被称为语义解码器,最终可能会使那些因中风、瘫痪或其他退行性疾病而失去身体交流能力的患者受益。此前,研究人员已经开发出了语言解码方法,可以让失去说话能力的人尝试说话,让瘫痪的人在想写的时候也能写。但新的语义解码器是首批不依赖大脑植入物的解码器之一。在这项研究中,它能够将一个人想象中的语言转化为实际的语言,在观看无声
电影时可以对屏幕上发生的事情产生相对准确的描述。
美国得克萨斯大学奥斯汀分校的研究人员在开发该系统时部分使用了“变换模型”(Transformer),该模型类似于支撑OpenAI聊天
机器人ChatGPT和谷歌聊天机器人Bard的语言模型。这项研究的参与者通过在功能性磁共振成像(fMRI)扫描仪上倾听几个小时的播客来训练解码器。fMRI扫描仪是一种测量大脑活动的大型机器。
科学家们记录了三名参与者听了16个小时叙述性故事时的核磁共振成像数据,以训练模型在大脑活动和语义特征之间建立映射,捕捉某些短语的含义以及相关的大脑反应。
“这不仅仅是一种语言刺激,”得州大学的神经科学家亚历山大・胡斯(Alexander Huth)说,他协助领导了这项研究,“我们正在听懂意思,关于正在发生的事情的一些想法。可能发生的事实是非常令人兴奋的。”
一旦AI系统经过训练,当参与者正在倾听或想象讲述一个新故事时,它可以生成一连串文本。这种生成的文本并不是一个精确的文字记录,研究人员设计它的目的是捕捉一般的想法或观点。
根据得克萨斯大学奥斯汀分校发布的一份新闻稿,经过训练的AI系统生成的文本在大约一半时间里与参与者原话想表达的意思非常接近或精确匹配。例如,当参与者在实验中听到“我还没有驾照”这句话时,这种想法被翻译成“她甚至还没有开始学开车”。
“对于无创方法来说,这和之前相比实现了一个真正的飞跃,之前的方法通常只能生成单词或简短的句子,”胡斯在新闻稿中称,“我们正在让这个模型在很长一段时间内解码具有复杂思想的连续语言。”
新闻稿称,参与者还被要求在扫描仪中观看四个没有音频的
视频,AI系统能够准确描述其中的“某些事件”。
局限性
不过,胡斯博士和他的同事们指出,这种语言解码方法存在局限性。首先,fMRI扫描仪体积庞大,价格昂贵。此外,训练模型是一个漫长而乏味的过程,为了做到有效必须对个人进行训练。当研究人员试图使用在一个人身上训练过的解码器来读取另一个人的大脑活动时,它失败了,这表明每个大脑都有独特的表达意思的方式。
截至周一,解码器还无法在实验室环境之外使用,因为它依赖于fMRI扫描仪。但研究人员相信,它最终可以通过更便携式的脑成像系统来使用。该研究的主要研究人员已经为该技术申请了专利合作条约(PCT)专利。
而且,参与者还能够屏蔽他们的内心独白,通过思考其他事情来摆脱解码器。AI也许能够读懂人类的思想,但目前它只能在人类允许的情况下,一次读一个。