人工智能可以“读取”你的大脑了 |【经纬低调分享】

说话，看起来是一件毫不费力的事情。但事实上，说话却是人类执行的最复杂的活动之一。它需要精确、动态地协调声道咬合结构中的肌肉、嘴唇、舌头、喉部和下颌。

当由于中风、肌萎缩侧索硬化症或其他神经系统疾病而导致言语中断时，丧失说话能力可能是毁灭性的。

昨天，Nature 杂志发表了加州大学旧金山分校的一项最新成果——该校神经外科华裔教授 Edward Chang 及同事开发出一种可以将脑活动转化为语音的解码器，创造了更接近能够恢复说话功能的脑机接口。

脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图，并利用这些信息控制外部设备或移动瘫痪的肢体，这项技术目前能够使瘫痪的人每分钟最多能打出8个单词。

而这次Nature分享的方法，使用深度学习方法直接从大脑信号中产生口语句子，达到150个单词，接近正常人水平。

马斯克也拥有一家脑机接口公司。他认为，科学可以通过脑机接口扩大人类的能力。比如说，人们可以通过心灵感应来传达复杂的概念，不再需要用语言来表达。

找到脑躯干里对语言与四肢控制的操纵区域是探索脑运动很重要的一步。日后也许我们会向情绪控制更进一步。这一步会更难，但是突破性理解脑的关键之一。

科幻小说中的未来真的能实现吗？你觉得呢？以下，Enjoy:

本文综合自 / DeepTech深科技（ID：deeptechchina）、新智元（ID:AI_era)

许多患有神经疾病的患者因丧失语言能力，需要依赖特定的通讯设备进行沟通，这类设备利用脑机接口或者头部、眼睛的动作来控制光标选择字母，从而说出他们想说的话。但是，这个过程比人类的正常语速慢得多，往往是在蹦单词。

4 月 25 日，Nature 杂志发表了加州大学旧金山分校（University of California San Francisco）的一项最新成果，该校神经外科华裔教授 Edward Chang 及同事开发出一种可以将脑活动转化为语音的解码器。这套人类语音合成系统，通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号，并合成出受试者想要表达的语音。

视频 | 神经解码的语音合成演示（来源：UCSF Neurosurgery）

研究人员表示，脑机接口正迅速成为恢复功能丧失的临床可行手段，这项最新的研究成果解决了瘫痪和失语患者所面临的重大挑战，并可能是让他们恢复“说话”能力的重要一步。

在 Nature 杂志同时配发的评论文章中，埃默里大学和佐治亚理工学院的 Chethan Pandarinath 和 Yahia Ali 认为，这种使用控制嘴唇、舌头、喉部和下颌运动的神经信号合成语音的脑机接口设备，可以成为在失语者中恢复语音功能的奠基性工作。

解读大脑的意图

说话似乎是一件毫不费力的事，但实际上说话却是人类执行的最复杂的活动之一。它需要精确、动态地协调声道咬合结构中的肌肉、嘴唇、舌头、喉部和下颌。

当一个人因中风、肌萎缩侧索硬化（霍金即患此病）或其他神经系统疾病而丧失语言功能和沟通能力时，对他的影响和打击可能是毁灭性的。

如果有一种技术，能将神经活动转化为言语，那对于因神经损伤而无法沟通的人来说将具有变革性。理论上说，脑机接口技术可以通过直接从大脑“读取”人的意图，并使用该信息来控制外部设备或移动瘫痪的肢体，来帮助瘫痪的人完成说话或运动。

在科幻世界里，意念控制的实现可以顺手拈来、轻而易举。而在现实世界中，其背后的脑机接口技术已有近百年的历史。

科学家们也一直希望在该领域实现科学研究与应用技术的突破，为许多当前仍无法解答的难题提供更好的探索工具，帮助人类进一步了解自己的大脑，进而预防、诊断、治疗脑部疾病及其他重大疾病，并将这一技术广泛应用于睡眠管理、智能生活和残疾人康复等领域。

图 | 使用特制语音合成器的史蒂芬·霍金（来源：newzpole.com）

目前，一些用于大脑控制打字的脑机接口技术，依赖于测量头部或眼睛的残余非语言运动，或者依赖于控制光标以逐个选择字母并拼出单词，已经可以帮助瘫痪的人通过设备每分钟输出多达 8 个单词。

这些技术已经给有严重沟通障碍的患者带来了巨大的生活改善，但与自然语音每分钟 150 个单词的平均速度比起来，现有技术的输出速度还是太慢了，距离通过脑机接口实现自然语音的流畅交流还有很大差距。

直接通过大脑活动信号来合成语音，是一种颇有前景的替代方案。拼写只是离散字母的连续串联，而语音则是一种高效的通信形式。

与基于拼写的方法相比，直接语音合成具有几个主要优点。除了以自然语速传递无约束词汇的能力之外，直接语音合成还能捕获语音的韵律元素，例如音调、语调，这些是文本输出所不具备的。

此外，当前替代通信设备的实际限制是学习和使用它们所需的认知努力。因此，对于由肌萎缩性侧索硬化或脑干中风引起的瘫痪患者，通过直接记录来自大脑皮层的神经控制信号来合成语音，是实现自然语言高通信速率的唯一手段，也是最直观的方法。

2017 年, 本文作者 Edward Chang 以及他的研究生 Claire Tang 就曾在 Science 杂志发表论文，阐述大脑皮层颞上回神经元在语言中的重要性。研究发现了人类大脑中用于辨别相对声调变化的神经元，这种神经元可以帮助人类在语言中明确表达感情、交流思想。

图 | Edward Chang 教授（来源：UCSF）

但揭示大脑信号如何控制声道发音部位的运动仍具有挑战性。因为说话这一过程需要对声道咬合部位进行非常精确和快速的多维控制。

而且，语音合成还存在一个与以往完全不同的挑战，就是解码声道运动和声音之间复杂的对应关系。自然语音产生涉及 100 多块小肌肉，从肌肉运动到声音的映射也不是一对一的。

每分钟能够生成150单词，接近正常人类水平

加州大学旧金山分校的研究人员与5名志愿者合作，志愿者们接受了一项被称为“颅内监测”的实验，其中电极被用于监测大脑活动，作为癫痫治疗的一部分。

许多癫痫患者的药物治疗效果并不好，他们选择接受脑部手术。在术前，医生必须首先找到病人大脑中癫痫发作的“热点”，这一过程是通过放置在大脑内部或表面的电极来完成的，并监测明显的电信号高峰。

精确定位“热点”的位置可能需要数周时间。在此期间，患者通过植入大脑区域或其附近的电极来度日，这些区域涉及运动和听觉信号。这些患者一般会同意利用这些植入物进行额外的实验。

ECoG电极阵列由记录大脑活动的颅内电极组成

此次招募的五名志愿者同意测试虚拟语音发生器。每个患者都植入了一两个电极阵列：图章大小的、包含几百个微电极的小垫，放置在大脑表面。

实验要求参与者背诵几百个句子，电极会记录运动皮层中神经元的放电模式。研究人员将这些模式与患者在自然说话时嘴唇，舌头，喉部和下颌的微小运动联系起来。然后将这些动作翻译成口语化的句子。

参与的志愿者大脑中的电极阵列位置

实验要求母语为英语的人听这些句子，以测试虚拟语音的流畅性。研究发现，大约70％的虚拟系统生成的内容是可理解的。

最终，这套新系统每分钟能够生成150单词，接近自然讲话的语速水平。而以前基于植入物的通信系统每分钟可以生成大约8个单词。

合成能听懂的语音

在 Nature 的这项最新研究中，为了实现将脑信号转换为可理解的合成语音，并且是以流利说话者的速度输出，研究人员设计了一种神经解码器，明确地利用人类皮层活动中编码的运动学和声音表征来合成可听语音。

研究人员招募 5 名正在接受癫痫治疗的参与者，作为癫痫治疗的一部分，他们会通过电极监测大脑活动。研究人员在 5 名受试者大声说出几百个句子时，记录下他们的高密度脑电图（ECoG）信号，并跟踪控制语音和发生部位运动的大脑区域活动。

为了重建语音，研究人员设计了一种循环神经网络（RNN），首先将记录的皮质神经信号转化为声道咬合关节运动，然后将这些解码的运动转化为口语句子。

图 | 用于语音合成的脑机接口（来源：Nature）

以前的语音合成研究采用了上图 a 的方法，即使用脑电图设备监测大脑语音相关区域的神经信号，并尝试使用循环神经网络将这些信号直接解码为合成语音。

而 Edward Chang 以及同事开发了一种不同的方法，将解码分为两个步骤。

第一步，将神经信号转换成声道咬合部位的运动（红色），这其中涉及语音产生的解剖结构（嘴唇、舌头、喉和下颌）。而为了实现神经信号到声道咬合部位运动的转化，就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动，因此他们建立了一个循环神经网络，根据以前收集的大量声道运动和语音记录数据库来建立关联。

第二步，将声道咬合部位的运动转换成合成语音。

图 | 神经解码语音合成过程（来源：Nature）

研究人员的这种两步解码方法，产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中，听者可以轻松地识别并记录下合成的语音。

在另外的测试中，一名受试者首先按要求说出句子，然后再不出声地做出相同的发音动作。结果表明，无声言语的合成效果不如有声言语，但是研究人员认为仍有可能解码无声言语的特征。

所有当前用于语音解码的方法都需要使用发声语音训练解码器，因此，基于这些方法的脑机接口技术也就不能让不会说话的人上手就用。对于已经丧失说话能力的患者来说，无法发声训练解码器是一个大问题。

但 Edward Chang 表示，虽然语音解码的准确性大大降低，但受试者在没有声音的情况下模仿发音仍然可以进行语音合成。至于那些不再产生语音相关运动的个体是否适用这套最新的语音合成脑机接口系统，还需要未来的进一步研究。

Chethan Pandarinath 和 Yahia Ali 认为，无论是在语音重建的准确性方面，还是在听众对所产生语句的辨识力方面，Edward Chang 及其同事的研究结果都为语音合成脑机接口的概念验证提供了令人信服的证据。

（来源：麻省理工科技评论）

不过，要使该系统真正成为一个临床可行的语音合成脑机接口，还存在许多挑战，毕竟重构语音的可懂度（intelligibility）仍远低于自然语音。好在，通过收集更大的数据集并继续开发基础计算方法，或许可以进一步改善语音合成脑机接口技术。

由于不能直接在动物身上进行相关研究，这在一定程度上限制了人类语言产生的研究进展，但近十年来，随着深度学习和人工神经网络的出现，以及多学科协作的能力，从探索语言相关大脑区域的开创性临床研究，到语音合成脑机接口的概念证明，都取得了引人注目的快速发展。

随着语音合成脑机接口的概念证明，我们期待有关临床试验的早日开展，也期待那些语言障碍患者能够早日重获自由说话并与世界重新联系的能力。

华裔科学家解码，马斯克脑机接口公司也会有新动作

Nature这篇文章的作者之一是加州大学旧金山分校神经外科教授Edward Chang博士。

Edward Chang博士的研究重点是言语、运动和人类情感的大脑机制，同时他也是加州大学旧金山分校和加州大学伯克利分校的合作单位——神经工程与假肢中心的联合负责人。该中心汇集了工程、神经病学和神经外科方面的专家，以开发最先进的生物医学技术，用以恢复神经系统残疾患者的功能，如瘫痪和言语障碍。

Edward Chang博士表示，这次在Nature上的研究，“我们通过解码大脑活动提升语音的清晰度，模拟的语音比从大脑中提取声音表示的合成语音更准确、更自然。”

人类将大脑与计算机相连的努力越来越多。

上个月，美国一组科学家在biorxiv.org上发表一篇论文，称找到了快速将电线植入大鼠大脑的方法，论文中描述这个过程是“向人类大脑直接插入计算机潜在系统迈出的重要一步”。

研究人员将他们的系统称为“缝纫机”（sewing machine），科学家在实验室中移除一块老鼠的头骨并插入一根针头，将柔性电极送入老鼠的脑组织。

彭博新闻报道，这组科学家与马斯克的脑机接口公司Neuralink有各种松散关联。

Neuralink于2016年注册为加州的一家医学研究公司，该公司聘请了来自不同大学的几位知名神经科学家，并与加州大学戴维斯分校的实验室签约，对灵长类动物进行研究。

本周三，当Twitter用户询问Neurink的进展时，马斯克说，“可能会在几个月内宣布一些值得注意的事情。”

马斯克认为，脑机接口技术能在2021年之前治疗严重的脑损伤。此外，科学可以通过脑机接口扩大人类的能力。他举了一个例子：人们可以通过心灵感应来传达复杂的概念，“你不需要用语言表达”。

人类是否有一天会与机器合并？马斯克认为，人类已经在某种程度上做到了这一点，因为智能手机等近乎无所不在的技术，因此脑机接口这项工作应该继续下去。

这可能会导致科幻未来，因为人们可以在脑海中下载外语，你觉得呢？

References：

https://www.nature.com/articles/s41586-019-1119-1

https://www.technologyreview.com/s/613421/scientists-have-found-a-way-to-decode-brain-signals-into-speech/

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。