- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

神经科学家将脑波转化为可识别的语音

Steven18 发表于 2019/01/30 10:04:55 2019/01/30

5.6k+ 0 0

【摘要】科学家利用脑扫描技术，人工智能和语音合成器，将大脑模式转化为可理解的口头语言 - 这种进步最终可以为那些没有语言的人提供声音。很遗憾斯蒂芬霍金看不到这一点，因为他可能已经真正开始了。由纽约哥伦比亚大学神经声学处理实验室的研究人员开发的新语音系统是已故物理学家可能从中受益的东西。霍金患有肌萎缩侧索硬化症（ALS），一种运动神经元疾病，带走了他的口头语言，但他继续使用计算机和语音...

科学家利用脑扫描技术，人工智能和语音合成器，将大脑模式转化为可理解的口头语言 - 这种进步最终可以为那些没有语言的人提供声音。

很遗憾斯蒂芬霍金看不到这一点，因为他可能已经真正开始了。由纽约哥伦比亚大学神经声学处理实验室的研究人员开发的新语音系统是已故物理学家可能从中受益的东西。

霍金患有肌萎缩侧索硬化症（ALS），一种运动神经元疾病，带走了他的口头语言，但他继续使用计算机和语音合成器进行交流。通过使用贴在眼镜上的脸颊开关，霍金能够预先选择计算机上的文字，这些文字由语音合成器读出。这有点乏味，但它允许霍金每分钟产生十几个单词。

但想象一下，如果霍金不必手动选择和触发单词。事实上，一些人，无论是ALS，锁定综合症，还是正在从中风中康复，都可能没有掌握控制计算机所需的运动技能，即使只是调整脸颊。理想情况下，人工语音系统会直接捕获个人的想法以产生语音，从而消除了控制计算机的需要。

今天发表在“科学进步”上的新研究使我们向这一目标迈出了重要的一步，但它并没有捕捉到个人内心的思想来重建语言，而是使用了听取语音时产生的大脑模式。

为了设计这样一种语音神经假体，神经科学家Nima Mesgarani和他的同事将深度学习的最新进展与语音合成技术相结合。它们由此产生的脑 - 计算机界面虽然仍然不成熟，但直接从听觉皮层捕获了大脑模式，然后由AI驱动的声码器或语音合成器对其进行解码，以产生可理解的语音。演讲是非常机器人的声音，但四分之三的听众能够辨别出内容。这是一个令人兴奋的进步 - 最终可以帮助那些失去言语能力的人。

要明确的是，Mesgarani的神经假体装置并没有翻译个人的隐蔽言论 - 也就是说，我们头脑中的思想，也称为想象的言语 - 直接转化为文字。不幸的是，我们在科学方面还不是很完美。相反，系统在听取人们录音的录音时捕获了个人独特的认知反应。然后，深度神经网络能够解码或翻译这些模式，从而允许系统重建语音。

“这项研究延续了应用深度学习技术解码神经信号的最新趋势，”纽卡斯尔大学神经接口教授安德鲁杰克逊没有参与这项新研究，他告诉Gizmodo。“在这种情况下，神经信号是在癫痫手术期间从人脑表面记录的。参与者听取演员阅读的不同单词和句子。训练神经网络以学习大脑信号和声音之间的关系，结果可以仅基于大脑信号重建单词/句子的可理解复制品。

选择癫痫患者进行研究，因为他们经常需要进行脑部手术。Mesgarani在Aswellh Dinesh Mehta的帮助下，Northwell Health Physician Partners神经科学研究所的神经外科医生和新研究的共同作者，招募了五名志愿者进行实验。当患者听到连续的语音时，该团队使用侵入性脑电图（ECoG）来测量神经活动。例如，患者听了讲述从0到9的数字的发言者。然后将他们的大脑模式输入到启用AI的声码器中，从而产生合成语音。

结果非常机器人听起来，但相当容易理解。在测试中，听众可以在75％的时间内正确识别口语数字。他们甚至可以判断说话者是男性还是女性。不错，结果甚至对Mesgaran来说是一个“惊喜”，因为他在一封电子邮件中告诉Gizmodo。

语音合成器的录音可以在这里找到（研究人员测试了各种技术，但最好的结果来自深度神经网络与声码器的结合）。

在这种情况下使用语音合成器，而不是能够匹配和背诵预先录制的单词的系统，对Mesgarani来说非常重要。正如他向Gizmodo解释的那样，除了将正确的词汇放在一起之外，还有更多的内容。

“由于这项工作的目标是恢复那些失去谈话能力的人的语言交流，我们的目的是学习从大脑信号到语音本身的直接映射，”他告诉Gizmodo。“也可以解码音素[不同的声音单位]或单词，但是，语音比内容更多的信息 - 例如说话者[具有独特的声音和风格]，语调，情感基调等等。上。因此，我们在这篇论文中的目标是恢复声音。“

展望未来，梅斯加拉尼希望综合更复杂的单词和句子，并收集那些只是在思考或想象说话行为的人的大脑信号。

杰克逊对这项新研究印象深刻，但他表示目前尚不清楚这种方法是否会直接应用于脑机接口。

“在论文中，解码的信号反映了大脑听到的实际单词。为了有用，通信设备必须解码用户想象的单词，“杰克逊告诉Gizmodo。“尽管在听力，说话和想象语言中涉及的大脑区域之间经常存在一些重叠，但我们还不知道相关的大脑信号究竟有多相似。”

梅奥诊所的神经学家威廉·塔图姆也没有参与这项新研究，她说这项研究很重要，因为它是第一个使用人工智能从脑波中重建语音来产生已知声学刺激的人。其重要性值得注意，“因为它推动了深度学习在下一代设计更好的语音产生系统中的应用，”他告诉Gizmodo。也就是说，他觉得参与者的样本量太小，并且在手术过程中直接从人脑中提取的数据的使用并不理想。

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务