AudioGPT, 全新的 音频内容理解与生成系统
来源:《云原生》第7期
作者简介:赵洲 / 浙江大学计算机科学与技术学院教授、博士生导师
ChatGPT、GPT-4等大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力,引起了学界和业界的极大关注,也让人们看到了LLM在构建通用人工智能 (AGI) 系统方面的潜力。
现有的GPT模型具有极高的语言生成能力,是目前最为先进的自然语言处理模型之一,广泛应用于对话、翻译、代码生成等的自然语言处理领域。除了书面语言,用户在自然对话中主要使用口语(Spoken Language),而大语言模型在音频处理领域的福利还差一些:
» GPT模态限制。用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态GPT不能满足对音频(语音、音乐、背景音、3D说话人)模态的理解、生成需求。
»音频数据、模型相对少。基础模型(Foundation Model)少或交互性差。相较于文本模态,用于重新训练语音多模态GPT的数据较少。
» 用户交互性差。用户广泛的使用语音助手如Siri, Alexa基于自然对话高效地完成工作。然而目前GPT之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。
为应对以上挑战,浙江大学、北京大学、卡内基梅隆大学、中国人民大学的研究人员提出了全新的音频理解与生成系统 AudioGPT。AudioGPT以 ChatGPT 充当负责对话与控制的大脑,语音基础模型协同完成跨模态转换、以及音频(语音、音乐、背景音、3D 说话人) 模态的理解、生成,能够解决 20 + 种多语种、多模态的 AI 音频任务。
论文中有一个多轮对话与上下文理解的例子,可以帮我们更好的理解AudioGPT是如何与人交互的,示例涵盖文本、图像和语音三种模态的输入,AudioGPT 能够理解不同模态的输入,生成结果也能以文本、图像、音频相结合的方式展现给用户。
AudioGPT语音模型在现有模型中具有不同的优势:
1. 相较于文本GPT:ChatGPT、GPT4等语言模型侧重于自然语言处理领域,在多模态理解与合成上福利少了一些,AudioGPT则将重点放在了音频多模态的理解与生成。
2. 相较于Siri等检索模型:与简单检索并以语音回复检索模型相比,AudioGPT强大的生成式对话,使得用户能够更加实时地获取和处理与内容相关的音频。
3. 相较于视觉任务GPT:图像不存在像音频一样的语种分类,音频中存在不同语种:如中文、英文、法语等,AudioGPT还需要进行语种管理。AudioGPT在收到用户请求时使用ChatGPT进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和众多的语音基础模型,AudioGPT能够完成几乎所有语音领域的任务。
AudioGPT 为走向语音通用人工智能开辟了一条新的道路。AudioGPT运行过程可以分成4个阶段:模态转化、任务分析、模型分配和回复生成。
Figure 1: A high-level overview of AudioGPT. AudioGPT can be divided into four stages withmodality transformation, task analysis, model as signment, and response generation. It equipsChatGPT with audio foun dation models to handle complex audio tasks, and is connected withmo dality transformation interface to enable spoken dialogue. We design principles to evaluate multi-modal LLMs in terms of consistency, capabil ity, and robustness
截至目前,AudioGPT涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌声合成等任务。实验结果证明了AudioGPT在处理多模态信息和复杂AI任务方面的强大能力。目前多模态的LLM层出不穷,Visual ChatGPT,HuggingGPT等模型吸引了越来越多的关注,然而如何测评多模态LLM模型也成了一大难点。为了解决这一难点,研究人员为多模态LLM的性能评估设计了测评准则和测评过程。具体来说,AudioGPT提出从三个方面测评多模态LLM: » 一致性(Consistency):度量AudioGPT是否正确的理解用户意图,并为之分配所需的模型» 稳定性(Capabilitity):度量基础的语音模型在其特定任务上的性能表现» 鲁棒性(Robustness):度量AudioGPT是否能正确的处理一些极端的例子针对一致性,研究人员设计了一套基于人工测评的流程。如上图所示:针对稳定性,AudioGPT调研了各语音基础模型在单任务领域的性能表现。
针对鲁棒性,从四个方面进行评估:
» 多轮对话的稳定性:多模态LLM应该具备处理多轮对话的能力并且能处理上下文关系
» 不支持的任务:目前多模态LLM并非万能的,当收到无法解决的请求时,多模态LLM也应该给予用户反馈
» 错误处理:多模态基础模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态 LLM需要向用户提供合理的反馈,以解释遇到的问题并提出潜在的解决方案
» 上下文中断:多模态LLM被期望处理不在逻辑序列中的查询。例如,用户可能会在查询序列中提交随机查询,但会继续执行具有更多任务的先前查询
- 点赞
- 收藏
- 关注作者
评论(0)