【云声体验专场】项目一:MusicGen文本生成音乐

举报
周周的奇妙编程 发表于 2024/05/08 23:02:19 2024/05/08
【摘要】 前言在当今这个科技与艺术交织的时代,我们正见证着一场前所未有的内容创作革命。随着人工智能(AI)技术的迅猛发展,一种全新的创作模式——AI-Generated Content(AIGC)——正逐步重塑创意产业的面貌。《太空歌剧院》的获奖仅仅是冰山一角,揭示了AI在艺术创作领域的巨大潜力。而在音乐领域,这一变革尤为显著,AIGC正引领我们步入一个“文生音乐”的新时代。本文将以《MusicGe...

前言

在当今这个科技与艺术交织的时代,我们正见证着一场前所未有的内容创作革命。随着人工智能(AI)技术的迅猛发展,一种全新的创作模式——AI-Generated Content(AIGC)——正逐步重塑创意产业的面貌。《太空歌剧院》的获奖仅仅是冰山一角,揭示了AI在艺术创作领域的巨大潜力。而在音乐领域,这一变革尤为显著,AIGC正引领我们步入一个“文生音乐”的新时代。

本文将以《MusicGen文本生成音乐》为题,深入探索这一前沿技术如何通过智能算法的魔力,将无形的创意文字转化为绕梁之音。想象一下,只需输入几行描述或情感意向,一个强大的AI模型便能理解、解析并创造出符合这些指令的旋律与和弦,仿佛是拥有了灵魂的音乐织机,将创作者的思绪编织成独一无二的乐章。

体验地址

AIGC:音乐创新之旅——MusicGen文本生成音乐

技术原理浅析

本次AIGC音乐模型利用EnCodec神经音频编解码器来从原始波形中学习离散音频token。EnCodec将音频信号映射到一个或多个并行的离散token流。然后使用一个自回归语言模型来递归地对EnCodec中的音频token进行建模。生成的token然后被馈送到EnCodec解码器,将它们映射回音频空间并获取输出波形。最后,可以使用不同类型的条件模型来控制生成。

我们将其转化为五个阶段来看:

  1. 音频预处理:首先,原始音频数据(通常是.wav或.mp3格式的文件)被加载并转换为适当的数据结构(如时序数组),以便神经网络处理。

  2. 编码器部分:EnCodec的编码器部分接收这段预处理后的音频数据。编码器通常由多层卷积神经网络(CNNs)、循环神经网络(RNNs)或更现代的Transformer架构组成,它负责分析音频信号的特征,并将其转换成有意义的表示形式。

  3. 离散表示(Tokenization):接下来,编码器输出的连续特征向量通过一个量化过程转换为离散的符号或token。这个量化过程可能包括矢量量化(VQ)或其他高级技术,确保音频特征能够被有效地表示为有限的符号集,每个符号代表音频特征空间中的一个区域。

  4. 序列化:转换得到的离散token被组织成序列,这个序列就成为了音频内容的紧凑且可操作的表示形式。这种表示不仅压缩了原始音频数据,还为接下来使用自回归语言模型进行处理铺平了道路。

  5. 条件控制: 可以引入额外的条件(如风格、情感等)来指导生成过程。

image.png

操作实践

进入下图所示界面,点击【我要体验】。

image.png

选择【ModelArts中运行】。

image.png

点击确认,进入JupyterLab中。

image.png

进入后稍等一会儿,会弹出右侧边框,此处是设置你的代码运行环境,我们需要切换到免费的GPU服务器。(踩坑×1)

image.png

依次点击前面的加载符号,如出现运行的秒数则表示运行完成。

image.png

创建完成后,稍等片刻,或刷新页面,点击右上角kernel选择python-3.9.15

image.png

后面一路顺着操作即可。

image.png

最后结果如下:

image.png

总的来说还是没有很大问题的,但是中间确实也踩坑了几次。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。