【愚公系列】《人工智能70年》023-语音合成创造奇迹(语音合成的漫漫长路)

举报
愚公搬代码 发表于 2025/11/01 23:17:37 2025/11/01
【摘要】 💎【行业认证·权威头衔】✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"(2022-2024)🎖 双冠加冕CSDN"年度博客之星TOP...

image.png

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析

🚀前言

一系列 AI技术,让霍金创造了不开口也能说话的奇迹。
image.png

🚀一、语音合成的漫漫长路

语音合成,又称文本转语音(Text to Speech, TTS)技术,顾名思义,是一种将文本信息转换为人类可听语音的技术。与语音识别(ASR)相比,语音合成通常被认为在技术实现上相对简单,其发展历程也似乎印证了这一点。人类语音本质上是发音器官振动产生的声波,最早模拟人声的方式甚至可追溯至使用乐器仿声。到19世纪,机械式语音生成装置已经出现。

进入电子时代后,语音合成技术迎来重要突破。1939年,贝尔实验室的 H. 杜德利(H. Dudley)研制出世界上第一台电子语音合成器,采用共振峰合成原理——该技术至今仍被广泛使用。1960年,瑞典科学家冈纳·范特(Gunnar Fant)出版了奠基性著作《语音产生的声学理论》,为现代语音分析与合成奠定了理论基础,极大推动了语音合成技术的发展。

1980年,D. 克拉特(D. Klatt)设计出串/并联混合型共振峰合成器,能够模拟不同嗓音特征,进一步提升语音的自然度。20世纪80年代末,基音同步叠加(PSOLA)算法的提出,有效解决了语音段拼接中的韵律协调问题,显著改善了合成语音的流畅性。

随着20世纪90年代计算和存储能力的大幅提升,基于大语料库的单元挑选与波形拼接方法逐渐成为主流。该方法通过从真实人声录音中提取语音单元并进行拼接,可合成出高质量、接近自然人声的语音。

20世纪末,可训练语音合成方法(Trainable TTS)被提出,大幅降低了系统规模,使语音合成能够嵌入到移动设备中,并支持多语种合成需求。

进入21世纪,语音合成技术持续飞速发展。在实现接近真人发音水平的基础上,研究重点逐渐转向合成语音的音色多样性、情感表达及个性化设置,使生成的声音更加自然、富有表现力,更好地满足不同应用场景与人机交互需求。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。