【云驻共创】智能AI语音技术的高水平应用
一、背景
智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。当前,人工智能的关键技术均以实现感知智能和认知智能为目标。目前我国AI智能语音行业进入到了技术落地期。国内外的相关企业都纷纷开放语音生态系统,以产业内合作的方式,将语音技术植入产品或应用于相关业务场景,构建全产业生态链厂。对于现在的中国国情来说,人口红利消失殆尽,未来老龄化等人口问题越来越严峻。能代替人力、提高生产、服务效率的技术必将得到重视和发展。而AI语音技术则是非常符合社会发展要求的技术。AI语音技术就是机器利用语音识别、语音合成和语音理解等人工智能技术,通过拟人化的语音、文字等方式与对方进行自然流畅交互的技术。AI语音技术作为近几年发展最为成熟的人工智能技术方向,也逐渐成为行业数字化不可或缺的“增长基石”。在国家新基建规划政策下,人工智能AI拥有重要的战略地位。在AI加持下,一大批优秀的AI语音公司涌现,在以下几个领域AI语音技术有了不错的发展。
二、应用场景
2.1智能家居
在智能家居方面,AI语音技术使我们的智能家电越来越好用。现在的智能家电能将“AI语音+大数据+深度学习”结合起来,让家电产品能听能说能看,了解用户需要什么,从而让使用户脱离手机、遥控器。能直接与机器进行听、说、看的自然交互,让智能家电更具有人性化。这种AI语音智能技术还为生活娱乐产品的应用操作带来了极大的便利。目前,智能音箱作为所有智能家居交互的入口,扮演着一个重要的角色,除了常规的日程设置、音乐播放、天气等信息查询,智能音箱还可以控制灯光、空调、电视、窗帘等。还有现在有部分电视内嵌了声纹识别技术,电视会根据不同的音色识别到不同的角色(如:男性、女性、儿童),从而提供个性化视觉及内容推送服务。用户想看电影但不知道看什么,对电视说“我想看电影”,那么电视会根据识别到的人不同,而显示推荐出不同的内容,并且能控制非注册在系统中的人员不能操控。
部分摘录自https://baike.baidu.com/tashuo/browse/content?id=f60e30109b94efe8b2a48b32
2.2智能出行
在智能出行方面,AI语音技术也是有很大的用处,而且在车载领域存在刚需,从最早的语音导航,到如今的车载语音控制系统,AI语音交互提供了包括车辆控制、社交以及娱乐等多种全新的交互方式,让驾驶员的注意力不再集中在各种繁杂的设置以及按钮上,在提升驾驶体验的同时能够在一定程度上增强行车的安全性。与传统车载系统通过按键或者屏幕操控不同,多模态融合检测、智能语音交互、多屏互动手势操作等一系列技术,将成为下一代智能座舱的标配。由于车内环境相对稳定,语音识别率高,因此座舱内是部署语音交互的极佳落地场景。
2.3智能教育
在智能教育方面,AI语音技术可以作为课堂质量辅助和线上虚拟两部分。课堂质量辅助通过融合语音、视觉及文字技术辅助教师授课,实现实时字幕转录、重点内容快速定位、课堂数据分析等。尤其是新冠疫情以来,线上教学的需求量越来越大,基于AI语音交互的虚拟教师结合VR技术,可以摆脱教师人数的限制,一对一授课,并进行精准分析,提升学生学习的效果。语音测评和人机对话技术结合语义技术应用到普通话、古诗词及外语教学中,可以快速纠正发音韵律及语法错误,并且逐渐被应用到考试场景中。
2.4智能医疗
在智能医疗方面,AI语音技术帮助医院和医疗机构提高了医疗服务的质量。新冠疫情、经济增长放缓、竞争加剧等多重挑战下,企业加速应用人工智能进行智能化建设,但仍面临诸多挑战。之前很多医院初期的随访工作是通过电话随访,人工坐席外呼工作量大,导致随访工作流于形式,随访流程繁杂,医生参与率低。而语音对话机器人的出现,非常适合解决医疗市场的长期低效率问题,在降低成本、减少医护人员时间负担的同时,能为患者带来不一样的体验提升。过去,传统的随访都要医护人员挨个拨打病人的电话询问患者的术后状况,并做记录。比如,医院日间手术平均每天出院病人在120人次以上,而每位病人一般在术后24-48小时要进行一次随访,就意味着医务人员每天要花9-12个小时用于电话随访,这给医院带来了巨大的随访工作量,而AI语音随访可以做到每天无间断、全覆盖随访,一天内可完成400-1000人次的随访工作,极大的提高了随访的工作量。数据摘录自《人工智能语音外呼系统在医学的运用》。
2.5华为智能语音助手
智能语音助手可根据客户需求构建支持语音交互能力,且具备知识库、任务型对话、多轮对话、表格问答、自动文本生成、多模态等多种对话机器人能力的AI助手,赋能不同行业客户。产品具有很多优势,满足客户为客户量身定制,满足客户需求量身定制智能语音机器人;使用业界领先的自然语言算法,理解大量知识技术能力十分强;打通语音交互能力,一个接口搞定语音识别和对话能力;应用场景也十分广泛,比如大屏语音助手和应用对话助手。
三、核心技术
智能语音技术涉及多类型学科,其核心技术包括语音识别、声纹识别、自然语言处理、语音合成、语音去燥等关键技术。
3.1 语音识别
语音识别技术也被称为自然语言识别,目的就是将人类的语音中的词汇内容转换为计算机可读的输入。我国的语音识别研究始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。部分摘录自《智能控制在语音识别中的应用 》。
3.2 声纹识别
声纹识别就是生物识别技术的一种,也称为说话人识别,就是通过声音识别说话的人。声纹识别就是把声信号转换成电信号,再由计算机进行识别。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,每个人的声纹就好比是每个人的指纹,都有很大的差异。因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。声纹识别也是具有一些缺点的,比如同一个人的声音有易变性,易受身体状况或者是外部环境的影响。比如不同的情绪,比如是感冒生病都是会影响的。声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如信息领域、公安司法、军队和国防等等。
3.3自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言NLP的两大核心任务是NLU和NLG。NLU是自然语言理解,就是希望机器像人一样具备正常人的语言理解能力,由于自然语言在理解上有很多难点,所以NLU至今远远不如人类的表现;NLG是自然语言生成,是为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。
3.4语音合成
语音合成是通过机械的、电子的方法产生人造语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形,后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成。
3.5语音去噪
语音去噪又被称为语音增强,主要是针对于有人声的音频进行处理,目的是去除那些背景噪声,增强音频中人声的可懂性。其应用范围很广,可以用于人与人之间的语音通讯,也可以用于很多语音任务的预处理。
四、结语
智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最热门的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。到现在为止,智能AI语音应用领域广泛为我们的生活带来了很多的好处。随着科技的发展,智能AI语音技术也越来越成熟,相信在未来智能AI会越来越强。
本文参与华为云社区【内容共创】活动第16期。
https://bbs.huaweicloud.com/blogs/352652
任务35:智能AI语音技术发展现状如何,在哪些领域有了高水平应用?
- 点赞
- 收藏
- 关注作者
评论(0)