说话人分类——概念简记

举报
墨理学AI 发表于 2022/01/14 00:26:05 2022/01/14
【摘要】 该段落摘自:基于BIC和G_PLDA的说话人分离技术研究 原作者:李 锐,卓 著,李 辉 引言 部分: 随着音频处理技术的不断提高,从海量的数据 中(如电话录音、新闻广播、会议录音等)获取感兴趣 的特...

该段落摘自:基于BIC和G_PLDA的说话人分离技术研究
原作者:李 锐,卓 著,李 辉

引言 部分:

  • 随着音频处理技术的不断提高,从海量的数据 中(如电话录音、新闻广播、会议录音等)获取感兴趣 的特定人声已成为研究热点[ 1].另外,如何对这类音 频文档进行合理有效的管理,也是目前存在的一个 挑战.美国国家标准局(NIST)从2002的丰富转写评测(richtranscription,RT)中正式加入了说话人 分离任务[ 2]( Speaker diarization,SD),该任务是指 从多人对话中自动地将语音依据说话人进行划分, 并加以标记的过程.
  • 与传统“鸡尾酒会”形式的复杂背景下混合语音 分离不同,说话人分离主要面向的是多个话者不同 时发声的场景,它解决的是“什么时候由谁说”这样 一个问题,而前者大多是通过盲源分离(BSS) [ 3]和 计算听觉场景分析(CASA)
    [ 4]等方式处理.目前的说话人分离技术主要包含两个过程:说话人分割 (speaker segmentation )和 说话人 聚 类 (Speaker clustering).

分割的过程是指从多人对话的音频中 找寻不同说话人身份转变的时间点,然后根据这些 变化点可以将语音分割成若干短语音段,理想情况 下,经分割后的每个短语音段只会包含一个说话人 的信息.聚类的过程则是将分割后的所有属于同一 个说话人的小片段通过一些聚类的方法,再重新组 合在一起. 说话人分离技术有着广泛的实际应用意义,如 可以利用该技术实现电话和会议数据的自动分离及 转写,将分离后的不同说话人声解码后,按敏感词检 测和目标人进行抽取;为构建和检索说话人音频档 案提供有效的信息.获得的信息既可以用于音频检 索;也可以用来对语音库进行自动标注和自动跟踪 等;同时它也是语音识别的基础,直接影响到语音识 别的精度.

  • 可能存在的错误分析如下:

说话人分类系统需要选出不同说话人的语音片段,因此说话人聚类的纯度和覆盖区域是当前的主要目标。可能存在的错误如下:

  1. 两个不同的聚类对应于同一个说话人
  2. 把两个不同说话人的片段合并到一个聚类中

这两种错误在NIST基于时间的二分化度量中,比边界划分错误更为严重

该系统由声学BIC分段和BIC分层聚类组成,使用维特比解码以调整分段边界。

文章来源: positive.blog.csdn.net,作者:墨理学AI,版权归原作者所有,如需转载,请联系作者。

原文链接:positive.blog.csdn.net/article/details/87799357

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。