[其他] 语音交互服务使用中出现中间识别结果非常差的情况?

发送音频的时候,由于音频文件比较大,一般需要分片发送,如何确定分片大小,会直接影响处理效率以及识别结果。当发送分片过小时,识别结果会与真实结果偏差较大。

解决方案

1. 推荐每次分片时间50ms-1000ms,建议在需要实时反馈的情况下100ms,不需要实时反馈的情况下500ms。

2. 可通过公式计算分片大小,位宽 * 采样率 * 分片时间(秒)/ 8。例如audio_format为pcm16k16bit, 16k代表每秒采样16000次,16bit代表采样位数为16位,如果分片时间为50ms,则分片大小为 16 * 16000 * 0.05(秒)/ 8 = 1600B.