音频信号质量的度量标准--MOS得分的由来

  早期语音质量的评价方式是凭主观的,人们在打通电话之后通过人耳来感知语音质量的好坏。1996年国际ITU组织在ITU-T P.800和P.830建议书开始制订相关的评测标准:MOS(Mean Opinion Score)测试。

它是一种主观测试方法,将用户接听和感知语音质量的行为进行调研和量化,由不同的调查用户分别对原始标准语音和经过无线网传播后的衰退声音进行主观感受对比,评出MOS分值,

 

在后来的研究和探索中,先后出现了如下几种客观测量方法: 

  • PSQM /PSQM+:Perceptual Speed Quality Measure,感知通话质量测量[2],定义在ITU-T P.861当中;
  • PESQ:Perceptual Evaluation of Speed Quality,感知评估通话质量测量[3],定义在ITU-T P.862当中;
  • PAMS:Perceptual Analysis Measurement System,感知分析测量,英国电信定义;
  • E-Model:该方法定义在ITU-T G.107当中。

  PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势,并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。

最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。这些方法主要缺点体现在:  

  • 不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的Delay和Jitter和Packet Loss等问题;
  • 不能说明End-to-End的网络延迟,而其他过多的延迟因素影响到了MOS值;
  • 只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;
  • 无法模拟多个或成百上千个重复同步的通话。


  此外,有必要指出,平均主观值MOS是广泛认同的语音质量标准。因此,无论采用何种方法,所有测量方法所得到的结果都必须对应到最终的平均主观值MOS。

参考文档:

http://www.emakerzone.com/test_comment_info/460/1

https://github.com/ludlows/python-pesq

https://github.com/dennisguse/ITU-T_pesq

https://github.com/vBaiCai/python-pesq

https://www.cnblogs.com/mengnan/p/12046332.html

原文地址:https://www.cnblogs.com/dylancao/p/14175103.html