平均意见分数
平均意见分数(MOS)是在体验质量和通信工程领域中使用的衡量标准,代表刺激或系统的整体质量。它是所有受试者“在一个预先定义的范围内,一个受试者分配给他对系统质量表现的意见”的算术平均数。
MOS 是一种常用的视频、音频和视听质量评估方法。 ITU-T (页面存档备份,存于互联网档案馆)在建议 P.800.1 中定义了几种引用MOS的方式,区别于分数是从视听、会话、听、说还是视频质量测试中获得的。
评分量表和数学定义
MOS 由一个有理数表示,通常范围在1–5之间,其中1表示最低感知质量,5表示最高感知质量。MOS 的范围取决于在基础测试中使用的评级量表。
绝对类别评分标准非常常用,它将坏的和优秀之间的评分映射为1到5之间的数字,如下表所示。
评分 | 标签 |
---|---|
5 | 优秀 |
4 | 良好 |
3 | 一般 |
2 | 较差 |
1 | 坏的 |
ITU-T建议中存在其他标准化质量评级量表(例如P.800 (页面存档备份,存于互联网档案馆)或P.910 (页面存档备份,存于互联网档案馆) )。例如,可以使用 1-100 之间的连续刻度。使用哪种量表取决于测试的目的。在某些情况下,使用不同的量表对相同刺激评价,获得的评分没有统计学上的显着差异。 [1]
MOS 的计算方法是人类受试者在主观质量评估测试中对给定刺激进行的单个评分的算术平均值。因此:
公式中 是受试者对给定刺激的评分, 是受试者的数量。
MOS的属性
MOS 受制于某些数学性质和偏差。MOS 用一个标量值去量化体验质量的做法是否有用,存在持续的争论。 [2]
当使用分类评级量表获得 MOS 时,它基于 - 类似于李克特量表的 - 序数量表。在这种情况下,评级中的选项的顺序是已知的,但选项之间的间隔是未知的。因此,为了获得中心趋势而计算个人评分的平均值在数学上是不正确的;应该使用中位数。 [3]但是,在实践中以及在 MOS 的定义中,计算算术平均值被认为是可以接受的。
存在研究表明,对于分类评分量表(例如 ACR),受试者会认为量表中的选项是不等距的。例如,良好和一般之间的“差距”可能比 良好和优秀之间的“差距”更大。感知距离也可能取决于翻译量表的语言。 [4]然而,研究表明无法证明量表翻译对所得结果存在显著影响。 [5]
通常获取 MOS 分数的测试方法中还存在另外几个偏差。 [6]除了上面提到的非线性感知的量表问题之外,还有一个所谓的“范围均衡偏差”:在主观实验过程中,受试者倾向于给出的分数横跨整个评分量表。如果两个主观测试提供的样本质量范围不同,就不能比较这两个主观测试。换句话说,MOS 并不是质量的绝对量度,MOS 是相对于获得它的测试的。
由于上述原因 - 以及由于其他几个影响主观测试中感知质量的上下文因素 - 只有在已知并报告了收集值的上下文时才应该报告 MOS 值。因此,不应直接比较从不同环境和测试设计中收集的 MOS 值。 ITU-T P.800.2 (页面存档备份,存于互联网档案馆)建议书规定了如何报告 MOS 值。具体来说,P.800.2 中写道:
直接比较不同实验产生的 MOS 值是没有意义的,除非这些实验被明确设计用于比较,即使这样,也应该对数据进行统计分析以确保这种比较是有效的。
用于语音和音频质量估计的 MOS
MOS 历史上源于主观测量,听众会坐在“安静的房间”中,并根据他们的感知对电话通话质量进行评分。这种测试方法已在电话行业使用了数十年,并在ITU-T建议P.800 (页面存档备份,存于互联网档案馆)中标准化。它规定“讲话者应坐在安静的房间内,音量在 30 到 120 立方米之间,混响时间小于 500 毫秒(最好在 200 到 300 毫秒范围内)。室内噪音水平必须低于 30 dBA,并且频谱中没有主峰。”稍后在国际电联的建议中类似地规定了对其他模式的要求。
使用质量模型的 MOS 估计
获得 MOS 评级可能既耗时又昂贵,因为它需要招聘人工评估员。对于各种用例,例如编解码器开发或服务质量监控目的——应该重复和自动估计质量——也可以通过客观质量模型来预测 MOS 分数,这些模型通常是使用人类 MOS 评级开发和训练的。使用此类模型产生的一个问题是产生的 MOS 差异是否对用户来说是显而易见的。例如,当以五点 MOS 等级对图像进行评分时,MOS 等于 5 的图像的质量预计会明显优于 MOS 等于 1 的图像。与此相反,MOS 等于 3.8 的图像的质量是否明显优于 MOS 等于 3.6 的图像尚不清楚。为确定用户对数码照片可感知的最小 MOS 差异进行的研究表明,为了使 75% 的用户能够检测到更高质量的图像,需要大约 0.46 的 MOS 差异。 [7]然而,图像质量期望,因此 MOS,随着用户期望的变化而随着时间的推移而变化。[7]分析方法确定的最小显着 MOS 差异可能会随时间而变化。
参见
参考文献
- ^ Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. Study of Rating Scales for Subjective Quality Assessment of High-Definition Video. IEEE Transactions on Broadcasting. 2011-03-01, 57 (1): 1–14. ISSN 0018-9316. doi:10.1109/TBC.2010.2086750.
- ^ Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian. QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS. Quality and User Experience. 2016-12-01, 1 (1): 2. ISSN 2366-0139. arXiv:1607.00321 . doi:10.1007/s41233-016-0002-1 (英语).
- ^ Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.
- ^ Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.
- ^ Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study (PDF). IEEE Journal of Selected Topics in Signal Processing. October 2012, 6 (6): 640–651 [2022-01-24]. ISSN 1932-4553. doi:10.1109/jstsp.2012.2215306. (原始内容存档 (PDF)于2022-01-24).
- ^ Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.
- ^ 7.0 7.1 Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality. Quality and User Experience. 2018-05-02, 3 (1): 6. ISSN 2366-0139. doi:10.1007/s41233-018-0019-8.