平均意見分數

平均意見分數(MOS)是在體驗質量和通信工程領域中使用的衡量標準,代表刺激或系統的整體質量。它是所有受試者「在一個預先定義的範圍內,一個受試者分配給他對系統質量表現的意見」的算術平均數

MOS 是一種常用的視頻、音頻和視聽質量評估方法。 ITU-T 頁面存檔備份,存於網際網路檔案館)在建議 P.800.1 中定義了幾種引用MOS的方式,區別於分數是從視聽、會話、聽、說還是視頻質量測試中獲得的。

評分量表和數學定義

MOS 由一個有理數表示,通常範圍在1–5之間,其中1表示最低感知質量,5表示最高感知質量。MOS 的範圍取決於在基礎測試中使用的評級量表。

絕對類別評分英語Absolute Category Rating標準非常常用,它將壞的優秀之間的評分映射為1到5之間的數字,如下表所示。

評分 標籤
5 優秀
4 良好
3 一般
2 較差
1 壞的

ITU-T建議中存在其他標準化質量評級量表(例如P.800頁面存檔備份,存於網際網路檔案館)或P.910頁面存檔備份,存於網際網路檔案館) )。例如,可以使用 1-100 之間的連續刻度。使用哪種量表取決於測試的目的。在某些情況下,使用不同的量表對相同刺激評價,獲得的評分沒有統計學上的顯着差異。 [1]

MOS 的計算方法是人類受試者在主觀質量評估測試英語Subjective video quality中對給定刺激進行的單個評分的算術平均值。因此:

 

公式中   是受試者對給定刺激的評分,  是受試者的數量。

MOS的屬性

MOS 受制於某些數學性質和偏差。MOS 用一個標量值去量化體驗質量的做法是否有用,存在持續的爭論。 [2]

當使用分類評級量表獲得 MOS 時,它基於 - 類似於李克特量表的 - 序數量表。在這種情況下,評級中的選項的順序是已知的,但選項之間的間隔是未知的。因此,為了獲得中心趨勢而計算個人評分的平均值在數學上是不正確的;應該使用中位數。 [3]但是,在實踐中以及在 MOS 的定義中,計算算術平均值被認為是可以接受的。

存在研究表明,對於分類評分量表(例如 ACR),受試者會認為量表中的選項是不等距的。例如,良好一般之間的「差距」可能比 良好優秀之間的「差距」更大。感知距離也可能取決於翻譯量表的語言。 [4]然而,研究表明無法證明量表翻譯對所得結果存在顯著影響。 [5]

通常獲取 MOS 分數的測試方法中還存在另外幾個偏差。 [6]除了上面提到的非線性感知的量表問題之外,還有一個所謂的「範圍均衡偏差」:在主觀實驗過程中,受試者傾向於給出的分數橫跨整個評分量表。如果兩個主觀測試提供的樣本質量範圍不同,就不能比較這兩個主觀測試。換句話說,MOS 並不是質量的絕對量度,MOS 是相對於獲得它的測試的。

由於上述原因 - 以及由於其他幾個影響主觀測試中感知質量的上下文因素 - 只有在已知並報告了收集值的上下文時才應該報告 MOS 值。因此,不應直接比較從不同環境和測試設計中收集的 MOS 值。 ITU-T P.800.2頁面存檔備份,存於網際網路檔案館)建議書規定了如何報告 MOS 值。具體來說,P.800.2 中寫道:

直接比較不同實驗產生的 MOS 值是沒有意義的,除非這些實驗被明確設計用於比較,即使這樣,也應該對數據進行統計分析以確保這種比較是有效的。

用於語音和音頻質量估計的 MOS

MOS 歷史上源於主觀測量,聽眾會坐在「安靜的房間」中,並根據他們的感知對電話通話質量進行評分。這種測試方法已在電話行業使用了數十年,並在ITU-T建議P.800頁面存檔備份,存於網際網路檔案館)中標準化。它規定「講話者應坐在安靜的房間內,音量在 30 到 120 立方米之間,混響時間小於 500 毫秒(最好在 200 到 300 毫秒範圍內)。室內噪音水平必須低於 30 dBA,並且頻譜中沒有主峰。」稍後在國際電聯的建議中類似地規定了對其他模式的要求。

使用質量模型的 MOS 估計

獲得 MOS 評級可能既耗時又昂貴,因為它需要招聘人工評估員。對於各種用例,例如編解碼器開發或服務質量監控目的——應該重複和自動估計質量——也可以通過客觀質量模型來預測 MOS 分數,這些模型通常是使用人類 MOS 評級開發和訓練的。使用此類模型產生的一個問題是產生的 MOS 差異是否對用戶來說是顯而易見的。例如,當以五點 MOS 等級對圖像進行評分時,MOS 等於 5 的圖像的質量預計會明顯優於 MOS 等於 1 的圖像。與此相反,MOS 等於 3.8 的圖像的質量是否明顯優於 MOS 等於 3.6 的圖像尚不清楚。為確定用戶對數碼照片可感知的最小 MOS 差異進行的研究表明,為了使 75% 的用戶能夠檢測到更高質量的圖像,需要大約 0.46 的 MOS 差異。 [7]然而,圖像質量期望,因此 MOS,隨着用戶期望的變化而隨着時間的推移而變化。[7]分析方法確定的最小顯着 MOS 差異可能會隨時間而變化。

參見

參考文獻

 

  1. ^ Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. Study of Rating Scales for Subjective Quality Assessment of High-Definition Video. IEEE Transactions on Broadcasting. 2011-03-01, 57 (1): 1–14. ISSN 0018-9316. doi:10.1109/TBC.2010.2086750. 
  2. ^ Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian. QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS. Quality and User Experience. 2016-12-01, 1 (1): 2. ISSN 2366-0139. arXiv:1607.00321 . doi:10.1007/s41233-016-0002-1 (英語). 
  3. ^ Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.
  4. ^ Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.
  5. ^ Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study (PDF). IEEE Journal of Selected Topics in Signal Processing. October 2012, 6 (6): 640–651 [2022-01-24]. ISSN 1932-4553. doi:10.1109/jstsp.2012.2215306. (原始內容存檔 (PDF)於2022-01-24). 
  6. ^ Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.
  7. ^ 7.0 7.1 Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality. Quality and User Experience. 2018-05-02, 3 (1): 6. ISSN 2366-0139. doi:10.1007/s41233-018-0019-8.