過適

过度回应特定数据集,无法适应其他数据

統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地調適其他資料或預測未來的觀察結果的現象[1]過適模型指的是相較有限的資料而言,參數過多或者結構過於複雜的統計模型[2]發生過適時,模型的偏差小而方差大。過適的本質是訓練演算法從統計噪聲中不自覺取得了資訊並表達在了模型結構的參數當中。[3]:45相較用於訓練的資料總量來說,一個模型只要結構足夠複雜或參數足夠多,就總是可以完美地適應資料的。過適一般可以視為違反奧卡姆剃刀原則。

綠線代表過適模型,黑線代表正則化模型。雖然綠線完美的符合訓練數據,但調適得太過緊密或精確;並且與黑線相比,在新的測試資料上會有更高的錯誤率。

與過適相對應的概念是乏適(英語:underfitting,或稱:擬合不足);它是指相較於資料而言,模型參數過少或者模型結構過於簡單,以至於無法捕捉到資料中的規律的現象。發生乏適時,模型的偏差大而方差小。

機器學習類神經網絡中,過適與乏適有時也被稱為「過訓練(英語:overtraining)」和「欠訓練(英語:undertraining)」。

之所以存在過適的可能,是因為選擇模型的標準和評價模型的標準是不一致的。舉例來說,選擇模型時往往是選取在訓練資料上表現最好的模型;但評價模型時則是觀察模型在訓練過程中不可見資料上的表現。當模型嘗試「記住」訓練資料而非從訓練資料中學習規律時,就可能發生過適。一般來說,當參數的自由度或模型結構的複雜度超過資料所包含資訊內容時,調適後的模型可能使用任意多的參數,這會降低或破壞模型一般化的能力。

在統計學習和機器學習中,為了避免或減輕過適現象,須要使用額外的技巧(如模型選擇交叉驗證提前停止正則化剪枝貝葉斯資訊量準則赤池資訊量準則dropout)。在treatment learning中,使用最小最佳支援值(英語:minimum best support value)來避免過適。[來源請求]這些方法大致可分為兩類:1. 對模型的複雜度進行懲罰,從而避免產生過於複雜的模型;2. 在驗證資料上測試模型的效果,從而模擬模型在實際工作環境的資料上的表現。

機器學習

 
監督學習(例如神經網絡)中的過適/過訓練。訓練誤差用藍色表示,驗證誤差用紅色表示。二者均為訓練迭代次數的函數。若訓練誤差穩定下降,但驗證誤差上升,則說明可能出現過適。最佳模型應當是驗證誤差位於最低點時的模型。

機器學習模型的典型產出過程是由機器學習演算法訓練集上進行訓練,希望得到的模型能夠在訓練過程中不可見的驗證集上表現良好。過適現象發生在使用違反奧卡姆剃刀原則的模型或演算法時:當引入相較資料集而言過多的參數時,或使用相較資料集而言過於複雜的模型時。

假設有一個訓練集,其基準真相 y 可以用一個二元線性函數很好地預測出來。顯而易見,該函數只有3個參數:一個截距,兩個斜率。將該函數替換成更為複雜的二次函數或更多元的線性函數的風險在於:奧卡姆剃刀表明,相較於給定的簡單函數,任何給定的複雜函數的預測都更不可靠。[4]:358如果最終選擇了複雜函數而非簡單函數;並且在調適訓練資料時相較簡單函數,複雜函數帶來的收益沒有抵消模型複雜度的增加,那麼複雜函數就過適了資料。此時,儘管複雜函數在訓練集上的表現與簡單函數相同甚至更好,但在訓練資料之外的驗證資料上的表現,複雜函數可能會更糟糕。[5]

在確定模型複雜度時,簡單地計算各模型中參數的數量是不可靠的,還需要考慮參數的表達方式。舉例來說,直接比較帶有 m 個參數的神經網絡(它能夠跟蹤非線性關係)和帶有 n 個參數的回歸模型是非平凡的。[5]

過適尤其容易在訓練迭代次數相對有限訓練範例過多的時候。此時,模型會調適訓練資料中特徵的隨機噪聲,而這些與目標函數之間並無因果關係。在這種過適的過程中,模型在訓練範例上的效果會持續提升,但在訓練中不可見的資料(通常是驗證集)上的效果會變得更差。舉個簡單的例子:假設有一個資料集,其中包含了零售的物品、買家、購買日期、購買時間。人們很容易在這個資料集上構造模型,來根據購買日期和購買時間預測其他屬性;但該模型在新資料上沒有任何一般化效能,因為過去的時間再也不會出現了。

概括地說,機器學習演算法在已知資料上很精確但在新資料上不精確的情形,可以稱之為過適。人們可以這樣在直覺上理解過適:「過去的經驗可被分為兩個部分:與將來有關的資料、與將來無關的資料(噪聲)」。在其他條件都相同的情況下,預測的難度越大(不確定性越高),則過去資訊中需要被當做噪聲忽略的部分就越多。問題的難點在於,如何確定哪些資料應當被忽略。

能夠避免調適噪聲的機器學習演算法是健壯的演算法。

後果

過適最顯著的後果就是在驗證集上的效果很差;其他後果羅列如下:[5]

  • 相較調適恰當的模型而言,調適過度的模型傾向於從驗證集的每個範例中取得更多資訊;收集這些不必要的資訊可能代價是高昂的,或者具有錯誤傾向的。當這些資訊需要人工觀察或者標註時,這種代價尤其明顯。
  • 調適過度的複雜模型相較簡單模型的可移植性更差。極端地說,一元線性回歸模型可移植性非常好,甚至,但凡必要時,甚至可以用徒手進行計算。另一方面,極端複雜的模型只能在原始資料集上復現,這給模型的重用和理論研究的復現帶來了困難。

擴充閱讀

參考文獻

  1. ^ OxfordDictionaries.comoverfitting頁面存檔備份,存於互聯網檔案館)的統計學定義。
  2. ^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
  3. ^ Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar.)
  4. ^ Francesco Pezzella, Mahvash Tavassoli, David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press. 
  5. ^ 5.0 5.1 5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling, 44.1: 1–12.

外部連結