分類問題之損失函數

機器學習最佳化領域中,分類問題之損失函數可以用來表達預測不準確之程度,其中分類問題主要是用來判斷所偵測到的物件屬於什麼類別。將一個向量空間做為所有的輸入值,而向量空間做為所有的輸出值。我們希望能夠找到最佳的公式映射到[1]。然而,由於信息不完整、雜訊、計算過程中的非確定性模塊等因素,有可能會有相同的輸入值映射到不同的輸出值[2]。因此,這個學習過程的目的就是要最小化預期風險(更詳細的介紹參見統計學習理論),預期風險之定義為:

各種代理損失函數的曲線。藍色為0–1指示函數,綠色為平方損失函數,紫色為鉸鏈損失函數,黃色為邏輯損失函數。注意所有代理損失函數對y=f(x= 0) 均給出1的懲罰。

其中即損失函數,而為機率密度函數。而實作上概率分布通常是未知的,因此我們使用由數據樣本空間中取出的獨立且同分布(i.i.d.)的樣本點

作為訓練集,將樣本空間所得到的經驗風險做為預期風險的替代,其定義為:

基於分類問題的二元性,可定義0-1函數做為匹配值之基準。因此損失函數為:

其中步階函數。然而損失函數並不是凸函數或平滑函數,是一種NP-hard的問題,因此做為替代,需要使用可以追蹤的機器學習演算法(透過凸損失函數)。

分類問題之界線

使用貝式定理,可以基於問題的二元性最佳化映射公式 為:

 

 

簡化分類問題預期風險

 

平方損失

 

平方損失凸且平滑,但容易過度懲罰錯誤預測,導致收斂速度比邏輯損失和鏈結損失慢。它的優點為有助於簡化交叉驗證之正則化(regularization)。

最小化預期風險之映射函數為:

 

鏈結損失

 

鏈結損失公式等同於支持向量機(SVM)的損失公式。鏈結損失凸但不平滑(在 不可微分),因此不適用於梯度下降法隨機梯度下降法,但適用次梯度下降法。 最小化預期風險之映射函數為:

 

廣義平滑鏈結損失

 

其中 

邏輯損失

 

適用於梯度下降法,但不會對錯誤預測做懲罰。 最小化預期風險之映射函數為:

 

交叉熵損失

 

其中  so that   屬於凸函數,適用於隨機梯度下降法。

指數損失

 

參考資料

  1. ^ Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], (原始內容存檔 (PDF)於2019-06-14) 
  2. ^ Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014