核方法

機器學習中，核機是一類用於模式分析的算法，最知名的成員是支持向量機（SVM）。這些方法用線性分類器解決非線性問題。^[1]模式分析的一般任務是在數據集中發現並研究一般類型的關係（如聚類分析、排名、主成分分析、相關性分析、統計分類）。對許多解決此類任務的算法來說，原始表示的數據必須通過用戶指定的特徵映射明確轉換為特徵向量表示；相反，核方法只需要用戶指定核，即用內積計算所有數據點對的相似性函數。核機中的特徵映射是無限維的，但根據表示定理，只需輸入有限維矩陣。在不並行處理的情況下，核機的計算速度會很慢。

核方法得名於核函數的使用，使其能在高維隱特徵空間中運行，而無需計算空間中數據的坐標，只需計算特徵空間中所有數據對的像之間的內積。這種運算比顯式計算坐標更節約，稱為「核技巧」。^[2]核函數已被引入序列數據、圖核函數、文本、圖像及向量處理中。

能使用核的算法有核感知器、支持向量機（SVM）、高斯過程、主成分分析（PCA）、典型相關分析、嶺回歸、譜聚類、自適應濾波器等等很多算法。大多數核算法都基於凸優化或特徵問題，有很好的統計學基礎。通常用統計學習理論（如拉德馬赫複雜度）分析其統計特性。

動機與非正式解釋

核方法可被視為基於實例的學習器：不是學習與輸入特徵相對應的固定參數集，而是「記憶」第 $i$ 個訓練樣本 $(\mathbf {x} _{i},y_{i})$ 並學習相應權 $w_{i}$ 。預測不在訓練集中的輸入（未標記輸入）是用未標記輸入 $\mathbf {x'}$ 與每個訓練輸入 $\mathbf {x} _{i}$ 的相似性函數 $k$ （稱作核）。例如，核化二分分類器通常計算相似度的加權和

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

,

其中

${\hat {y}}\in \{-1,+1\}$ 是核化二分分類器對無標輸入 $\mathbf {x'}$ 的預測標籤，其隱藏的真實標籤 $y$ 是我們感興趣的；
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ 是核函數，度量了任意一對輸入 $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ 的相似性；
和的範圍是分類器訓練集中的n個有標示例 $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}\ (y_{i}\in \{-1,+1\})$ ；
$w_{i}\in \mathbb {R}$ 是由學習算法確定的訓練樣本的權重；
符號函數 $\operatorname {sgn}$ 決定預測分類結果 ${\hat {y}}$ 屬於正類還是負類。

核分類器的描述可追溯至1960年代核感知器的發明。^[3]1990年代，隨着支持向量機（SVM）的流行，人們發現其在手寫識別等任務上的表現可與神經網絡媲美。

數學：核技巧

SVM，核為

\varphi ((a,b))=(a,b,a^{2}+b^{2})

，因此

k(\mathbf {x} ,\mathbf {y} )=\mathbf {x} \cdot \mathbf {y} +\left\|\mathbf {x} \right\|^{2}\left\|\mathbf {y} \right\|^{2}

。訓練點被映射到三維空間，很容易找到分離超平面。

核技巧避免了讓線性學習算法學習非線性函數或決策邊界所需的顯式映射。 $\forall \mathbf {x}$ 與 $\mathbf {x'} \in {\mathcal {X}}$ （輸入空間），某些函數 $k(\mathbf {x} ,\mathbf {x'} )$ 可表示為另一空間 ${\mathcal {V}}$ 中的內積。函數 $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ 常被稱為核或核函數。「核」在數學中用於表示加權和或積分的加權函數。機器學習中某些問題比任意權函數 $k$ 更具結構性。若核能寫成「特徵映射」 $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ ，滿足

k(\mathbf {x} ,\mathbf {x'} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {x'} )\rangle _{\mathcal {V}}

那麼計算就能簡化很多。關鍵的約束是 $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ 必須是適當的內積。另一方面，只要 ${\mathcal {V}}$ 是內積空間，就不必明確表示出 $\varphi$ 。另一種方法來自默瑟定理：只要空間 ${\mathcal {X}}$ 匹配了合適的測度確保函數 $k$ 滿足默瑟條件，就存在隱定義的函數 $\varphi$ 。

默瑟定理類似於線性代數中將內積與任意正定矩陣相關聯的結果的推廣。實際上，默瑟條件可以簡化為這種更簡單的情況：若 $\forall T\subset X$ 擇計數測度 $\mu (T)=|T|$ （計算集合 $T$ 內部的點數），那麼默瑟定理中的積分就簡化為和式

\sum _{i=1}^{n}\sum _{j=1}^{n}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i}c_{j}\geq 0.

若對於 ${\mathcal {X}}$ 中的所有有限點序列 $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ 及所有 $n$ 個實值係數選擇 $(c_{1},\dots ,c_{n})$ （參考正定核），和式都成立，那麼函數 $k$ 滿足默瑟條件。

一些依賴於原空間 ${\mathcal {X}}$ 中任意關係的算法在別的環境中會有線性解釋： $\varphi$ 的範圍空間。線性解釋讓我們對算法有了更深入的了解。此外，在計算過程中通常無需直接計算 $\varphi$ ，支持向量機就是這樣。有人認為這種運行時間上的節省是其主要優點。研究人員也用它來證明現有算法的意義和特性。

理論上講，關於 $\{\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n}\}$ 的格拉姆矩陣 $\mathbf {K} \in \mathbb {R} ^{n\times n}$ （有時也稱為「核矩陣」^[4]），其中 $K_{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})$ 須是正半定（PSD）矩陣。根據經驗，對於機器學習的啟發式方法來說，若 $k$ 至少近似於相似性的直觀概念，那麼不滿足默瑟條件的函數 $k$ 的選擇可能仍有合理表現。^[5]無論 $k$ 是不是默瑟核， $k$ 仍可稱為「核」。

若核函數 $k$ 也是高斯過程中使用的協方差函數，那麼格拉姆矩陣 $\mathbf {K}$ 也可稱為協方差矩陣。^[6]

應用

核方法的應用十分廣泛，見於地理統計^[7]、克里金法、反距離加權、三維重建、生物信息學、化學信息學、信息抽取和手寫識別。

常用核函數

Fisher核
圖核
核平滑器
多項式核
徑向基函數核
字符串函數核
神經正切核
神經網絡高斯過程（NNGP）核

另見

參考文獻

^ Kernel method. Engati. [2023-04-04]. （原始內容存檔於2023-04-04）（英語）.
^ Theodoridis, Sergios. Pattern Recognition. Elsevier B.V. 2008: 203. ISBN 9780080949123.
^ Aizerman, M. A.; Braverman, Emmanuel M.; Rozonoer, L. I. Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control. 1964, 25: 821–837. Cited in Guyon, Isabelle; Boser, B.; Vapnik, Vladimir. Automatic capacity tuning of very large VC-dimension classifiers. Advances in neural information processing systems. 1993. CiteSeerX 10.1.1.17.7215  .
^ Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. Kernel Methods in Machine Learning. The Annals of Statistics. 2008, 36 (3). S2CID 88516979. doi:10.1214/009053607000000677  .
^ Sewell, Martin. Support Vector Machines: Mercer's Condition. Support Vector Machines. [2014-05-30]. （原始內容存檔於2018-10-15）.
^ Rasmussen, C. E.; Williams, C. K. I. Gaussian Processes for Machine Learning. 2006.
^ Honarkhah, M.; Caers, J. Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling. Mathematical Geosciences. 2010, 42 (5): 487–517. S2CID 73657847. doi:10.1007/s11004-010-9276-7.

閱讀更多

Shawe-Taylor, J.; Cristianini, N. Kernel Methods for Pattern Analysis. Cambridge University Press. 2004.
Liu, W.; Principe, J.; Haykin, S. Kernel Adaptive Filtering: A Comprehensive Introduction. Wiley. 2010. ISBN 9781118211212.
Schölkopf, B.; Smola, A. J.; Bach, F. Learning with Kernels : Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press. 2018. ISBN 978-0-262-53657-8.

外部連結

Kernel-Machines Org （頁面存檔備份，存於互聯網檔案館）—community website
onlineprediction.net Kernel Methods Article （頁面存檔備份，存於互聯網檔案館）

[1] Kernel method. Engati. [2023-04-04]. （原始內容存檔於2023-04-04）（英語）.

[2] Theodoridis, Sergios. Pattern Recognition. Elsevier B.V. 2008: 203. ISBN 9780080949123.

[3] Aizerman, M. A.; Braverman, Emmanuel M.; Rozonoer, L. I. Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control. 1964, 25: 821–837. Cited in Guyon, Isabelle; Boser, B.; Vapnik, Vladimir. Automatic capacity tuning of very large VC-dimension classifiers. Advances in neural information processing systems. 1993. CiteSeerX 10.1.1.17.7215  .

[4] Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. Kernel Methods in Machine Learning. The Annals of Statistics. 2008, 36 (3). S2CID 88516979. doi:10.1214/009053607000000677  .

[5] Sewell, Martin. Support Vector Machines: Mercer's Condition. Support Vector Machines. [2014-05-30]. （原始內容存檔於2018-10-15）.

[6] Rasmussen, C. E.; Williams, C. K. I. Gaussian Processes for Machine Learning. 2006.

[7] Honarkhah, M.; Caers, J. Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling. Mathematical Geosciences. 2010, 42 (5): 487–517. S2CID 73657847. doi:10.1007/s11004-010-9276-7.

[1]

[2]

[3]

[4]

[5]

[6]

[7]