剪枝(英語:pruning)是機器學習搜索算法當中通過移除決策樹中分辨能力較弱的節點而減小決策樹大小的方法。剪枝降低了模型的複雜度,因此能夠降低過擬合風險,從而降低泛化誤差

在決策樹算法中,決策樹過大會有過擬合的風險,從而在新樣本上的泛化性能很差;決策樹過小則無法從樣本空間中獲取重要的結構化信息。然而,由於很難判斷新增一個額外的分裂結點能否顯著降低誤差,人們很難判斷何時停止決策樹的生長是恰當的。該問題被稱為視界限制效應英語Horizon_effect。一個通用的策略是讓決策樹一直生長,直到每個葉子結點都包含足夠少量的樣本,而後通過剪枝的方法,移除分辨能力較弱的結點。[1]

剪枝過程應當在減小決策樹大小的同時,保證交叉驗證下的精度不降低。

參考文獻

  1. ^ Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning. Springer: 2001, pp. 269-272