剪枝
此條目需要補充更多來源。 (2019年12月11日) |
此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2019年12月11日) |
剪枝(英語:pruning)是機器學習與搜索算法當中通過移除決策樹中分辨能力較弱的節點而減小決策樹大小的方法。剪枝降低了模型的複雜度,因此能夠降低過擬合風險,從而降低泛化誤差。
在決策樹算法中,決策樹過大會有過擬合的風險,從而在新樣本上的泛化性能很差;決策樹過小則無法從樣本空間中獲取重要的結構化信息。然而,由於很難判斷新增一個額外的分裂結點能否顯著降低誤差,人們很難判斷何時停止決策樹的生長是恰當的。該問題被稱為視界限制效應。一個通用的策略是讓決策樹一直生長,直到每個葉子結點都包含足夠少量的樣本,而後通過剪枝的方法,移除分辨能力較弱的結點。[1]
剪枝過程應當在減小決策樹大小的同時,保證交叉驗證下的精度不降低。
這是一篇與機器學習相關的小作品。您可以透過編輯或修訂擴充其內容。 |
參考文獻
- ^ Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning. Springer: 2001, pp. 269-272