剪枝
此条目需要补充更多来源。 (2019年12月11日) |
此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2019年12月11日) |
剪枝(英语:pruning)是机器学习与搜索算法当中通过移除决策树中分辨能力较弱的节点而减小决策树大小的方法。剪枝降低了模型的复杂度,因此能够降低过拟合风险,从而降低泛化误差。
在决策树算法中,决策树过大会有过拟合的风险,从而在新样本上的泛化性能很差;决策树过小则无法从样本空间中获取重要的结构化资讯。然而,由于很难判断新增一个额外的分裂结点能否显著降低误差,人们很难判断何时停止决策树的生长是恰当的。该问题被称为视界限制效应。一个通用的策略是让决策树一直生长,直到每个叶子结点都包含足够少量的样本,而后通过剪枝的方法,移除分辨能力较弱的结点。[1]
剪枝过程应当在减小决策树大小的同时,保证交叉验证下的精度不降低。
这是一篇与机器学习相关的小作品。您可以通过编辑或修订扩充其内容。 |
参考文献
- ^ Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning. Springer: 2001, pp. 269-272