“集成学习”小结

  • 集成学习是将个体模型进行集成的方法,大致可分为 Bagging 和 Boosting 两类
  • 随机森林是 Bagging 算法的一种常见拓展、性能优异;它不仅对样本的选取引入随机性、还对个体模型(决策树)的特征选取步骤引入随机性
  • AdaBoost 是 Boosting 族算法的代表,通过以下三步进行提升:
    • 根据样本权重训练弱分类器
    • 根据该弱分类器的加权错误率为其分配“话语权”
    • 根据该弱分类器的表现更新样本权重
  • 集成模型具有相当不错的正则化能力、但该正则化能力并不是必然存在的
  • AdaBoost 可以用前向分步算法和加法模型来解释
观众老爷们能赏个脸么 ( σ'ω')σ