集成学习

Created by 银河统计工作室Code BaoRui
July 28



简介

什么是集成学习呢?通俗的讲,就是多算法融合。它的思想相当简单直接,以至于用一句俗语就可以完美概括:三个臭皮匠,顶个诸葛亮。实际操作中,集成学习把大大小小的多种算法融合在一起,共同协作来解决一个问题。这些算法可以是不同的算法,也可以是相同的算法。

用好集成学习有两个关键点:1)怎么训练每个算法?2)怎么融合每个算法?

Bagging 是投票式的算法,首先使用Bootstrap产生不同的训练集,然后再基于这些数据集得到多个基础分类器,最后通过基础分类器的分类结果得到一个相对更优的预测模型。

Boosting与bagging类似,主要差别在于在boosting算法中,基础分类器的学习是顺序进行的,后一轮分类器的学习与之前分类器的分类结果有关,既是在错分样本的基础上学习,boosting算法通过这样一种补尝学习的方式,达到了利用前一轮分类来调整后轮基础分类器的目的以获得更好的分类性能。

Stacking 是一种集成学习技术,通过元分类器或元回归聚合多个分类或回归模型。基础层次模型(level model)基于完整的训练集进行训练,然后元模型基于基础层次模型的输出进行训练。




数据描述性统计


              

预测结果准确率详情


                

模型详情


                

Python Example