关联分析-Apriori算法

Created by 银河统计工作室Code BaoRui
July 28





简介

世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为Market Basket Analysis。

关联分析是数据挖掘中一项基础又重要的技术,是一种在大型数据库中发现变量之间有趣关系的方法。说到数据挖掘的案例,相信很多人都会首先想到沃尔玛超市发现购买尿布的顾客通常也会购买啤酒,于是把啤酒和尿布放在一起销售同时提高了两者的销量的案例。这是关联分析在商业领域应用的一个典型,通过对大量商品记录作分析,提取出能够反映顾客偏好的有用的规则。有了这些关联规则,商家制定相应的营销策来来提高销售量。关联技术不但在商业领域被广泛应用,在医疗,保险,电信和证券等领域也得到了有效的应用。






数据描述性统计


              

关联规则示例


                

关联规则(消除冗余项)示例


                

Python Example