python实现Apriori算法(数据挖掘算法系列之一)

By | 2016-11-27

前言:鉴于王振武、徐慧编著的《数据挖掘算法原理与实现》这本书给出的代码是使用C++实现的,代码风格跟自己的不太匹配,同时为了自己能对这本书给出的算法有更深入的认识,所以按照算法核心思想用python重写这一系列算法。代码托管在github上。

第一个算法是关联规则挖掘算法Apriori

Apriori算法是挖掘数据中的关联规则,即需要识别或发现数据中的所有频繁项目集。

这个伪代码是wiki上的,个人感觉非常好。看懂这个伪代码,基本对apriori的理解没问题了。

关联规则的挖掘通常需要给出规则必须满足的支持度和置信度阈值。考虑到《数据挖掘算法原理与实现》中实现的只是基于支持度的。所以下面的代码挖掘的规则也只是基于支持度,但是需要加入置信度这些的话,是比较简单的,代码不需要怎么修改。因为只是为了学习算法核心,所以就不按照企业项目级别的来细啄时间优化和代码强壮性能方面了。

首先需要把数据装载到程序中来,数据的格式可以按照需要进行修改。

扫描全部数据,产生候选1-项集的集合C1,这里使用dict顺带保存事务出现的频率。

由上步找到的1-项集的集合C1中根据算法给出的最小支持度,由候选1-项集的集合C1产生频繁1-项集的集合L1。为了方便后面的迭代和最终的输出,把第1级频繁项集也保存为list,同时保存该频繁项集出现的频率。

以上求出的是频繁1-项集的集合,对于(k >= 2)的情况,可以通过迭代处理,也就是通过利用频繁k-1项集来计算频繁k项集。直到k频繁项集为空时就结束算法。

产生频繁项集的过程主要分为连接和剪枝两步。

连接步:

剪枝步,这里用到了项目集空间理论。

由连接步和剪枝步操作之后产生的候选项集的集合需要扫描全部数据,根据最小支持度,产生频繁项集。

运行结果如下:

项目的完整代码,欢迎指出欠佳之处,共同交流学习。

One thought on “python实现Apriori算法(数据挖掘算法系列之一)

  1. 你好!我看過你的程式碼了~想請問要怎麼把C1→L1→C2→L2→C3→L3逐一print出來????

    Reply

发表评论

电子邮件地址不会被公开。