资料介绍
研究了当前几种时兴的频集挖掘算法(Apriori,DF,FP-growth 和DCI)及其技术特点,并对其分类和界定适用范围。对其算法复杂性及时空执行效率等性能指标进行了定性和定量的综合分析。研究的结果对于在各种应用环境下的
关联挖掘系统的设计具有参考价值。
关键词: 频集挖掘; Apriori; DF; FP-growth; DCI
种频集挖掘算法及其特点
2.1 Apriori 算法
A priori算法是目前最为著名也是应用最为广泛的一种算法,并且目前许多算法都是在A priori的基础上优化和改进而来的。A priori算法核心思想是:首先扫描一遍数据库D ,产生频繁1 项集L 1,然后产生频繁2 项集L 2,直到有某个r 值使得L r 为空,这时算法停止。在第k 次循环过程中,首先产生候选k-项集的集合C k,C k 中的每一个项集是对2 个只有一个项不同的属于L k-1 的频集做一个(k - 2) 连接产生的。C k 是用来产生频集的候选集,为了决定C k 中的元素是否频繁,必须扫描数据库D 计算其支持度,因此频集L k 是C k 的一个子集[1]。C k 中的每个元素需进行验证来决定其是否加入L k ,这里的验证过程是算法性能的一个瓶颈。A priori算法的不足之处在于:1)可能产生大量的候选集。例如,当长度为1 的频集有104 个的时候,长度为2 的候选集个数将会超过107;2)如果要生成一个很长的规则时,要产生的中间元素也是巨量的。
2.2 DF 算法
D F 算法其实是A priori的一种改进算法,最重要的区别在于其采用了深度优先的方法,这也正是其称之为D F(D epth F irst)的原因。D F 算法采用了层次树(trie)来存储频繁项集。因为任何一个频繁集的子集也是频繁的,所以trie 很适合用来存储频繁项集。D F 算法执行如下操作[2]:扫描一遍数据库;计算各个项的支持度;并将频繁项按支持度排序;在主存中建立trie,trie 从根到叶子的每一条路径代表一个唯一的频繁项集;最后,算法输出trie 中的所有路径,即所有的频繁项集。
关联挖掘系统的设计具有参考价值。
关键词: 频集挖掘; Apriori; DF; FP-growth; DCI
种频集挖掘算法及其特点
2.1 Apriori 算法
A priori算法是目前最为著名也是应用最为广泛的一种算法,并且目前许多算法都是在A priori的基础上优化和改进而来的。A priori算法核心思想是:首先扫描一遍数据库D ,产生频繁1 项集L 1,然后产生频繁2 项集L 2,直到有某个r 值使得L r 为空,这时算法停止。在第k 次循环过程中,首先产生候选k-项集的集合C k,C k 中的每一个项集是对2 个只有一个项不同的属于L k-1 的频集做一个(k - 2) 连接产生的。C k 是用来产生频集的候选集,为了决定C k 中的元素是否频繁,必须扫描数据库D 计算其支持度,因此频集L k 是C k 的一个子集[1]。C k 中的每个元素需进行验证来决定其是否加入L k ,这里的验证过程是算法性能的一个瓶颈。A priori算法的不足之处在于:1)可能产生大量的候选集。例如,当长度为1 的频集有104 个的时候,长度为2 的候选集个数将会超过107;2)如果要生成一个很长的规则时,要产生的中间元素也是巨量的。
2.2 DF 算法
D F 算法其实是A priori的一种改进算法,最重要的区别在于其采用了深度优先的方法,这也正是其称之为D F(D epth F irst)的原因。D F 算法采用了层次树(trie)来存储频繁项集。因为任何一个频繁集的子集也是频繁的,所以trie 很适合用来存储频繁项集。D F 算法执行如下操作[2]:扫描一遍数据库;计算各个项的支持度;并将频繁项按支持度排序;在主存中建立trie,trie 从根到叶子的每一条路径代表一个唯一的频繁项集;最后,算法输出trie 中的所有路径,即所有的频繁项集。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 权重模糊粗糙集的改进规则挖掘算法 4次下载
- 数据挖掘原理与算法 5次下载
- 如何使用阈值自适应忆阻器Hopfield神经网络进行关联规则挖掘算法 5次下载
- 如何使用DiffNodeset结构进行最大频繁项集挖掘算法概述 6次下载
- 频繁项集高效挖掘算法研究刘芝怡 0次下载
- 基于MapReduce和矩阵的频繁项集挖掘算法 4次下载
- 数据挖掘Apriori算法的改进 17次下载
- 时兴频集挖掘算法的辨析
- 分类规则挖掘算法综述
- 基于矩阵伪投影策略的频繁项集挖掘方法
- 基于集合枚举树的最小预测集挖掘算法
- 基于灰色关联分析的孤立点挖掘算法
- 一种新的模糊加权关联规则挖掘算法
- 基于矩阵的关联规则挖掘算法
- 水平分布数据集的隐私保护关联挖掘算法
- 基于Python实现随机森林算法 1232次阅读
- 一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解 1138次阅读
- middlebury数据集是什么 2262次阅读
- 代码实例及详细资料带你入门Python数据挖掘与机器学习 3387次阅读
- 数据挖掘算法:决策树算法如何学习及分裂剪枝 5814次阅读
- 从五个方面让你了解人工智能算法中的Apriori 2389次阅读
- 十大经典数据挖掘算法—Apriori 3758次阅读
- 数据挖掘Apriori算法报告 5236次阅读
- 关联规则挖掘——Apriori算法的基本原理以及改进 9439次阅读
- Apriori算法详解 2.1w次阅读
- Matlab关于Apriori算法设计 5150次阅读
- 简介Apriori算法并解析该算法的具体策略和步骤,给出Python实现代码 5853次阅读
- 怎么学习数据挖掘_如何系统地学习数据挖掘 4802次阅读
- 什么叫数据挖掘_数据挖掘技术解析 1.9w次阅读
- 基于GT4的聚类分析算法研究 1023次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1489次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 91次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 9次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 3次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30319次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233045次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论