您的当前位置:首页正文

大数据环境下关联规则挖掘的应用研究

2021-09-24 来源:钮旅网
151

电子技术

大数据环境下关联规则挖掘的应用研究

陈 梅

(山东协和学院,济南 250101)

摘 要:本文从大数据角度分析了现代数据的特点,概述了关联规则的三种方法思想及优缺点,并且列举了其在几个行业中的应用。关键词:大数据;关联规则;应用

DOI:10.16640/j.cnki.37-1222/t.2017.18.134

  关联规则用于表示对象之间的关系和规律,而数据挖掘领域中最重要的研究内容也正是规则的提取。关联规则挖掘吸引了诸多国内外专家学者的研究兴趣,并取得了良好成果,如Apriori󰀃算法和FP-Growth算法。经过多年多为学者的研究,商业决策、医疗数据分析等各个领域都对关联规则相关算法进行了验证,并产生了良好的经济和社会价值。

1 大数据

  随着网络和移动互联的发展,企业所获得的数据越来越多、结构也越来越复杂,传统的数据挖掘技术已经不能满足需求,这就促使企业在收集数据之余,也开始寻求新方法来解决大量数据无法存储和处理分析的问题。由此,“大数据”应运而生。

  从“Data”到“BigData”,数据的数量和质量都有了本质的区别。在“数据时代”专家学者都是用联机分析处理(OLAP)、数据仓库、数据挖掘等方式处理数据,而在“大数据时代”,数据已不仅仅是需要分析处理的内容,人们更看重的是使用更为高端专业的技术从大量繁杂的数据中,进行整理和分析,得出有意义的关联信息,为社会经济生活中各个行业的预测、规划和决策做出支持。

  如何在大数据时代的繁杂数据中抽取出更有价值的关联规则,对各个行业的发展决策起指导性作用就显得尤为重要。

2 关联规则

2.1 关联规则定义

  关联规则是数据库中不同数据项之间有意义和价值的联系,可用A󰀃=>B󰀃表示,其中󰀃A󰀃、B󰀃均为非空项集。通过描述数据项之间预先未知的和被隐藏的潜在规则,找出满足给定支持度(support)和置信度(confidence)阈值的多个数据项之间的依赖关系。例如,由R.Arawal等人首先提出的“啤酒与尿布”典型例子,就是:“80%的男士在为自己买啤酒的同时也会为孩子买尿布”。2.2 Apriori算法

  Apriori算法由R.Arawal提出,是最经典的以概率为基础的挖掘布尔关联规则频繁项集的算法。它使用逐层搜索的迭代方法:设有数据集D,算法在第一次遍历D时仅仅计算每个项目的具体数量值,用来确定频繁1-项目集(L1),然后,通过L1自身连接、剪枝两个步骤,得到频繁2-项集L2(L2),如此下去,通过L2󰀃找出L3󰀃,直到k-项集(LK)不是频繁项集为止。需要注意的是,找出每个Lk󰀃均需要一次数据库的完整扫描。

  之后很多学者对Apriori算法进行了改进,但无论怎么改进,该类算法都有一缺憾,就是在搜索过程的连接、剪枝两个步骤会产生大量的候选集,计算和存储这些候选集会大大消耗时间、空间成本。2.3 FP-Growth 算法

  为了解决Apriori一类算法的缺憾,JiaWeihan提出了摒掉产生候选集的新思路—FP-Growth算法。利用高度压缩的数据结构方式在生成频繁项集的时候不必产生候选集。  该算法分为两个步骤:

  (1)构造FP树。第一次遍历数据库生成全部频繁1-项集,并按照支持度从大到小存储在表中,在进行第二次数据库的遍历,将每一次的频繁项集保存在FP树中的相应分枝上。

  (2)在上步的频繁项集基础上提出发现算法FP-Growth。具体是从频繁i项集(记作Li)的条件模式库中采用由底向上的搜索方法发

现所有包含Li的频繁项集。这样就将一个大型树结构分解成多个小的子树结构,相应地就将一个大型的复杂搜索问题转化成了多个小简单的搜索问题。

2.4 并行关联规则挖掘算法

  FP-Growth󰀃算法虽简化了时间和空间成本,但是并不适用于大型的数据库。并行计算是指能够同时对多条指令、多个任务或者多个数据集进行处理,将并行计算应用到关联规则挖掘中,能够有效提高挖掘效率。

  并行关联规则挖掘算法也是仅需要扫描两次数据库就能挖掘频繁项集。步骤如下:首先将整个数据库D随机分割成n个非重叠且大小相似的区域。以此类推,每个区域还可分别划分成更小互不影响的区域进行挖掘,从而实现了挖掘过程的分层执行。

3 关联规则挖掘的应用

3.1 关联规则在商业决策中的应用

  将关联规则应用商业决策中,从大量的数据中经过深层分析,有助于从商务信息系统的大型数据库中提取对企业决策者有价值的信息,会大大提升决策效率和正确度。比如,在制订销售配货、产品目录设计、产品定价和促销以及顾客的购买行为模式等商业决策时给企业决策者予以指导,有利于提高企业经济效益,提升竞争优势。3.2 关联规则在医疗中的应用

  随着医疗数据的与日俱增,对临床疾病监测与诊断、药物治疗效果的评价及疾病预防事件的主观判断越来越困难,如何将关联规则运用其中,从繁杂的医学数据中找出其内在关联规则,提升诊断效率和正确率,显得尤为重要。

  比如,分析医学数据特点,使用Apriori算法对婚检数据中各类传染病、血液关系、肝病之间的关系,为其制定全面科学体检方案;儿童肺炎的治疗,建立治疗用药字典,从治疗效果和维护患者利益的角度出发,为其规范性用药提供决策依据,制定最佳用药方案。3.3 关联规则在推荐系统中的应用

  推荐系统是在数据挖掘的基础上建立的一种高级商务智能平台,根据用户的个性化和兴趣爱好,向其推荐感兴趣的商品和信息。基于关联规则的推荐系统是把用户已经购商品作为规则头,将推荐对象作为规则体。首先经过数据清理后计算两两商品或信息之间的支持度和执行度,将低于设定的最小值的规则去掉,再找出某种商品或信息的所有规则,按置信度从大到小排序,Top-N即为与该商品或信息最相关的前N中上品或信息。

4 小结

  本文从大数据角度分析了现代数据的特点,概述了关联规则的三种方法思想及优缺点,并且列举了其在几个行业中的应用。

课题:本文系山东协和学院校级课题:大数据环境下OLAP关联规则挖掘在国有固定资产统计中的研究(项目编号:XHXY201616);山东省统计局课题:大数据环境下OLAP关联规则挖掘在高校固定资产统计中的研究(项目编号:KT16218)。

作者简介:陈梅(1982-),女,山东武城人,硕士研究生,讲师,研究方向:大数据和教学研究。

因篇幅问题不能全部显示,请点此查看更多更全内容