第2l卷第10期 长春大学学报 V01.21 No.1O 0ct.201l 2011年l0月 JOURNAL OF CHANGCHUN UNIVERSITY 一种新的K均值挖掘的隐私保护算法 王思勃,白素平 (长春理工大学光电工程学院,长春130012) 摘要:对隐私保护数据挖掘算法进行了深入研究和分析。总结出目前研究的缺点,提出了一种新的K均值数据 挖掘的隐私保护算法,通过与已有隐私保护算法的比较,在保证不减少隐私强度的情况下,提高了挖掘的精度。 关键词:K均值;数据挖掘;隐私保护;WEKA 中图分类号:TP309.7 文献标志码:A 文章编号:1009—3907(2011)10—0027-03 O 引 言 近年来,人们对隐私问题以及数据挖掘应用越来越关注,于是很多研究人员开始研究隐私保护的数据挖 掘技术,简称PPDM。PPDM技术被广泛应用于医疗、商业、社会学等多种领域。前期的工作主要有两类:数 据修改和数据加密…。数据加密技术没有数据修改技术应用的广泛,因为它的计算和通信代价太高。隐私 保护的数据挖掘有两个目标:隐私和精度 ]。这两个目标往往是一种平衡关系:隐私要求方面,在挖掘者挖 掘数据之前,要对隐私数据进行足够的干扰;精度要求方面,尽管隐私数据被干扰,蕴藏在隐私数据中的数据 模式仍然可以被挖掘者挖掘出来。本文提出了一个新的噪音添加算法来干扰原始数据,实验表明,这个算法 在同等条件下比其它的算法挖掘精度更高。 1 背景介绍 对于数据加密的隐私保护方法,主要实现分布式数据挖掘隐私保护方法。由于公钥密码机制保证了第 三方对原始数据的不可见性以及数据的无损失性,能够实现与原始挖掘相同精度的挖掘结果。但是与数据 干扰方法相比,其计算和通信代价很昂贵。 数据修改技术主要有:加法噪音,乘法噪音,矩阵乘法,数据交换和K匿名 ,本文着眼于加法噪音技 术。对于加法噪音技术,2000年,Agrawal and Srikant公布了他们关于隐私保护数据挖掘的早期工作,他们提 出了一个在客户/服务器场景下,构建决策树的加法干扰技术,通过重构原数据的数据分布得到与原数据相 似的数据,然后再挖掘重构数据,缺点是重构比较麻烦。为了能够直接通过挖掘干扰数据,而不需要修改挖 掘算法,就能得到很好的挖掘效果,刘丽H 提出了一个门限法,计算每条数据记录的概率值,通过门限将数 据记录进行分类,这样就跳过了重构过程,减少了程序的计算。刘丽方法的缺点是合适的门限的选取比较困 难,没有规律,要依靠经验,不同的数据集也不同。 2 RD算法 以前的加法噪音算法都是要对干扰后的数据进行处理,然后再进行挖掘。本文提出的RD(random dis— tance)算法是在数据干扰之前,对原始数据进行一次 均值的预挖掘,根据挖掘后的结果再进行干扰,而数 据分析者只需要直接对于扰后的数据进行挖掘,就能够得到与挖掘原数据相似的结果.RD算法中,数据提 供者使用下面公式替代原始数据X: Y=X+R (1) 其中,尺是独立同分布的噪音数据。 我们假设D是原始数据集,c(c ,c …c )是使用 均值聚类算法挖掘原始数据的聚类结果。我们的 目的就是要把D修改成D ,当数据分析者挖掘D 时,得到一个新的聚类结果c (G ,c …c ),这个聚类 收稿日期:2011-05.10 作者简介:王思勃(1988一),男,吉林长春人,硕士研究生,主要从事数据挖掘方面研究。 白素平(1970一),女,吉林长春人,副教授,硕士,主要从事数据挖掘、隐私保护,精密仪器总体设计方面的研究。 长春大学学报 第21卷 结果与c具有较高的相似度,从而保证了挖掘精度。如图1所示。 图1 RD算法示意图 在RD算法中,首先遍历数据集中的所有记录,在使用 均值聚类之后,每一条记录都将会被归类,此 时,数据提供者对记录添加噪音数据。为了保证干扰后的数据模式保持不变,RD算法尽可能得去保证每条 记录在于扰前后类别不变,方法是在添加噪音数据后,调整聚类中心和干扰后记录点之问的距离,使得数据 干扰前后始终在此类别域内,如图1所示,C 是聚类中心,R is记录点.噪音数据R andR 被添加到属性 和y中,然后回得到点P(X+尺 ,l,+R ).此时,有三种情况需要考虑,|P分别在D ( ),D(i)和 ( )域内: ,dis(C ,P),P∈D( ),1 i dis(C ,P )=22D( ),z 一dis(C ,P),P∈D ( ),1 [2D( ),right—dis(C ,P),P∈D ( ),l 后 (2) 在计算c 和P 之间的距离之后,就能计算出将要发布给数据分析者的数据点P 的坐标。 RD算法伪代码 Begin (1)使用k-mean算法将数据集划分为k类 (2)for每一个实例 do (3)找到 所属类别k (4)计算k 的半径范围 (5)给 添加高斯噪音 (6)计算d (c ,P) (7)if(dis(C ,P)<D( ). then (8)dis(C ,P)=2D(i).1eft—dis(C ,P) (9)else if(dis(C ,P)>D(i).right)then (10)dis(C ,P):2D( ).ritht—dis(C ,P) (11)else (12)dis(C ,P)=dis(C ,P) (13)end if (14)end if (15)根据d (C ,P )和c 的坐标,计算P 的坐标 (16)end for End. 3 实验结果 本文实验中,数据挖掘工具使用的是WEKA工具,噪音数据的生成使用的是Matlab 7.0实现的,使用的 数据集来源于真实的数据集Iris,Yeast和Glass,,实例数分别为150、1484、214,从加利福尼亚大学的UCI机 器学习库中下载得到。 实验中,通过与Keke Chen的数据干扰进行比较来衡量算法的性能。对每一个数据集,实验测试条件 第10期 王思勃,等:一种新的K均值挖掘的隐私保护算法 为:分类数目选取2和3,加法噪音为均值为0,方差为0.2的高斯分布。我们的结果与Keke Chen的数据干 扰进行比较,每一项测试选取l0组噪音数据,计算平均精度作为最终精度。图2和3显示了分别挖掘Iris 数据集干扰前后的结果。由此可见,干扰后隐私所属类别更明显了,从而保证了很高的挖掘精度。 4.5 5 5.5 6 6.5 7 7.5 图2隐私数据分布 图3干扰后数据分布 表1显示了测试的结果,实验表明,在大多数情况下,我们的算法的挖掘精度要高于Keke Chen的算法。 表1挖掘精度 4 结语 本文提出了一个新的噪音添加方法,保护了数据挖掘中的隐私数据。我们的方法根据对原数据的预挖 掘结果来调整干扰后数据,从而不再需要计算代价很高的重构步骤,也不需要修改数据挖掘方法,并且能够 得到较高的挖掘精度,是一个有效可靠的隐私保护的数据挖掘方法。 参考文献: [1]Jiawei Han,Micheline Kamber.范明,盂小峰等译.数据挖掘:概念与技术[M].北京:机械工业出版社,2001. [2]王泳.基于隐私保护的数据挖掘[D].赣州:江西理工大学,2008. [3] 李锋,马进,李建华.分布式数据挖掘中的匿名隐私保护方法[J].浙江大学学报(工学版),2010(2):276—283 [4]Li Liu,Murat Kantarcioglu,BhavaniThuraisingham.Privacy PreservingDecisionTreeminingfrom PetrurbedData[J].In proceedings of42thHa— wail International Conference on System Sciences.2009. [5]K.Chen,G.Sun,and L.Liu.Towards attack—resilient geometric data perturbation[J].In Proceedings ofthe 2007 SIAM International Conference on Data Mining(SDM’07),Minneapolis,MN,April 2007:589—592. 责任编辑:吴旭云 A New K-mean Mining Algorithm for Privacy Protection WANG Si-bo,BAI Su—ping (College of Optical Electronic En ̄neefing,Changchun University of Science and Technology,Changchun 130022,China) Abstract:This paper describes the technologies about data mining for privacy protection and proposes a Hew K・-mean data mining algo・・ rithm based on summarizing the disadvantages.Comparing to the existing algorithms,it increases mining accuracy in the condition of ell- suring privacy protection strength. Keywords:K—mean;data mining;privacy・preserving;WEKA