2019年11月November 2019文献标志码:A
中图分类号:TP309功耗分析攻击中机器学习模型选择研究段晓毅,陈东,高献伟,范晓红,周玉坤(北京电子科技学院电子信息工程系,北京100070)摘要:根据密码芯片功耗曲线的特性, 向机、随机 、K 邻、 贝 4种机器学习算法:分析研究,从中选择用于功耗分析 的最优算法。对于机器学习算法的数据选取问题,使用多组数 同但 1不同的数据集的十折 选择,提测试公平性及测试
泛化 的问题,采用Friedman检
的泛化能力#为避 折 一中 测试集 不 Nemenyi后续检 合的方法对4
机器学习算法 估, 关键词:机器学习;十折 向量机是适用于功耗分析 的最优机器学习算法#;Friedman检验;Nemenyi后续检验'功耗分析攻击明
开放科学(资源服务)标志码(OSID):富耀
中文引用格式:段晓毅,陈东,高献伟,等.功耗分析攻击中机器学习模型选择研究:J).计算机工程,2019,45 (11): 144-151,158.英文引用格式:DUAN Xiaoyi,CHEN Dong,GAO Xianwei,et at. Research on model selection of machine learning in
power analysis attack( J] . Computer Engineering,2019,45 (11) : 144-151,158.Research on Model Selection of Machine Learning Ci Power Analyst AttackDUAN Xiaoyi,CHEN Dong,GAO Xianwei,FAN Xiaohong,ZHOU Yukun(Department of ElacWonies and Information Engineering,Beijing ElacWonie Science and Technology Instituta,Beijing 100070,China)+ Abstract] According to the chdacteristict of the power curve of crypto chips,four kinds of machine Arning algorithms
including Support Vector Machine ( SVM),Random Forest ( RF),K-Necrest Neighbor( KNN) and Naive Bayes ( NB) are analyzed and s*udied , and *heop imalalgorihm forpoweranalysis a ack is selec ed. For *he da a selec ion problem of*he machine learning algorihm, *he 10-fold cro s-valida ion resul s of mul iple se s of da a se s wi h *he same number bu* di feren*cons i uen*elemen sareused *o selec**hemodel, which improves *he es*fairnesand *he generaliza ion abiliy of*he es*resuls.In order*o avoid *he problem *ha**he es*se*e ror is no*enough *o approximae*hegeneralizaion eror during *he 10-fold cross-valida ion proce s, *he four kinds of machine learning algori hms are evaluaed by *he combinCion of Friedman test and Nemenyi postPoc tet. The resuAs show that the SVM is the optimal machine learning a#gorithm for power ana#ysis atack.+ Key words] machine learning ; 10-Sold —osspalidation ;Friedman test ;Nemenyi post-hoc test;power analysis attack DOI: 10. 19678/j. issn. 1000-3428.00525380概述传统功耗分析
中的
问题作
问题,而机器学 的各类算法 i模,同为将问题看作 务,这得研究机器学 功耗分析 合 有效的攻析 ,使用具有明显汉明 泄漏的数据集,利用
最小二乘支持 向量机(Least Squares Suppori Vector Machine,LSPVM),成功对高级密码标准(Advanced Encryption Sandard,AES)的部分软件实施了攻击,
传统
多 问题,SVM, 用机器学习能够在提高功耗分析 「效的同时 所 用的功耗曲线条数#文献(1 ]将机器学习技术用于侧信道攻击中的功耗分数设 性能有较大影响,但功耗曲线的数和 点的数 的影响 #文献(2]用 向 机 ( Suppor*Vec*or Machine, SVM)
算法对8 能卡上运行的DES算法进行攻
基金项目:国家自然科学基金(61701008);中央高校基本科研业务费专项资金(2017 LG05 )#作者简介:段晓毅(1979―),男,讲师、博士,主研方向为信息安全;陈 东,硕士研究生;高献伟,教授;范晓红,讲师;周玉坤,副教授 收稿日期:20l8-09-03
修回日期:20l8PlPl
E-mail: duanxiaoyi@ best-. edu. cn第45卷第11期段晓毅,陈 东,高献伟,等:功耗分析攻击中机器学习模型选择研究的
1 45, 所击。文献(3 ]基于汉明重量模型,利用带概率的多 分类SVM将密钥分为9类。实验结果表明,在强 噪声环境下,要达到同样的猜测爛时,SVM攻击所 需训练功耗曲线的数量需少于模板攻击,因此 SVM攻击更具一般性#文献(4 ]利用无监督的机 器学习方法,结合平均痕迹和主成分分析(Principal Componenl Analysis,PC A)提出一种可容忍分析和 攻击痕迹之间存在一定差异的分类识别器#性, 贝 的
该算法运用于本文实验中。但由于密码算法工作
时电压与电压之间不完全独立,而朴素贝叶斯的
前提是假设独立,因此分类结果在一定程度上会
受到影响。1.2 K最近邻算法但上述研究均仅针对1种算法实施功耗分析攻 K最近邻算法[7]是根据测试集最邻近的K个 训练数据对测试集数据进行分类的算法。若这
击,文献(5 ]对SVM和随机森林(Random Fores-,RF) 2种算法的准确度进行对比,得出SVM优于RF#本 文对 SVM、RF、K 最近邻(K-Nearesl Neighbor,KNN) & 朴素贝叶斯(Naive Bayes,NB)算法进行分析研究,选 择适合功耗攻击的最优算法。对于机器学习的数据 选择问题,由于单一数据集一次测试的正确率具有偶 然性,因此本文使用十折交叉验证的平均值代替一次 测试的准确率,以确保测试的公平性。为避免一组数 据的一次十折交叉验证的评估过程中存在测试集误 差不足以近似泛化误差的问题,使用多组数量相同但 组成元素不同的数据集的十折交叉验证结果进行模 型选择,并采用Friedman检验以及Nemenyi后续检验 对以上算法进行评估,从而选出更适合功耗分析攻击 的机器学习算法。1机器学习算法1.1朴素贝叶斯分类器贝 基于贝 的 器,为避开基于贝叶斯公式估计后验概率时难以从有限 样本中直接估计得到类条件概率P(f c)的问题,朴 素贝叶斯采用“属性条件独立性假设”:对已知类别, 假设所有属性相互独立#基于该假设,贝叶斯公式可以重写为[6]:p(心
= J)'P(fl) (1)其中,P( C)是先验概率,P( x\\c)是样本f相对于类 标记C的条件概率,P( x)是证据因子,用来对各类的 后验概率之和进行归一化处理,%为属性数目,X—为 X在第\"个属性上的取值#由于P( X)对于所有类别均相同,因此基于 式(1)的朴素贝叶斯分类器的表达式为:h(x) - argmax P( c) 'P(xc—c)
(2) # 7
i - 1通过式(2)计算出最大的条件概率,预测未知样 本类别。该算法源于古典数学理论,具有稳定的分 类效率,适用于小规模数据,并且对数据缺失不 敏感。根据朴素贝叶斯的特点,被分类的数据要求 有 多 性, 据 数 据 的 不 同 性分类。在功耗分析攻击中,通过采集密码算法工 作时的电压对其进行数据分析,每个电压都是它K个训练集数据的多数属于某个类,则将该测试数
据分到这个类中。因此在使用KNN算法时K个 “邻居”的选择会影响到分类结果。本文实验中使
用欧式距离作为评估准则,选取距离最近的K个点 对功耗数据进行分类。\"维欧式距离的计算公式 如式(3 )所示#p( I,B) - / [ * ( \" [ — -b[ —])2 ],i = 1,2,…,n(3)计算测 试集 数据 训 练 集 所 有 数据 的 欧
离,选取距离最小的K个数据,统计K个数据所在类 别出现的频率,将频率最高的类别作为当前测试数
据的预测分类#KNN算法优势在于其不需要进行数据训练,直 接根据待测数据与已知数据的距离关系确定所属类 , 但 在 预 测 时 测 数据 所有数据进行距离计算,因此适用于小数据量的情况,数 据量过大会消耗过多时间#功耗分析攻击中能量迹的数量也是需要考虑的 一个问题,应用尽可能少的数据得到尽可能好的预 测结果#前期特征点选取等多种预处理方式都有助 于减少数据量,因此KNN数据量较小,适用于功耗 分析攻击#1.3随机森林算法在处理实际问题时,需要根据具体情况改进传
统算法,或按照一定的规则组合多种典型的机器学 算法,
确 的 , 本文将多类或多个学习器结合完成学习任务,称为集成 学习#随机森林属于将多个决策树按照投票法进行结 合的一种集成学习算法[8],其性能优于单一决策 树⑼的集成算法#随机森林算法结构如图1所示,
首先,从数据集 D = 2(f ,71),(x2,72),…,(x\" ,7\" ) 3
中进行有放回的采样,得到—个子数据集D - 2 D1 , D2,…,D—3 '然后,利用—个子数据集构建—棵决策
树,每个子决策树输出一个结果6— - T— ( D— ) ( i # [1,—]),其中,T代表单个决策树算法仏代表子决
策树的输出结果;最后,通过对子决策树的判断结果 进行多数投票法投票,即寻找矩阵(-2 61 , 62,…,6 的众数,得到随机森林的输出结果。14 6计算机工程2019年11月15日图1随机森林算法结构随机
作为 能处理高维度数据的集成算法, 理数据 优点 。由于算法会构多棵决 , 数据的属性 不高,同于 数据也不 。但于算法 黑子, 法控制内部运 。功耗 中采集的曲线 同一密码算法,且电 电 间,比于决 ,使用随机森林算法能够有提 准确率。1.4支持向量机算向量机算法 监督学习的机器学习算法,其关键在于寻找 的最优超平面,如 2所示,其中# 本 平面的离。在样本空间中',划分超平面的方程如式(4)所示。Tx + !二 0 (4)中,'为法向量,决 平面的方向,!
,决平 点的距离。为 优化 的超平,
(5)作为
向量机的基本 。min+',b
2s. / 7('乜 + !) % 1,i = 1,2,…,— (5 )于线性 问题,SVM采用优化算法 '最大化 间隔。当 理的问题 线性问题时,SVM 适当的 数, 空间映射 维空间,在高维空间,非线性问题被转化为线性可分问 题,从而 区 本的目的(10-SVM 同 适 用于 维 本 , 决
数 有 关的 数的 向量,同时 向量的数目又决 了计算的复杂性,这在某种意 避免了维数灾难,有于 关键样本,剔除大 本,使得算法具有较好的鲁棒性。在功耗分析 中,会选 密码算法中的某个骤作为 点, 有数几 点有关的时间点,但 于 算法 性的影响,会采集几 甚至几 时间点的电压信息,利用SVM的优势,
运用到功耗分析中,能得 亠个较好的
。2特征点选择本文使用差分功耗分析(Diffeen/al Power Analysis,DPA)国 学术大 四阶段(DPA Contest
v4)的数据作为 象,DPA国际学术大 法国国家科学研究院、法国 等电信学校等单位联合主办,DPA Contest v4分析 象为ATMega163 {片 的掩码类AES-256密码算法,共采集100 000 功 耗曲线, 功耗曲线 435 002 采 点,其中所有的功耗曲线采用的密钥、明文、偏 和掩码都是的。由于本文 于 选 研究,因此码 偏 作 为 , 用 S 的 明作为标签,对这 数据 基于机器学习的一阶功耗分析 。能量迹曲线中 435 002 采点,而能 :现I 明 征的点 数,过多关的点会影响机器学习算法的性能,常见的特征点 的选取有特征提取和特征选择2种方法。其中:特 征提取是在原有特征的基础 生新的特征集,例 如主 析(11 ];征提取是选取原数据集中的子集,例如 关性计算来选 的取样点。本文使用功耗曲线的电压作为机器学习的输入
数据,使用明 作为 标签。文献[12 :中密码 的功耗电 明 比, 本文选用皮尔 关系数提取特征点,且 于 中 采样点数较多,使得提取后的电 线性关系,因此用原始电压集的子集有效减少机器学习时的计。设有1条能量迹,每条能量迹上有C个点,记
能量迹上某一采样点电压为L(, ,.) ( i # [ 1 ,1), j # [1 ,C)), 曲线的标签为8(j # [ 1 ,1)),据皮尔 关系数公式计算电 标签的相关系数。Px,Y = corr( X, Y)Cov( X, Y)
&(Col( Lj, 0?
X&( Y)&( &( %)(6)
对相关系数的绝对值进行从大到小排序,选取第45卷第11期段晓毅,陈 东,高献伟,等:功耗分析攻击中机器学习模型选择研究1 47关系数最大的—个点所对应时刻的电压值,形成 新的数据矩阵。3机器学习模型与数据分析本文选用的4种机器学习算法 斯、K最近邻、随机
为 贝叶明
800 能 迹计算能量迹中每点的功耗与 间的相关系数值,尔 关系数 :向量机。这4种算被标记的样本本点的关系如图3所,相关系数最大值在样本点 法都属于监督学习算法,即 101 589 的 , 为 0.868 736#于机器学 算法来说,若采用图3中所有有关的点运行时间 长, 拟合。图4 ( a)功耗曲线选取0 征点到100 征点时的 准确率, ,在 曲线选取特征点数低于30 时,准确
升 ,高于50 点时, 向量机和K 邻算法的准确
下降趋势, 多 的特征点都
性能。图4 (b)中截取了图4 ( a)中30个〜50个特征
点对应的准确率, 区间内各算法的正确基本在同 平线, 本文 中 功耗曲线选取40 征点。1.20.8< °-6躍0.4T0RF* KNN算法算法-B-4 NBSVM算法算法0.0 &020
40
60
80 100特征点数但)特征点数目为0个〜100个0.90.8 -0.7* RFKNN#算法法-B-4 NBSVM算法算法0.6 30~ 32~ 34~ 36~ 38~ 40~ 42~ 44~ 46~ 48~ 50
特征点数(b)特征点数目为30个〜50个图4特征点数目对分类准确率的影响曲线数据训练
,再用 预测 数据。
方为 :1)
本间的距离有关,即本
,根据本间的距离 测数据的 , K 邻 算 法 和
向 机 ,中 , K 邻 算 法 计 算 测 数 据 训 练 本 间的欧氏距离,由K 邻确 数据的 ,支持向量机
训练样本的距离确定合适的超平面,测数据 ;2)按照属性的特点 ,本的特点即为属性,根据样本间属性的差异进行
,
随机 和 贝 ,其中,随机 k计算属性
构成多棵决 , 用 暫法 测 数 据
, 贝 性为依据的条件概率来计算后验概率,从而 测数据
。在选 明重量作为标签时,每条曲线都属于并且 于汉明
为0〜8 (H。〜比)的 中的,曲线上的电
的属性。本文选出前40
关 系数 大的点 , 按照 关 系数 大的 列。800 数据为例,
关系数最大的属性(电 )作为纵轴,汉明 作为 ,如
图5 ( a)所示, ,
关性,但 性与性间 有 合 ,
据 性 的会受 的影响。5 ( a)仅能够看出不同 间同
性的分布情况,无法 功耗曲线间的 关系,而SVM与KNN算法
的 征点集合的相对空间 ,
用多 性 描述。本文选 取 40 征 点 , 于
功 耗 曲 线来说,都 作是40维空间中的 点。 4, 在 性 数 为 2 时 有 确 的
果存在,所以可以选取任意两个属性(电
)作为坐标和纵坐标 观察数据 情况。如 5 (b)所,相同形状的点代 同的 ,反之然,
数据 总 线性 ,相同
的样本 集中。得出,当 用与距离有关的机器学习
算 法时 , 准 确 于 据 性 的 算法。由于 本文 数据时,K 邻算法和
SVM算法 佳,而K 算法容易受到数据不均衡的影响,本文 中的数据中汉明
为0和明 为 8 的数据 都
数 , SVM 算 法加适合本文 中的功耗分析 。14 8计算机工程2019年11月15日。机器学本文数据的基于机器学习的功耗分析
4.2 叉验证本文选用的机器学习算法都属于监
习算法,即 的数据集训练 ,预测 数据的 ,而 生活中,待测数据的类别
的, 不能评估已训练 数据 集 作 为
汉明重量的优劣。因此, 作 为 训练 集 ,估 , 用 集集
泛化误差。本文中选用k折
(a)单个属性数据分布60(k _ ev)(15 ]估,具算法如下:输入训练集 D = 2 (X],j] ) ,(X2,7 ),…,(X”,7 ) 3输出ksv下分类器的性能指标555045M 40•乩l▼4乩^园■凤*也•乩■耳w^7 lx凤
I •将训练集D分为大小相等的k份;2. for i = 1,2,…,k do35303•取第i份作为测试集;4. for - = 1,2,…,k do5 .if P 二 j then25206• I i份加入到训练集中,作为训练集的一部分;7. end if15汉明重量8. end for(b)多个属性数据分布9. end for10. for i = 1 ,2,…,k - 1 do图5属性数据分布II •训练第1个训练集,得到一个分类模型;12•使用
存
4模型评估与选择估标准及选择方法决定了选
的合的方法进在对应的测试集中 预测,计算并保估指标;13. end for14•计算模型的平均性能;理性。本文中机器学习算法使用网
,
优。在 选择方面,根据“没有
各算法在同一数据集上的参数均为最午餐”定理和4・3 Friedman检验与Nemenyi后续检验用的假设检验方法是比较2种算法的性 能优劣,例如 t检验,而有些假设检 适用于 , 如 McNemar 检 , 合 本 文“ ”理,使用 准确率作为评估准则,认为准确率越 性能越好,并基于选择研究。4.1 关定文献[13 :提出“没有 的午餐”(No Free
比较的是4种算法的性能,且于多 问题 ( 8 比 明 为 9 ) , 用 Friedman检 Nemeyi后续检验方法,选
适合本文实Lunch Theoren, NFL)定理。根据 NFL 得出,在不明确的情况下讨论机器学习算法,没有一 算法会比遍历
空间更优。
数据的机器学 。Friedman检验(6】属于统计假设检验,基本思想
假设检验问题,8 : H个算法间无显
,在比较算法优劣时,需要规比较标准,如运行时间、准确率 等。本文 机器学 折 估准则比较随机森林、K最近邻、朴素贝著差异,8 :H个算法间有显著差异。然后在同一组 数据 集 , 据 测 试 ( 用 的 )学习器性能
作为评, 1,2,…,相同平分向量机算法的性能优劣。文献[14 :提 “
,如 1所。”定理。该定理指出世1数据集算法A
算比序值算 法 B算 法 C界上不存在 的客观标准, 的标准都是主观的。在 机器学 选择时,不存在与问”
0161 $0001 $0001 $0001 $0001 $0002 $0002 $5002 $0002 $0002 $1253 $000题无关的“优越”或“好”的机器学习算法。即算法之间的“
2 $5003 $0003 $000在某种假设的0304平均序值基础上。本文中以准确率作为评估准则,认为准确
率越 性能越好,基于该选择标准选 适合2 $875第45卷第11期段晓毅,陈 东,高献伟,等:功耗分析攻击中机器学习模型选择研究1 49若学习器的性能相同,平均序值应该相同,且 第i个算法的平均序值&服从正态分布N(( k +其中,当k和N都较大时,&服从自由度为k - 1的
F分布。若直接使用式(7)进行假设检验,则结果不
1) B , ( k - 1) /12 ),则可使用式(7 )计算变够准确,因此对式(7)进行修改,得到变量Of #(N-1) 0
N(k-1) -_0(8)量02 #k-10 = 丁12 Nk( k + 1)k(k + 1))4)k=43. 8633. 4903. 0722. 9602. 8272. 766(7)其中,0F服从自由度为k_1和(k_1 )( N-1 )的F分布。表2给出了置信度为95 %的情况下,F检验常用的临界值,其中k表示算法种数#表2 F检验常用的临界值数据集个数Nk = 2k=35. 143k=5k=62. 9012. 7112. 4852. 4222. 3462. 310k=7k=8k=92. 3552. 2442. 1092. 0702. 0222. 000k=10410. 1283. 2593. 0072. 7142. 6342. 5372. 4922. 6612. 5082. 3242. 2722. 2092. 1792. 4882. 3592. 2032. 1592. 1042. 0792. 2502. 1532. 0321. 9981. 9551. 935587. 7095. 5915.1174. 6004. 3814. 4593. 7393. 5553. 3403. 245101520若计算出的0大于表2中对应的值,则接受 “ k种算法间有显著差异”这一假设,然后使用
中的9个子集作为训练集,剩下的1个子集作为验
证集,进行10次训练和测试\"eq , acc2,…,acc10,得
Nemenyl后续检验找出合适的算法。Nemenyl后续
检 计算 平均
的 界 , 3 用到10次结果的均值近似泛化误差,如式(10 ) 所示。Icc = * \"cc
10
的q。值,!为显著性水平。根据式(9 )计算临界值
( 10)域CD,若2种算法的平均序值差超出CD,则能从置 信度1 - !中得出2种算法性能不同的结论#CD=q!-根据实验中使用的功耗数据具有多样性的特 点,测试数量越多,结果越近似泛化误差。以 800条测试数据为例,将800条数据扩展为 3 200 数据 1 次 折
槡k=4F
(9)k=6, 于 SVM
表3 Nemenyi后续检验中常用的C”值k=2k=3k=5和KNN来说,测试时间会远大于4次800条数据
k=9k=10k=7k=8的测试时间#为此,本文使用4组数量相同但组
不同 的 数据集 的 折
来模型的优劣,即2 ice, Icc2, IC3, ice3 ,不仅节
0.051. 9602. 3442. 5692. 7282. 85029493$0313$1023$1640. 101. 6452. 0522. 2912. 4592. 58926932$7802$8552 $920。4.4模型选择过程大多数模型选择是通过一次测试集误差来近 似泛化误差,但通过分析机器学习算法的特点,发
省了大量时间,而且对每组数据进行十折交叉验 证,既满足了数据的多样性,又满足了多次实验近 似泛化误差的条件#本文需要对4种机器学习算
现多次实验的预测结果可能会不一致,在正常情况 下准确率会在一个范围内波动。本文选取的4种 算法通过网格搜索进行参数调优后准确率都在
法 优, 为_ Icce1Iccnb14 数据 集 的 折cIcceIccIcca4 _iCcnb4ACCknn470%以上,波动区间有所重合,并且在模型选择中 存在随机抽取的过程,因此一次测试集误差不足以
Iccn'o2iCcnb3ACCknn3Iccsvm3ICCknn1Icknn2Iccsvm2近似泛化误差#为弥补上述方法的局限性,本文通 过十折交叉验证的均值代替一次测试集误差,即利 用均值法削峰填谷的特点,去除过高和过低的准确
-iCcsvm1Iccsvm4 -假设每组有n条数据,上述方法共使用4xn条
数据对模型进行40次评估,评估结果远比一次一组 数据的准确率更具说服力。以十折交叉验证的结果
率,使得结果能够更准确地反映模型的好坏#通过 10次实验结果代替1次实验的结果,将原有的测 试集D划分成10个大小相似的互斥子集,即:D -
D1 U D2 U …UD10,D — A D? - 0 (i+ j),每次使用其
为前提,对4种算法进行对比,选用Friedman检验与
Nemenyl后续检验方法,选择更适合本文数据的机
器学习模型。模型选择流程如图6所示#15 0计算机工程2019年11月15日图6模型选择流程5 实验验证5.1 十折交叉验证本文选用十折交叉验证方法对随机森林、K最 近邻、朴素贝叶斯及支持向量机4种算法进行评估,
当使用800条数据(包含训练集和验证集)进行模型 评估时,结果如图7所示。针对一组数据时,十折交
叉验证的结果基本重合,无法辨认出模型优劣。同 样使用1 000条数据进行测试,结果如图8所示,曲 线间的重合度较800条时稍有减弱,但仍不明显,同
时可以看出若不采用十折交叉验证,而仅采用一组
数据的一次预测结果来近似泛化误差,则可能判定 为决策树为最优模型。将数据条数增加到2 000条5 000 , 如 9 、 10 所 , 贝叶斯算法与其他3种算法的曲线没有重合之处。为
更加严谨地判断模型的优劣,本文进行Friedman检 验及Nemeyi后续检验#T«-RF算法1.00-* KNN算法WNB0.954 SVM算法算法< °・90 選 $髡 0.85 j0.80n0.75...........................
123456789 10实验次数图7 数据集为800条时的十折交叉验证准确率对比图8数据集为1 000条时的十折交叉验证准确率对比1.000.95< °・90欝 0.85T<-RF算法 *KNN算法0.80WNESVM算法 亠算法0.7523456789 10实验次数图9数据集为2 000条时的十折交叉验证准确率对比图10数据集为5 000条时的十折交叉验证准确率对比5.2 Friedman检验及Nemenyi后续检验结果实验首先假设H°
4 算法间 明显差异,8表示4种算法间有显著差异。然后计算出十折交
的平均值,作为Friedman检验中各算法
的依据#如表4所示,0]、02、03及04分别表示不同的 数据集。按照准确 ,计算 算法的平均序值,如 5所。表4数据集为800条时十折交叉验证平均准确率
%数据集RF算法KNN 算 法NB 算 法SVM算法0185 $086 $884 $487 $70284 $487 $485 $090 $30383 $686 $086 $089 $10481 $882 $578 $987 $5表5数据集为800条时算法比较序值数据集RF算法KNN 算 法NB 算 法SVM 算 法013 $0002 $0004 $0001 $000024 $0002 $0003 $0001 $000034 $0002 $5002 $5001 $000043 $0002 $0004 $0001 $000平均序值3 $5002.1253 $3751 $000第45卷第11期段晓毅,陈 东,高献伟,等:功耗分析攻击中机器学习模型选择研究1 51通过式(8 )计算出变量oF - 10. 230 8,通过查
表2中的临界值,当数据集种数为4、算法个数为4 时,临界值为3.863,因此拒绝H。,接受H1。进而进Nemenyl后续检验,使用式(9 )计算 界值域CD =2.345,如 11所, 线的长度等于临
界值域,SVM、
贝 随机 的平均 [间的距离大于临界 , SVM优于 贝叶斯和随机森林#而SVM与KNN的平均序值之间的 距离小于临界阈值,因此SVM与KNN之间无明显 异#但
5的
SVM算法始终最优,比KNN算法更加稳定。图11数据集为800条时的Nemenyi后续检验结果将数据集条数扩展到1 000条、2 000条及 5 000 ,按照
骤对4种机器学习算法进行评估, 女口 12 2 14所。 ,在4种数据集情况下SVM始终优于朴素贝 ,与K 邻
没有明显差异,但SVM的平均序值小于K最近邻,
从而表明其在 中性能更加稳定。图 12数据集为1 000条时的Nemenyi后续检验结果图13数据集为2 000条时的Nemenyi后续检验结果SVMKNNNB
| 〜 -1 0 1
2
3
4 5 6平均序值图14 数据集为5 000条时的Nemenyi后续检验结果6结束语本文根据密码芯片所采集的能量曲线数据特 性,研究相关机器学习算法,并依据各算法特点,分 析适合功耗分析攻击的机器学习算法。实验选用随
机森林、朴素贝叶斯、K最近邻以及支持向量机4种
机器学 算 法 , 明 按 照 离 的支持向量机算法是最适合功耗分析攻击的机器算
法 , Friedman 检 Nemenyi 后 检
明了支持向量机算法的性能更加稳定。然而,本文仅
从机器学习算法分类准确率的角度进行性能评估,
且在实验中发现数据具有不均衡特性,因此下一步 将针对数据不均衡问题对算法进行改进,提高分类 准 确 。参考文献[1 ] HOSPODAR G,MINDER E D,GIERLICHS B,el al.
Leas- squares supporl vector machines for side-channel
analysic [ C ] //Proceedings of the 3rd Inteaational Conferencc on Control, Automation and Robotics.
Washington D. C. ,USA:IEEE Press,2011 *99-104.[2 ] HE H,JAFFE J,ZOU Long. Side channel cryptanalysic
using learning [ EB/OL ]. [ 2018-10-8 ]. http: //cs229.Stanford. edu/paj2012/HeJaffeZou-PideChanneieryptan
alysisUsingMachineLearning. pdf.[3 ] HEUSER A,ZOHNER M. IntWegenl machine homicide[C]//
Proceedings of the 3 rd Internakonal Conference on Con-
stmctive Side-Channel Analysic and Secure Design.
Washington D. C. ,USA:IEEE Press,2012 :249-264.[4 ] WHIENALL C,OSWALD E. Robusl profiling for DPA-
style attacks] C ] //Proceedings of CHES' 15. Berlin,
Germany: Springer,2015 :3-21.[5 ] LERMAN L,MEDEIROS S F,BONTEMPI G,el al. A
machine leaiiing approach againsl a masked AES [ J ].
Journal of Cryptographic Engineering,2015,5 ( 2 ):
123-139.[6 ]周志华•机器学习[M] •北京:清华大学出版社,2016.(下转第158页)15 8计算机工程2019年11月15日4本文提出一种基于差值直方图平移的密文域可 逆信息隐藏算法。该算法选择差值直方图平移作为
[8 ]何文广,王耀民•一种基于动态分块和差值直方图平
移的可逆水印算法[J] •现代计算机(专业版), 2016( 23) *57-63.切入点,采用分组方法获取更多的差值,通过图像分 块和边缘差值嵌入,突破差值直方图峰值对嵌入容
量的限制,从而提高嵌入率。实验结果表明,该算法 能够实现完全可逆的密文域信息隐藏,在接收端进
[9 ]熊祥光,曹永锋,欧卫华,等•采用插值和排序的大容
量可逆数据隐藏算法[J] •计算机辅助设计与图形学 学报,2018,30(10) : 1954-1965.[ 10] ZHANG Xinpeng.ReverFibledata hiding in encrypted
imageF[ J] .IEEE Signal Pro ceFFLeterF, 2011 , 18 ( 4) * 255-258.[ 11 ] LIAO Xin, SHU Changwen. Reveribledata hiding in encrypted imageFbaFed on abFolute mean diference of multiple neighboring pixel [ J ] . Journal of Viual Communication and ImageRepreFentation, 2015 , 28 ( 1 ) * 21-27.[ 12] KARIM M SA, WONG K.UniverFaldataembedding in
行信息提取和图像解密时可以进行灵活操作#本文
仅对灰度图像进行分析,而针对彩色图像的信息隐 藏研究,将是下一步的研究方向#参考文献[1 ] TIAN Jun. Reversible dCa embedding using a dPfeenca
expansion [ J ]. IEEE Tensactions on CPcuUsend Systems for Video Technology,2003,13 ( 8) *890-896.[2 ] AL ATTAR A M. Reversibly watermck using Pic dbference
Expansion of a g+n+ralie+d intg+r transform [ J ] .IEEE
Tansac/ons on Image Processing,2004,13 ( 8) *1147-1156.[3 ] CELEC M U,SHARMA G,TEKALP A M.Lossless watermcking
encrypted domain[ J] . Signal Pro ceFFing, 2014, 94 ( 2) * 174-182.[ 13 ] KURIBAYASHIM, TANAKA H.Fingerprinting protocol
forimageFbaFed on additivehomomorphicproperty [ J] . IEEE TranFa ctionFon ImageProceFing, 2005 , 14 ( 12 ) * 2129-2139.[ 14] ZHANG Xinpeng, LOONG J, WANG Z, et al. LoFFleFF
for image authentication * a new framework and an implementation [ J ] $ IEEE Transactions on Image Procesing,2006,15( 4) *1042-1049$and reverFible data hiding in encrypted imageF with public key cryptography [ J ] .IEEE TranFactionF on Circuit and SyFtemF for Video Te chnology, 2015, 26( 9) *1622-1631.[15 ]柯彦,张敏情,刘佳,等•密文域可逆信息隐藏综述[J] •计
算机应用,2016,36( 11) *3067-3076.[ 16] CHEN Yuchi, SHIU C W, HORNG G.EncryptedFignal-
[4 ] NI Zhicheng,SHI Yunqing,NIRWAN A,at al. Reversible
datahiding[ J] .IEEETransactionson Circuitsand System forVideo Techno#ogy,2006,16( 3) *354-362.[ 5 ] LIN Chia chen, TAI Wei iang , CHANG Chin chen.
Multilevel raversibla data hiding based on histogram modification of dPfeenca images [ J ]. Pattern
baFed reverFible data hiding with public key cryptoFyFtem[ J] . Journal of Vi ual Communi cation and Image RepreFentation,2014,25( 5) *1164-1170.[ 17 ] XIAO Di, WANG Ying, CHANG Yanting, et al.
Re cognition,2008( 41) *3582-3591.[ 6 ] KIM K, LEEM.ReverFibledatahiding exploiting Fpatial
correlation between sub-sampled image [ J ]. Pattern Recognition,2009( 42) *3803-3906.[ 7 ] LUO Hao, YU Faxin.ReverFibledatahiding baFed on
ReverFible data hiding in encrypted image baFed on additive homomorphim and multi-level diference hutogem shifting[ J]. Netinfo Security,2016(4) *9-16.[18 ]熊志勇,王江晴•基于差值直方图平移的彩色图像可
逆信息隐藏[J] •四川大学学报(工程科学版),2011, 43( 3) *81 -89.编辑索书志block median preFervation [ J ] .Information ScienceF, 2011,81*308-328.(上接第151页)[7 ]李强,蒋静坪•量子K最近邻算法[J] •系统工程与电
子技术,2008,30(5) *940-943.[12 ]罗鹏,冯登国,周永彬•功耗分析攻击中的功耗与数据
[8 ]王奕森,夏树涛•集成学习之随机森林算法综述[J].
相关性模型[J] •通信学报,2012,33 ( zl )*276-281.[ 13 ] WOLPERT D H. No frelunch theoremFforFearch[ EBjOL] .
[2018-10-08]. https://coe. ac. uk/dispAy/24281656.[ 14] WATANABE S$Knowingand guessing* a quantitative
信息通信技术,2018,12(1) *49核5.[9 ]张宇•决策树分类及剪枝算法研究[D] •哈尔滨:哈尔滨
理工大学,2009.[10 ]刘方园,王水花,张煜东•支持向量机模型与应用综
述[J] •计算机系统应用,2018,27 (4)*1 -9.
[11 ]赵蔷•主成分分析方法综述[J].软件工程,2016,
19 (6) *1 -3.
study ofinference and information [ M ] $New York, USA* Wiley,1969$[ 15] 永东$ 选 中的 方法综 [ D] $ *山西大学,2013.编辑陆燕菲
因篇幅问题不能全部显示,请点此查看更多更全内容