您的当前位置:首页正文

大学生网络利他行为量表的项目功能差异检验

2023-12-20 来源:钮旅网
大学生网络利他行为量表的项目功能差异检验

郑显亮

【摘 要】对592名大学生进行问卷调查,采用均值与协方差结构(MACS)分析方法对大学生网络利他行为量表(IABSU)进行跨地域的项目功能差异检验,结果表明:IABSU有4个题项存在跨地域的项目功能差异,即题项24、题项28和题项1存在一致性DIF,题项11存在非一致性DIF.为了提高量表的公平性和有效性,建议删除这4个有DIF的题项.

【期刊名称】《赣南师范学院学报》 【年(卷),期】2013(034)004 【总页数】5页(P79-83)

【关键词】大学生网络利他行为量表;项目功能差异;地域 【作 者】郑显亮

【作者单位】赣南师范学院教育科学学院,江西赣州341000 【正文语种】中 文 【中图分类】B849 一、引言

项目功能差异(Differential Item Functioning,DIF)是指群体能力被控制之后,一个题项在不同群体中表现出不同的统计特性。[1]如相同能力的男生和女生在某一题项上的得分存在显著差异,则表明该题项存在性别DIF。DIF究其本质而言,

是一个测验公平性问题。测验中存在DIF,就可能导致测验偏差和测验的不公平,即同一测验对不同的群体存在偏向性。[2]更为重要的是,DIF题项对测验的效度有相当大的威胁,DIF的出现表明测验内容受到了其他因素的干扰。[3]因此,研究项目功能差异主要是为分析测验公平性和有效性服务。

一般来讲,DIF可以分为两种:一致性DIF(uniform DIF)和非一致性 DIF(non-uniform DIF)。[4]被试的能力水平与其组别之间不存在交互作用,这称为一致性DIF。反之,被试的能力水平与其组别之间存在交互作用,则为非一致性DIF。[5]目前,研究者已开发出多种DIF分析的方法,如卡方方法、MH方法、STAND方法、SIBTEST方法、逻辑斯蒂回归方法、[6]IRT 方法、[7]CFA 方法[8]等,这些方法大多适用于两级记分(0、1记分)题项的DIF检验。对于多级记分题项的DIF检验,Sorbom提出了均值与协方差结构(mean and covariance structure.MACS)分析方法。[9]Chan[10]对 IRT 方法和 MACS 方法进行了比较,认为MACS方法较灵活有效。首先,在模型拟合评估时,MACS方法可以参考很多个拟合指数,多个拟合指数的使用会给拟合评估提供聚敛的证据;而IRT方法仅有一个X2检验似然比作为模型拟合的指数,X2检验似然比对样本容量极其敏感,如果样本容量大的话,即使模型在理论上是合理的,也会使模型产生X2值的统计显著性,从而拒绝该模型。其次,MACS方法采用了迭代的方式利用修正指数(MI)来侦查DIF,而IRT方法则没有类似的指数。与CFA方法相比,MACS方法也具有优势。CFA方法只能检验非一致性DIF,而MACS方法既能检验一致性 DIF,又能检验非一致 DIF。[11]在 MACS 方法中,项目截距对应于项目难度参数,项目因素负荷对应于项目区分度参数。判断一致性DIF还是非一致性DIF,取决于在各组上不同的项目参数的类型。在项目截距上存在组间差异(即项目难度差异),表示一致性DIF,在因素负荷上存在差异(即项目区分度差异),则表示非一致性 DIF。[12]

运用MACS方法进行DIF检测,已引起了一些国外研究者的兴趣,[10,13-14]但国内仅见 1 篇该方法的有关介绍,[10]未见相关的实证研究。本研究拟采用MACS方法对初步编制的大学生网络利他行为量表(Internet Altruistic Behavior Scale of Undergraduates,IABSU)[15]进行地域 DIF 分析,具体探讨用MACS方法进行DIF检验的程序和方法,希冀引起更多学者对该方法的关注,同时通过对IABSU的DIF分析,进一步完善题项质量,提高该量表的公正性和有效性。 二、研究方法 (一)被试

在上海市抽取3所大学、在安徽省抽取2所大学,采用整群抽样的方法,以班级为单位进行施测。发放问卷620份,得到有效问卷592份(男生257人,女生335人;上海市被试283人,安徽省被试309人)。本研究以上海市被试为经济发达地区样本,以安徽省被试为经济欠发达地区样本。被试平均年龄20.3 ±1.2岁。 (二)研究工具

大学生网络利他行为量表(IABSU),该量表由郑显亮等编制,[15]共30个题项,包括网络支持(11个题项)、网络指导(7个题项)、网络分享(7个题项)和网络提醒(5个题项)4个维度,采用4级评分(1表示“从不”,4表示“通常”),要求被试对自己在网上的利他行为进行判断,得分越高,网络利他行为程度就越高。该量表的信度较高,总量表的α系数是0.937,各维度的 α 系数在 0.800 -0.878之间。 (三)DIF检测方法

采用 MACS 方法的迭代程序,[11,16]运用 Lisrel 8.80对数据进行DIF检验。具体程序如下:

(1)建立完全限制模型(“fully constrained”model),即各组所有相应的项目截距和因素负荷均限定为等同,然后考察模型与观测数据是否拟合。判断题项是否有

DIF,主要看与每一项目参数相关联的修正指数(MI)。MI表示让受限制的参数自由估计时,整个模型的卡方减少的数值。让一个参数自由估计,相应地就会减少一个自由度,因此就能够对某一MI值和某α水平的临界值进行比较,以确定其是否具有统计显著性。

(2)侦查一致性DIF和非一致性DIF。侦查一致性DIF主要检验与项目截距相关联的MI值。与项目截距相关联的最大的MI值若有统计显著性,则表明对应的题项具有跨组的一致性DIF。接着让该题项的截距自由估计,对其进行拟合检验,检测剩余题项中与项目截距相关联的最大MI值,看其是否达到统计显著性。这样的迭代程序一直进行到最大的MI值不具有统计显著性为止。侦查非一致性DIF则主要检验与因素负荷相关联的MI值,方法与检验一致性DIF相同。需要注意的是,由于跌代程序需要多次检验量表各题项的MI值的统计显著性,其α值需要用Bonferonni校正。例如,某一步中有12个MI值,那么决定12个MI中最大值的显著性水平是 0.05/12,而不是 0.05。

(3)验证DIF题项。由显著性MI值标记的题项是否具有DIF呢?这需要设定两个嵌套模型的比较来验证。一个是不完全限制模型,即让有DIF的项目参数(截距和/因素负荷)自由估计而剩余项目参数限制为等同;另一个是完全限制模型,即在各组上所有项目参数都设为等同。若这两模型的模型拟合存在显著性差异,则证实这些题项具有DIF。

若与截距和因素负荷相关联的最大MI值不具有统计显著性,则表明可能不存在DIF。但也需要通过嵌套模型比较来证实不存在DIF,即通过比较“完全限制模型”(所有项目参数在各组都限定为等同)和“完全不限制模型”(除了模型识别和潜变量单位设定的原因而加以限制外,其他所有项目参数在各组自由估计)的x2差值,模型拟合没有显著差异,则证实不存在DIF。 三、结果与分析

由于MACS方法只能对单维多级记分题项的一致性和非一致性DIF进行分析,因此本研究对量表的4个维度(网络支持、网络指导、网络分享和网络提醒)逐个进行DIF检验。

(一)网络支持维度的DIF分析

首先建立跨地域的“完全限制模型”,即将经济发达地区和经济欠发达地区的被试在该维度11个题项上对应的项目截距和因素负荷均限定为等同。然后,把探索性因素分析得到的两组上最大负荷的题项26设定为参照指标,固定其负荷为1,以此确定潜变量的单位;同时把经济发达地区组作为参照组,设定其潜变量均数为0,而经济欠发达地区组的潜变量均数自由估计。“完全限制模型”拟合检验结果为:df=108,X2=258.00,X2/df=2.39,NNFI=0.98,CFI=0.98,GFI=0.93,RMSEA=0.069。所有拟合指数均较理想,表明模型很好地拟合数据。 考察修正指数发现:与项目截距相关联的最大的 MI=11.37(题项 24),p < 0.05/11=0.004 6,表明该项目截距跨地域不等同,可能存在一致性DIF。去除题项24截距等同的限制,继续考察模型的拟合情况。结果发现,最大的

MI=8.17(题项28),p < 0.05/10=0.005,表明该题项也可能存在一致性DIF。再去除题项28截距等同的限制,结果最大的MI=3.37(题项15),p >

0.05/9=0.0056,表明不再有题项存在一致性DIF。进一步考察与因素负荷相关联的修正指数,最大的MI=5.03(题项6),p > 0.05/10=0.005(由于一个因素负荷限定为1,与因素负荷相关联的MI只有10个),表明所有题项因素负荷跨地域等同,没有题项存在非一致性DIF。

最后,为了验证题项24和题项28存在DIF,比较部分限制模型(让两组的题项24和题项28的截距自由估计,其他题项限制跨组等同)与完全限制模型(两组的因素负荷和项目截距均限定为等同)。两模型的拟合指数见表1。结果显示:△x2=17.28,△df=2,p<0.05,表明两嵌套模型之间存在显著差异,证实网络支持维度的题项

24和题项28存在一致性DIF。

表1 各维度两嵌套模型的拟合指数比较df网络支持 部分限制模型完全限制模型维度 模型 x2 df x2/df NNFI CFI GFI RMSEA △x2 △0.069 17.68 2网络指导 部分限制模型完全限制模型240.32 258.00 106 108 2.27 2.39 0.98 0.98 0.98 0.98 0.93 0.93 0.065 0.072 0.077 13.36 1网络分享 部分限制模型完全限制模型98.99 112.35 39 40 2.54 2.81 0.97 0.97 0.97 0.97 0.96 0.96 0.087 0.091 11.92 1网络提醒 完全不限制模型完全限制模型126.50 138.42 39 40 3.24 3.46 0.95 0.95 0.95 0.95 0.95 0.95 23.48 26.80 14 18 1.68 1.49 0.99 0.99 0.99 1.00 0.98 0.98 0.049 0.069 3.32 4 (二)网络指导维度的DIF分析

首先建立跨地域的“完全限制模型”,即将经济发达地区和经济欠发达地区的被试在该维度7个题项上对应的项目截距和因素负荷均限定为等同。然后,把探索性因素分析得到的两组上最大负荷的题项21设定为参照指标,固定其负荷为1,以此确定潜变量的单位;同时把经济发达地区组作为参照组,设定其潜变量均数为0,而经济欠发达地区组的潜变量均数自由估计。“完全限制模型”拟合检验结果为:df=40,X2=112.35,X2/df=2.81,NNFI=0.97,CFI=0.97,GFI=0.96,RMSEA=0.077。所有拟合指数均较理想,表明模型很好地拟合数据。 考察修正指数发现:与项目截距相关联的最大的MI=7.06(题项7),p > 0.05/7=0.007,表明该项目截距跨地域等同,没有题项存在一致性DIF。进一步考察与因素负荷相关联的修正指数,最大的MI=11.11(题项11),p <

0.05/6=0.008(由于一个因素负荷限定为1,与因素负荷相关联的MI只有6个),表明该题项因素负荷跨地域不等同,可能存在非一致性DIF。去除题项11因素负荷等同的限制,结果最大的 MI=0.19(题项22),p > 0.01=0.05/5,表明不再有题项存在非一致性DIF。

为了验证题项11存在DIF,比较部分限制模型(让两组题项11的因素负荷自由估计,其他题项限制跨地域等同)与完全限制模型(两组的因素负荷和项目截距均限定为等同)。两模型的拟合指数见表2。结果显示:△x2=13.36,△df=1,p<0.05,表明两嵌套模型之间存在显著差异,证实网络指导维度的题项11存在非一致性DIF。 (三)网络分享维度的DIF分析

首先建立跨地域的“完全限制模型”,即将经济发达地区和经济欠发达地区的被试在该维度7个题项上对应的项目截距和因素负荷均限定为等同。然后,把探索性因素分析得到的两组上最大负荷的题项4设定为参照指标,固定其负荷为1,以此确定潜变量的单位;同时把经济发达地区组作为参照组,设定其潜变量均数为0,而经济欠发达地区组的潜变量均数自由估计。“完全限制模型”拟合检验结果为:df=40,X2=138.42,X2/df=3.46,NNFI=0.95,CFI=0.95,GFI=0.95,RMSEA=0.091。除RMSEA值稍微大了一点外,其他的拟合指数均较理想,表明模型较好地拟合数据。

考察修正指数发现:与项目截距相关联的最大的 MI=10.67(题项 1),p <

0.05/7=0.007,表明该题项可能存在非一致性DIF。去除题项1截距等同的限制,结果最大的 MI=2.26(题项 5),p>0.05/6=0.008,表明不再有题项存在非一致性DIF。进一步考察与因素负荷相关联的修正指数,最大的 MI=2.49(题项 5),p>0.05/6=0.008(由于一个因素负荷限定为1,与因素负荷相关联的MI只有6个),表明所有题项因素负荷跨地域等同,没有题项存在非一致性DIF。

为了验证题项1存在DIF,比较部分限制模型(让两组的题项1的截距自由估计,其他题项限制跨组等同)与完全限制模型(两组的因素负荷和项目截距均限定为相等)。两模型的拟合指数见表2。结果显示:△x2=11.92,△df=1,p<0.05,表明两嵌套模型之间存在显著差异,证实网络分享维度上的题项1存在一致性DIF。 (四)网络提醒维度的DIF分析

首先建立跨地域的“完全限制模型”,即将经济发达地区和经济欠发达地区的被试在该维度5个题项上对应的项目截距和因素负荷均限定为等同。然后,把探索性因素分析得到的两组上最大负荷的题项25设定为参照指标,固定其负荷为1,以此确定潜变量的单位;同时把经济发达地区组作为参照组,设定其潜变量均数为0,而经济欠发达地区组的潜变量均数自由估计。“完全限制模型”拟合检验结果为:df=18,X2=26.80,X2/df=1.49,NNFI=0.99,CFI=1.00,GFI=0.98,RMSEA=0.041。所有拟合指数均较理想,表明模型很好地拟合数据。 考察修正指数发现:与项目截距相关联的最大的 MI=0.72(题项 16),p >0.05/4=0.013,表明该项目截距跨地域等同,没有题项存在一致性DIF。进一步考察与因素负荷相关联的修正指数,最大的MI=2.28(题项20),p >

0.05/4=0.013(由于一个因素负荷限定为1,与因素负荷相关联的MI只有4个),表明所有题项因素负荷跨地域等同,没有题项存在非一致性DIF。

比较“完全不限制模型”和“完全限制模型”的x2差值,若模型拟合没有显著差异,则证实不存在DIF。两模型的拟合指数见表2。结果显示:△x2=3.32,△df=4,p>0.05,表明两嵌套模型之间不存在显著差异,证实网络提醒维度的题项不存在地域DIF。 四、讨论

(一)IABSU的DIF分析

研究结果显示,IABSU有4个题项存在地域DIF,即:网络支持维度的题项24和题项28存在一致性DIF、网络指导维度的题项11存在非一致性DIF、网络分享维度的题项1存在一致性DIF。

题项对组别的偏向可以从DIF题项的参数值反映出来。从表2可知,经济发达地区组在题项24的难度参数值要高于经济欠发达地区组,但在题项28和题项1的难度参数值要低于经济欠发达地区组。这表明,在潜在特质量表上具有同样水平的

两组被试,经济发达地区组在题项24上有更高的平均反应水平,而经济欠发达地区组在题项28和题项1上有更高的平均反应水平。经济发达地区组在题项11的区分度参数值上要高于经济欠发达地区组,这表明题项11更能有效地区分经济发达地区组的潜在特质。

表2 DIF项目参数值注:A组为经济发达地区组,B组为经济欠发达地区组项目参数 题项24 A组 B组题项28 A组 B组题项11 A组 B组题项1 A组 B组区分度参数(LX)2.11 1.94 2.20 2.33 2.09 2.29 1.17 0.77难度参数(TX)

Lanning认为,存在一致性DIF的原因可能是因为题项的描述对另一组被试来讲具有更高的通俗性,因此具有更高的项目难度值。[17]经济发达地区学生可能更加前卫、时尚,这也体现在网络生活中,他们对网络购物、网络商店、网络游戏等可能更加偏好,特别是一些女生,在网上购买一些服饰、化装品,可能是非常普遍之事。经济欠发达地区学生由于经济较拮拘,他们较少进行网络购物,在网上更多地是了解新闻资讯、获取一些有意义的信息或是参与网上的一些讨论。因此,题项24(“在网上推荐一些好的书籍、物品、游戏等供他人参考”)更加符合经济发达地区学生的潜在特质,题项描述对经济发达地区学生来讲更加通俗。而题项28(“对网上有积极意义的言论、观点给以肯定或鼓励”)和题项1(“在网络上转载他人发表的有意义的文章或日志”)更加符合经济欠发达地区学生的潜在特质,题项描述对经济欠发达地区学生来讲更加通俗。所以,经济发达地区组在题项24上有更高的平均反应水平,而经济欠发达地区组在题项28和题项1上的平均反应水平更高。

题项的区分度参数值越高,表明被试所知觉到的题项的内容就更具体。[10,14]题项 11(“在论坛上发一些有见解性的或学术性的贴子”)存在跨地域的题项区分度差异,很可能是因为该题项所描述的内容对经济发达地区组被试来讲要更具体,而经济欠发达地区组被试对该题项的理解要模糊一些。由于家庭经济状况和学校条

件的影响,经济发达地区学生接触网络的机会较多,他们的网龄和上网时间都要高于经济欠发达地区学生,他们的网络经验较丰富,对“论坛”、“贴子”之类的网络用语非常熟悉。相对来讲,经济欠发达地区学生对“论坛”、“贴子”之类的网络用语要陌生一些,对其理解自然就模糊一些。 (二)DIF题项的取舍

对有DIF的题项如何取舍呢?在认知测验里,如果某题项存在DIF,常见的做法是从题库里挑选出相对等的题来代替DIF题项。[18]但是在人格测验里,对DIF题项还得进一步分析,需要对题项的内容和形式进行定性的判断,以确定题项的内容和形式是否造成偏差。若题项的内容或形式确实造成了偏差,可考虑删除DIF题项。本研究对存在地域DIF的4个题项的内容进行分析,发现除了所测量的网络利他行为以外,还测了其它维度的内容。如题项11(“在论坛上发一些有见解性的或学术性的贴子”)还测了网络语言的熟悉性,题项24(“在网上推荐一些好的书籍、物品、游戏等供他人参考”)、题项28(“对网上有积极意义的言论、观点给以肯定或鼓励”)和题项1(“在网络上转载他人发表的有意义的文章或日志”)还测了网络行为的偏好。这些内容都不是我们想要测量的东西,而且这给不同地域的被试带来了不适当的混淆。因此,为了提高量表的效度,为了使IABSU能在不同地域加以应用,建议对存在DIF的题项24、题项28、题项11和题项1给予删除。删除了4道DIF题项后,总量表的α系数为0.916,各维度的 α 系数在0.792-0.865之间,表明量表的信度仍较高。 五、结论

本研究采用均值和协方差结构(MACS)分析方法对IABSU各维度进行了跨地域的DIF分析,结果表明:网络支持维度的题项24和题项28、网络指导维度的题项11和网络分享维度的题项1存在地域DIF。经济发达地区组在题项24的难度参数值要高于经济欠发达地区组,但在题项28和题项1的难度参数值要低于经济欠发达

地区组;经济发达地区组在题项11的区分度参数值上要高于经济欠发达地区组。故题项24、题项28和题项1存在地域一致性DIF,题项11存在地域非一致性DIF。 参考文献:

【相关文献】

[1]Angoff,W.H.Perspectives on differential item functioning methodology[M].In Holland,P.W.& Wainer,H.(Eds.),Differential item functioning.Hillsdale,NJ:Erlbaum,1993.

[2]Holland,P.W.Differential item functioning[M].Hillsdale,NJ:Lawrence Erlbaum Associates.1993.

[3]Mikyung,K.Detecting DIF across the different language groups in a speaking test[J].Language Testing,2001,18(1):89 - 114.

[4]Mellenbergh,G.J.Contingency table models for assessing item bias[J].Journal of Educational Statistics,1982,(7):105 -118.

[5]Kimberly,A.,Hepner,L.S.,& Morales,M.D.Evaluating differential item functioning of the PRIME-MD mood module among impoverished black and white women in primary care[J].Women’s Health Issues,2008,(18):53 -61.

[6]Crane,P.K.,Belle,G.,& Larson,E.B.Test bias in a cognitive test:differential item functioning in the CASI[J].State Media,2004,23(2):241 -256.

[7]Reise,S.,Widaman,K.,& Pugh,R.Confirmatory factor analysis and item response theory:Two approaches for exploring measurement invariance[J].Psychological Bulletin,1993:114,552 -566.

[8]骆方,张厚粲.检验项目功能差异的两类方法——CFA和IRT的比较[J].心理学探新,2006,26(1):74 -78.

[9]Sorbom,D.Structural equation models with structured means.In Joreskog K.G.,& Wold H.(Eds),Systems under indirect observation[M].Amsterdam:North Holland,1982.

[10]Chan,D.Detection of Differential Item functioning on the Kirton Adaption-Innovation Inventory Using Multiple-Group Mean and Covariance Structure Analysis[J].Multivariate Behavioral Research,2000,35(2):169 -199.

[11]赵必华,顾海根.运用均值与协方差结构模型侦查项目功能差异[J].心理发展与教育,2009,(3):119 -122.

[12]Mellenbergh,G.J.Generalized linear item response theory[J].Psychological Bulletin,1994,(15):300 -307.

[13]Everson,H.T.,Millsap,R.E.,& Rodriguez,C.M.Isolating gender differences in test anxiety:A confirmatory factor analysis of the test anxiety inventory[J].Educational and Psychological Measurement,1991,(51):243 -251.

[14]Ferrando,P.Calibration of invariant item parameters in a continuous item response model using the extended Lisrel measurement submodel[J].Multivariate Behavioral Research,1996,(31):419-439.

[15]郑显亮,祝春兰,顾海根.大学生网络利他行为量表的编制[J].中国临床心理学杂志,2011,(5):606 -608.

[16]Oort,F.J.Simulation Study of item bias detection with restricted factor analysis[J].Structural Equation Modeling,1998,(5):107-124.

[17]Lanning,K.Consistency,scalability and personality measurement[M].New York:Springer-Verlag,1991.

[18]Maria O.,& Grant,N.Differential item functioning in a Spanish translation of the PTSD checklist Detection and evaluation of impacts[J].Psychological Assessment,2002,14(1):50 -58.

因篇幅问题不能全部显示,请点此查看更多更全内容