SPSS:缺失数据缺失值情况基本分析.
一、案例数据
调查了33名研究对象的性别(gender)、年龄(age)和某生化指标(X),分析性别和年龄对生化指标浓度是否有影响?部分数据见图1。
图1
二、生成缺失数据.
现对完整数据进行多重线性回归分析,操作详见多重线性回归分析(Multiple Linear Regression Analysis)——SPSS软件实现(链接),的到如图2结果:
图2
为了使分析结果有对照标准,这里人为生成一个有缺失值(生化指标缺失10个个案,并且都是在高年龄组缺失)的数据(图3),缺失数据集也可在“附件下载”处下载,然后再进行填补分析。
图3
分析未经过任何填补方法处理的情况(此时对缺失值采取“成对排除个案”,图4),结果见图5。
图4
图5
可见未经填补处理的数据分析结果,年龄的回归系数与原始数据之间存在较大差异。
三、缺失模式分析 (一) 软件操作.
选择“分析”—“缺失值分析”(图6)。
图6
将“年龄”“生化指标”选入“定量变量”框;将“性别”选入“分类变量”框(图7)。
图7
在“缺失值分析:模式”子对话框中选中所有的复选框(图8)。
图8
(二) 结果解读.
图9为单变量统计结果,该表格为每个变量显示非缺失值的样本量、平均值、标准差,同时会显示缺失值的计数和百分比。从中可见在三个变量中只有生化指标X有10个缺失值,缺失比例为30.3%。gender由于被指定为分类变量,因此不会输出平均值和标准差。
图9
图10“数据模式(所有个案)”结果,给出了所有案例的缺失值,S表示缺失,+号表示极值。该表格的信息和图11“缺失模式(具有缺失值的个案)”完全相同。
图10
图11
图12“制表模式”结果为全部进入缺失值分析的变量。可见33个案例中共有10个案例的生化指标X存在缺失值,其他两个变量则均无缺失情况出现。
图12
四、数据缺失性质分析.
下面对上述案例的缺失类型进行分析,对缺失值与性别之间的关系使用fisher’s精确概率法(操作详见2×2 Fisher确切概率法(2×2 Fisher’s Exact Test)——SPSS软件实现,链接),对缺失值与年龄之间的关系使用两独立样本t检验(操作详见独立样本t检验(Independent Samples t-test)——SPSS软件实现,链接)。
性别的缺失情况(图13)分析显示,男、女性中缺失的比例分别为29.4%和31.3%,差异无统计学意义(P=0.603)。年龄的缺失情况(图14)分析显示,缺失组和非缺失组的年龄分别为(55.8±7.8)岁、(46.2±10.7)岁,差异有统计学意义(P=0.016)。说明缺失数据与年龄有关,并不是属于完全随机缺失,而可以认为是属于随机缺失。
图13
图14