手机版 客户端

SPSS:缺失值填补——多重填补

SPSS:缺失值填补——多重填补

  SPSS:缺失值填补——多重填补

  一、案例介绍

  此处仍以缺失情况基本分析(链接)一文中生成的缺失数据为例。调查了33名研究对象的性别(gender)、年龄(age)和某生化指标(X),分析性别和年龄对生化指标浓度是否有影响?人为生成一个有缺失值(生化指标缺失10个个案,并且都是在高年龄组缺失)的数据(见图1),然后再进行填补分析。

  图1

  二、回归算法填补

  (一) 软件操作

  选择“分析”—“多重插补”—“插补缺失数据”(图2)。

  图2

  将用于缺失值填补的变量选入“模型中的变量”,“插补数”可以根据情况进行设置,默认为“5”。“插补数据的位置”中可以对插补后的数据集命名(图3)。

  图3

  “方法”模块中,默认“自动”,也可以自定义选择,如数据集较大时可以使用蒙特卡洛模拟(图4)。

  图4

  “约束”模块中,可以对填补模型加以微调。“重新扫描数据”可以在“变量摘要”中检查变量缺失情况;“定义约束”中可以设置某些变量只用于预测或只用于插补(图5)。

  图5

  (二) 效果比较

  通过多种填补后可见生成了一个名称为“多重填补”的新数据集。

  该数据集中包括1个原始数据和5个新生成的数据。在数据集的右上方点击可以依次查看每个数据集的情况。此时菜单中很多统计分析过程的图标也会改变为,如交叉表、线性回归等都是如此,表示该过程可以直接使用多重填补后的数据进行分析。

  通过对多重填补后的数据集进行分析,只要图表为的数据集均会自动利用该数据集进行计算。通过线性回归分析结果见图6。

  图6

  将多重填补的结果和其他方法的结果对比见表1。

  表1

  通过对比可知,多重填补结果只比“序列平均值”效果好,比其他几种方法似乎还要差一些,这说明多重填补算法虽然在理论上比较完善,但实际应用过程中有时还存在许多问题。这再次提示缺失值处理是一个非常复杂的过程,需要结合专业、经验、方法学加以综合考虑,尤其是不要轻信单一填补后的结果,有时根据专业知识人工填补甚至不填补的结果反而更接近真实情况。

参考标签

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!