手机版 客户端

SPSS:缺失值填补——简单填补法

  SPSS:缺失值填补——简单填补法

  一、案例介绍

  此处仍以缺失情况基本分析一文中生成的缺失数据为例。调查了33名研究对象的性别(gender)、年龄(age)和某生化指标(X),分析性别和年龄对生化指标浓度是否有影响?人为生成一个有缺失值(生化指标缺失10个个案,并且都是在高年龄组缺失)的数据(图1),然后再进行填补分析。

  图1

  二、简单填补

  (一)软件操作

  点击“转换”—“替换缺失值”(图2)。

  图2

  将“生化指标”选入右侧“新变量”对话框,默认出现“X_1 = SMEAN(X)”,此时选择的为“序列平均值法”(即简单平均值法)(图3)。填补后新生成的变量名称为“X_1”,“方法”中提供了5种简单填补法,包括“序列平均值”“临近点的平均值”“临近点的中间值”“线性插值”和“临近点的线性趋势”,本文将依次演示。

  图3

  点击“确定”,可见在数据视图新页面生成了新变量“X_1”。

  图4

  然后依次使用“临近点的平均值”(图5)、“临近点的中间值”(图6)、“线性插值”(图7)和“临近点的线性趋势”(图8)对数据进行填补。填补后生成的新变量依次为X_1~X_5 (图9)。

  图5

  图6

  图7

  图8

  图9

  (二) 效果比较

  分别对原始数据(缺失情况基本分析一文中的原始数据,不含缺失值)、未填补(成对删除)数据及5种不同的填补方法进行多重线性回归分析,结果比较见表1。

  表 1

  注:临近点的线性趋势是指使用线性回归方法估计和替代缺失值,严格来讲属于复杂填补法

  通过比较可知,5种填补法中,“序列平均值”效果最差,其他几种方法与不填补比较,结果相差不大。

分类标签: 缺失值填补 缺失值 SPSS

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!