手机版 下载桌面 设为首页

对连续性变量进行分类转换的一种方法----最大选择检验

  在临床研究中我们会遇到如下问题:如果x指标的测量值是连续的,对于结局指标y来说,如何将x指标进行分类(分为两组),才能够获得y指标在两组间差异最大。

  这个问题其实是一个对连续性指标x找切点的问题。很多人会想到ROC曲线,的确如果y是分类的,可以考虑用ROC来找x的切点,同时还可以考虑用分类树的方法等。但是如果y是连续的,又或者是生存数据该怎么呢?下面举个例子。

有研究者用Ipilimumab单抗治疗晚期黑色素瘤患者,测量患者血清的VEGF水平与治疗的疗效,研究者发现患者的OS与治疗前的VEGF水平有关。此时研究者想探索VEGF的切点在哪儿?才能够使得两组患者的OS差异最大。他们在文中便使用了Maximally Selected Log-rank Statistic(最大选择log-rank检验)。

  MaximallySelected Log-Rank Statistic是最大选择检验(Maximally Selected Test Statistics)的一种,除了他以外还有Maximally SelectedChi-Square Statistics和Maximally Selected Rank Statistics等,分别应用于变量y的不同类型下。何谓最大选择检验呢?简单来说,就是对x进行若干次分类,只到找到一个切点值使得分类后的两组y值有着最大的统计量。

  拿上面的例子来说,就是对基线的血管内皮生长因子找不同的切点,只到找到一个切点使得两组患者的总体生存率差异最大。上图也指出,研究者最后选择的VEGF的切点是43 pg/ml。作者还分别在不同的剂量组中,利用最大选择检验寻找了切点,如下图:

  上面我们介绍了最大选择检验的一种应用场景,下面我们来看看如何实现。目前比较简单的实现方法是利用R的maxstat包,这个包中的例子是利用平均基因表达量(MGE)去区别两种弥漫性大B细胞淋巴瘤,区分的依据是患者的OS资料。其语法和计算结果如下:

  结果显示MGE的切点是0.186。用此切点分开两组,做单因素分析其生存曲线如上图,哈哈,随意做了一个曲线,比较丑。另外需要说明的一点是最大选择检验不仅能够用来一个x指标,还可以用来同时处理几个x指标。

分类标签:连续性变量  分类转换  最大选择检验  

      1、Yuan J, Zhou J, Dong Z, et al.. Pretreatment serum VEGF is associated withclinical response and overall survival in advanced melanoma patients treatedwith ipilimumab. Cancer Immunol Res. 2014; 2: 127-132

      2、Torsten Hothorn and Berthold Lausen, Maximally Selected Rank Statistics inR

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!

相关文章