手机版 客户端

全基因组关联研究中的降维策略和统计分析方法研究

全基因组关联研究中的降维策略和统计分析方法研究
  • 导航:首页 > 科学基金
  • 批准号:81072389
  • 批准年度: 2010年
  • 学科分类:流行病学方法与卫生统计(H2611) |
  • 项目负责人:陈峰
  • 负责人职称:教授
  • 依托单位:南京医科大学
  • 资助金额:32万元
  • 项目类别:面上项目
  • 研究期限:2011年01月01日 至 2013年12月31日
  • 中文关键词: 全基因组关联研究;降维;统计
  • 英文关键词:GWAS;statistical method;dimensional reduction;LASSO/SCAD;weighted

项目摘要

中文摘要

全基因组关联研究(GWAS)是利用高通量测序和分型技术,对研究对象的基因组中序列变异或单核苷酸多态性(SNP)进行分型,并利用生物统计学和生物信息学的方法,检验基因与复杂疾病的关联性,全面揭示疾病发生、发展与治疗相关的遗传特征。近年来,GWAS研究取得了骄人的成绩。然而,面对浩瀚的数据,现有统计分析手段明显落后于实际需求,无法深入挖掘GWAS数据中蕴含的丰富信息。本研究系统、全面地探讨全基因组关联研究中的统计学问题,包括:优化设计、降维分析和基于不同水平(SNP水平、基因水平、通路水平)的统计分析策略和方法。拟采用IBS核函数对多个SNP的信息进行综合;采用机器学习方法对高维数据进行降维,在保证一定的检验效能时,可以大大提高计算效率;采用计算机模拟试验评价方法的统计学性质;采用本系肺癌GWAS资料和网络共享GWAS资料对所提出的方法进行验证,通过不断修正,完善相应方法。

结题摘要

针对全基因组关联研究(genome-wide association study, GWAS) 费用高的特点, 课题组评价了多阶段研究设计的合理性和成本;针对GWAS数据“高维、小样本”的特征,系统综述和评价了常用分析的统计方法;并就高维数据降维方法进行了理论及应用研究。在理论研究中,我们着重研究了5类方法:核函数类、主成分类、回归类、惩罚函数类、随机森林类。在全面评价现有方法的基础上,针对各方法的缺点,进行了相应的改进:提出加权主成分分析(wPCA),用于检测低频位点;提出平稳LASSO/SCAD,以控制假阳性;增加随机森林校正协变量的功能;提出“多阶段组合降维”的降维分析策略。在应用研究中,我们对多个高维数据进行数据挖掘,开展了基于位点分析、基因分析、通路分析、网络分析、基因—基因以及基因—环境交互作用分析,从不同生物学角度探索表型相关位点,为后续机制研究提供了方法学基础。

评估说明

    国家自然科学基金项目“全基因组关联研究中的降维策略和统计分析方法研究”发布于爱科学iikx,并永久归类于相关科学基金导航中,仅供广大科研工作者查询、学习、选题参考。国科金是根据国家发展科学技术的方针、政策和规划,以及科学技术发展方向,面向全国资助基础研究和应用研究,发挥着促进我国基础研究源头创新的作用。国科金的真正价值在于它能否为科学进步和社会发展带来积极的影响。

此文由 爱科学 编辑!:首页 > 科学基金 > 科学基金1 » 全基因组关联研究中的降维策略和统计分析方法研究

推荐文章