中文摘要
本项目研究肿瘤基因表达数据的约束独立分量分析(ICA)建模,在此基础上研究基于约束ICA模型的肿瘤基因表达数据的聚类分析问题。针对基本线性ICA在基因表达数据建模方面存在的诸如分量数目难以确定、算法稳定性有待提高、分量排序困难等缺点,研究利用基因表达数据中蕴含的基因调控等生物信息,构建符合生物意义的DNA微阵列数据约束ICA模型,进而研究ICA模型中特征基因和特征样本的统计规律与生物内涵,提取与肿瘤类型关系密切的关键基因,对肿瘤样本进行分类研究。研究合理的基因聚类数目评价标准,在利用约束ICA对DNA微阵列数据建模的基础上,对基因表达数据进行基因功能和肿瘤样本聚类分析。最终探索出一套基因功能分类和基因肿瘤样本诊断预测的实用方法,从而为促进肿瘤基因组学和药物基因组学的进一步研究打下基础。
结题摘要
本项目基本按照既定的研究计划进行,提出了基于约束独立分量分析的肿瘤DNA 微阵列数据分析算法。在研究实践中,我们还拓展了研究范围,充分利用基因表达数据的稀疏性,提出了更符合数据生物本质的研究方法,丰富了研究内容,为进一步的研究开拓了新的思路。研究工作主要包括以下三个方面:1)基于约束独立分量分析的肿瘤DNA微阵列数据分类研究;2)基于矩阵因子分解的肿瘤DNA微阵列数据聚类分析;3)基于神经网络与矩阵因子分解的肿瘤DNA微阵列数据模块分析。通过我们的研究,大大提高了肿瘤样本的识别率,同时,也初步解决了聚类数目选择的问题,并初步提出了复合性肿瘤样本聚类的新思想。
