中文摘要
本研究以原发性肝癌为切入点,探讨肝癌细胞蛋白质相互作用网络。利用前期已建立的肝癌患者资料信息库,获取肝癌细胞蛋白质表达数据资料,构建可供计算分析的肝癌细胞蛋白质互作数据库。以公共数据库DIP(Database of Interacting Proteins)提供的人类蛋白质互作数据为验证集,改进关联规则数据挖掘方法,寻找蛋白质间可能存在的互作规则。在得到的规则基础上,采用贝叶斯网络学习方法,同DIP中已知的蛋白质相互作用对比,以提高贝叶斯网络的覆盖能力为评价条件,优化网络参数的估计方法,建立能够构建具有概率意义,且符合生物学特征的蛋白质互作网络的方法。将关联规则-贝叶斯网络学习方法应用于肝癌细胞蛋白质互作数据库,构建具有较好预测能力的肝癌蛋白质互作网络模型。依据所建立的模型探索肝癌细胞已知蛋白质的新功能和未知蛋白质的功能,探讨肝癌细胞蛋白质相互作用的生物学意义,为疾病的临床研究提供参考。
结题摘要
本研究以原发性肝癌为切入点,探讨了构建蛋白质相互作用网络的新算法。首先,对前期建立的肝癌患者临床资料库进行了改进和优化以适合存储大规模的肝癌细胞基因表达与蛋白质序列数据,便于临床资料与基因、蛋白质数据之间作用关系的分析。其次,为了提高蛋白质互作网络的构建效率,研究对比了国内外蛋白质序列的编码方法,提出了新的序列编码方法,融合了更多的蛋白质信息,提高了蛋白质功能的识别效率。第三,以公共数据库提供的人类蛋白质相互作用和序列数据和模拟数据为训练集、验证集,探索了蛋白质功能模块的构建方法,以增强蛋白质互作网络构建的生物学意义;优化了贝叶斯网络学习算法,基于所识别的蛋白质功能模块,寻找基因与蛋白质之间、蛋白质与蛋白质之间存在的相互作用规则,构建了具有概率意义、可拓展的混合型相互作用网络。所建立的方法有助于探索未知蛋白质的功能分类、分析基因与蛋白质之间的作用关系,探讨蛋白质相互作用的生物学意义,为疾病的临床研究提供参考。
