拉曼组是一种免荧光标记、无损、信息丰富的单细胞代谢表型组,可在单细胞尺度以低成本、快速、活体的方式识别和分选,从微生物到动植物等各种细胞类型的代谢状态与功能互作。随着拉曼流式细胞仪等新装备的出现,拉曼组数据规模正在爆发性增长。如何从这些海量单细胞拉曼光谱中高效、可靠地提取可解释的生物学信息,已成为制约拉曼组广泛应用的重要瓶颈。
中国科学院青岛生物能源与过程研究所研究团队开发了面向拉曼组大数据的集成分析框架RamEx。该平台针对拉曼组数据的特点,以自动化质控算法与高效并行计算流程为核心,建立了从数据读取、标准化预处理到下游数据挖掘的一站式工作流,并示范了在单细胞水平上,对微生物代谢表型组异质性与代谢模式分化的系统解析。
研究还提出了基于迭代卷积的离群值检测算法。该方法面向复杂微生物样本中噪声来源多样、伪影干扰强、阈值难以经验设定等现实问题,可在无预设参数的情况下动态识别异常光谱,减少对先验参数与人工阈值的依赖。该算法在病原菌、益生菌及环境微生物等多类真实样本中,展现出良好的鲁棒性,为后续基于拉曼组数据的深度学习建模与机制解析提供了准确、可靠的数据基础。
基于RamEx,研究团队进一步展示了拉曼组数据在捕捉表型异质性方面的独特优势。拉曼组深度解析能追踪不同细胞中脂质、蛋白质与核酸等大分子组成的动态变化,进而在群体尺度上以单细胞精度揭示微生物代谢状态的分化与演替规律,为理解复杂群落的功能组织与环境适应机制,提供了新的研究思路和技术路径。
相关研究成果发表在Microbiome上。研究工作得到国家自然科学基金、国家重点研发计划及山东省重点研发计划等的支持。

研究开发出面向拉曼组大数据的集成分析框架RamEx
研究团队单位:青岛生物能源与过程研究所

