QB 期刊 重磅综述:美国乔治亚大学刘天明教授与德克萨斯大学阿灵顿分校Dajiang Zhu教授领衔55位学者联合发表生物信息学中的大语言模型。论文标题:Large language models for bioinformatics
期刊:Quantitative Biology
作者:Wei Ruan, Yanjun Lyu,Jing Zhang, Jiazhang Cai, Peng Shu, Yang Ge, Yao Lu, Shang Gao, Yue Wang, Peilong Wang, Lin Zhao, Tao Wang, Yufang Liu, Luyang Fang, Ziyu Liu, Zhengliang Liu, Yiwei Li,Zihao Wu, Junhao Chen, Hanqi Jiang, Yi Pan, Zhenyuan Yang, Jingyuan Chen, Shizhe Liang, Wei Zhang, Terry Ma, Yuan Dou, Jianli Zhang, Xinyu Gong, Qi Gan, Yusong Zou, Zebang Chen, Yuanxin Qian, Shuo Yu, Jin Lu,Kenan Song, Xianqiao Wang, Andrea Sikora, Gang Li, Xiang Li, Quanzheng Li, Yingfeng Wang, Lu Zhang, Yohannes Abate, Lifang He, Wenxuan Zhong, Rongjie Liu, Chao Huang, Wei Liu, Ye Shen, Ping Ma,Hongtu Zhu, Yajun Yan, Dajiang Zhu, Tianming Liu
发表时间:28 Oct 2025
DOI:10.1002/qub2.70014
微信链接:点击此处阅读微信文章
随着大语言模型技术的快速发展,以及生物信息学专用语言模型(BioLMs)的涌现,当前亟需对该领域的整体格局、计算特性及多样化应用进行全面分析。
近日,由美国乔治亚大学刘天明教授与德克萨斯大学阿灵顿分校Dajiang Zhu教授联合55位学者在Quantitative Biology期刊上发表了一篇题目名为Large language models for bioinformatics的综述文章。该文对BioLMs进行系统回顾,重点关注其发展历程、分类体系与显著特征,并深入探讨其训练方法、数据集及评估框架。研究了BioLMs在疾病诊断、药物发现和疫苗开发等关键领域的广泛应用,同时还介绍了BioLMs固有的关键挑战与局限性,以期推动BioLMs在日益复杂的生物学和临床应用中的进一步发展。

全文概要
大语言模型(如BERT、GPT)在自然语言处理领域的成功已扩展至生物信息学领域,并广泛应用于基因组学、蛋白质组学和药物发现等方向,但现有研究范围有限,缺乏系统梳理。为此,本综述从生命科学和生物医学应用两大视角,全面回顾相关研究,并创新性提出生命活性因子(Life Active Factors,LAFs)概念,以统一涵盖DNA、蛋白质、药物等实体及生物通路、表型等抽象组分,调和不同子领域的概念分歧,最终帮助研究人员有效利用大语言模型解决生物信息学问题,并识别挑战与机遇,促进跨学科合作。
一、生物信息学中的语言模型与基础模型
生物信息学已成为生命科学中一个基础性和变革性的领域,架起了计算技术与生物学研究之间的桥梁。大语言模型(Large language models,LLMs)技术的快速发展为生物信息学计算带来了新的方法,并且基于LLM的计算方法已被证明在解决基因组学、蛋白质组学和分子生物学等领域的挑战方面行之有效。受Transformer等LLM架构的启发,生物信息学中的基础模型擅长捕捉生物数据中的复杂模式和关系,它们已从单模态工具发展为复杂的多模态系统,整合了基因组序列和蛋白质结构等多样化的数据集。为深入理解生物信息学中的大语言模型,本文将从1.语言模型与生物信息学概述基础;2.训练方法与模型;3. 生物信息学特定数据集;4. 模型演进与关键里程碑这四个方面进行详细介绍。
1.语言模型与生物信息学概述基础
传统语言模型旨在利用训练期间使用的庞大数据集以类人的方式处理和生成文本。这些模型擅长解读上下文、生成连贯且符合语境的回复、执行翻译、总结文本和回答问题。大语言模型是一种基础模型,在海量数据集上训练以提供灵活而强大的能力,可应对广泛的用例和应用。通过高效处理多样化任务,大语言模型消除了为每个用例构建和训练单独领域特定模型的需要。这种统一的方法不仅促进了任务间的协同效应,而且经常产生更优越的性能,使大语言模型成为更具可扩展性和效率的解决方案。如图1A所示, Token representation,Contextual learning,Fine-tuning,Self-supervised pretrain,Multi-modality和Attention mechanism等关键元素使语言模型成功适应生物信息学任务。

图1. 大语言模型(LLMs)方法在生物信息学任务中的应用。(A)大语言模型的方法。(B)各种生物学水平。(C)LLMs的应用。
然而,使用语言模型等深度学习方法来解决生物信息学问题仍具有挑战性。通常,生物信息学中的生命科学相关的因子水平可分为五个层次,从微观到宏观,即分子水平、基因组尺度水平、细胞水平、组织/器官系统水平和群体/群落/宏基因组水平(如图1B)。生物信息学主要关注前三个水平(即分子水平、基因组尺度水平和细胞水平)。在本综述中,基因组水平和细胞水平的分子组分及其各自的集合被统称为LAFs,单个LAF的基本逻辑是序列—结构—功能,序列表征格式(sequence representation format)是每个LAF最常见的观察形式。虽然,基于Transformer的预训练语言模型特别适合分析这些序列,但需要注意训练数据偏差及风险问题。此外,在生命活动中,不同生物学水平之间以及同一水平内部的LAFs之间都存在重要的调控关系。当前的大语言模型方法在处理广泛且异质的生物信息学数据集方面仍面临显著障碍,如可扩展性与性能限制,模型稳健性,持续学习,隐私保护等。随着大语言模型变得越来越复杂,其高计算成本对生物信息学应用构成了挑战,但目前开发的模型蒸馏(Model distillation)方法可以通过将知识从大型模型(教师)转移到较小模型(学生),并同时保持性能。剪枝技术(Pruning techniques)通过移除冗余参数来进一步提高效率,减少内存和计算需求。稀疏大语言模型(sparse LLMs)和量化的最新进展使在资源受限环境中部署这些模型成为可能,实现更快、更高效的生物信息学分析。
2.训练方法与模型
大语言模型的训练方法可分为四个阶段:(1)预训练(掩码/因果语言建模,在大规模无标注数据上学习基础表征,优势是泛化能力强,缺点是计算成本高且可能继承数据偏见);(2)微调(任务/领域/指令微调,利用标注数据适配特定场景,参数高效方法如LoRA可降低开销,但存在过拟合风险);(3)基于人类反馈的强化学习(RALF)(通过奖励模型和RL算法对齐人类偏好,提升连贯性与伦理合规性,但面临反馈质量依赖、资源消耗高及"奖励黑客"等挑战);(4)知识蒸馏(将教师模型知识转移至学生模型以降低计算成本,现代方法已扩展至思维链推理和领域特定任务,贝叶斯视角还增强了不确定性量化)。这四个阶段互补迭代,共同构成ChatGPT等SOTA模型的训练基础。
3.生物信息学特定数据集
大语言模型在生物医学领域应用的三大类型数据集分别是,(1)问答数据集(MedMCQA、MedQA针对一般医学知识;GeneTuring针对基因组学任务;BioASQ、pubmedQA结合文献支持回答领域问题);(2)文本摘要数据集(以MIMIC-CXR为代表,包含47万张胸部X射线图像及对应报告,用于放射学报告摘要等临床决策支持);(3)信息提取数据集(BC5CDR、NCBI-disease、ChemProt等作为NER和RE基准;MEDSTRACT、GENIA-MedCo等支撑共指消解;HoC等用于癌症标志物文本分类)。强调高质量、领域特定数据集是训练、基准测试和模型精调不可或缺的基础。
4.模型演进与关键里程碑
大语言模型从自然语言处理向生物信息学拓展的演进路径如下,早期模型如BERT/GPT被适配用于DNA(DNABERT、GROVER)、RNA(SpliceBERT、RNA-FM)和蛋白质(ProtTrans、ProtGPT2)序列分析;最具代表性的突破是AlphaFold系列——AF2凭借注意力架构和MSAs首次实现基于单序列的高精度蛋白质结构预测,超越传统物理/同源建模方法;AF3进一步将能力扩展至蛋白质复合物、蛋白质-肽相互作用及无模板建模,整合DockQ等先进评分指标,标志着从单结构预测向生物系统整体理解的范式转变。
二、生物信息学问题的应用
在生物信息学中,跨不同组织、物种和模态的海量数据集日益丰富,这为大语言模型的应用既带来了机遇,也带来了挑战。一个全面的生物信息学大语言模型框架涉及三个关键阶段:数据分词(data tokenization)、模型预训练(model pre‐training)和后续分析。本文将按照LAFs的层次结构,从基因组到代谢组系统梳理了大语言模型的具体应用。
1.基因组水平
在基因组水平上,主要聚焦DNA和RNA序列分析。在DNA方面,通过k-mer分词(DNABERT)或BPE压缩(DNABERT-2、GROVER)将序列转化为类语言词元,基于BERT/GPT/Hyena等架构预训练,应用于启动子预测、转录因子结合位点识别、变异检测、增强子预测和剪接位点预测等任务。在RNA方面,采用单核苷酸分词(SpliceBERT、RNA-FM)或k-means分词(RNABERT),利用MSA保留进化信息,应用于RNA家族分类、RBP结合位点预测、剪接效应评估和二级结构/三维结构预测。
2.基因产物水平
在基因产物水平方面,主要是针对单细胞RNA测序(scRNA-seq)数据的特殊格式(计数矩阵、无自然顺序),开发了多种适配策略。如排序基因符号序列(Cell2Sentence、tGPT、Geneformer);表达值离散化为词元(scGPT、scBERT);分块/嵌入策略(CIForm、TOCICA、ScTransSort)。模型架构涵盖GPT和BERT家族,核心目标是实现跨组织/物种的准确细胞类型注释,并扩展至发育谱系推断、扰动响应预测、批次效应校正和基因调控网络推断等任务。
3.表观基因组学
针对非编码区域功能预测和三维染色质相互作用建模的挑战,EpiGePT创新性地整合四大模块:序列模块、转录因子模块(编码细胞环境为上下文向量)、Transformer模块(学习长程相互作用)和预测模块。通过将DNA分词为基因组片段并嵌入TF特征,结合HiChIP/Hi-C等3D相互作用数据指导注意力权重,实现了比Enformer等现有模型更高保真度的增强子—启动子相互作用建模和环境特异性功能预测。
4.蛋白质水平
目前在蛋白质领域内的语言模型可分为四类:(1)仅编码器(如ESM1b、ProtTrans等,擅长分类和突变效应预测);(2)仅解码器(如ProGen、ProtGPT2等,用于合成蛋白质序列生成);(3)编码器—解码器(如ProstT5、xTrimoPGLM等,适用于序列比对和结构预测);(4)多模态模型(如MPRL、ESM等,整合序列、3D结构和功能注释)。下游任务涵盖蛋白质—蛋白质相互作用预测(如AlphaFold系列、Graph-BERT)、翻译后修饰位点预测(如PTMGPT2)、蛋白质结构预测(如AlphaFold2/3、ColabFold)及功能注释,依赖UniProt、AlphaFoldDB等大规模数据集支撑。
5.代谢组学
代谢组学关注生物系统中代谢物(小分子)的全面分析,包括疾病诊断、预后和治疗监测的生物标志物识别,以及疾病发病机制潜在分子机制的阐明。将大语言模型整合到代谢组学中为分析和解读代谢组学数据提供了变革性潜力。以下从七个维度进行介绍:(1)数据整合(多组学融合、交叉注意力机制处理异质数据);(2)生物标志物发现(临床队列分析、不确定性量化和统计框架整合);(3)代谢通路分析与药物发现(基因变异对酶活性影响预测、图神经网络辅助DTI预测);(4)个性化医学(基于代谢谱的治疗反应预测);(5)文献挖掘(假设生成和趋势识别);(6)质量控制与标准化(LargeMetabo等工具、数据注释一致性校正);(7)预测建模与模拟(遗传/环境扰动效应模拟、代谢工程策略优化)。
三、疾病特异性的生物医学大语言模型应用
将大语言模型技术应用于医学相关生物信息学数据,为提升各类下游生物医学任务提供了巨大潜力(如图1C)。
1.脑衰老与脑部疾病
大语言模型通过整合临床文本、影像报告、患者语音、基因组序列及脑电/磁共振信号,实现对阿尔茨海默病、帕金森病和癫痫等神经疾病的精准诊断与早期预测;同时作为情感陪伴与认知刺激工具辅助痴呆患者,结合可穿戴设备实时监测症状,并通过文本补全和脑机接口技术改善失语症沟通与运动障碍管理,此外经医学文献微调后还可为临床决策与照护咨询提供专业知识支持。
2.放射治疗中的癌症
在肿瘤放射治疗领域,大语言模型通过融合影像数据与临床文本实现自动化的危及器官和靶区勾画、剂量预测及自适应放疗计划调整,并基于患者特异性因素预测治疗毒性与预后以推动个体化医疗。同时,通过自动生成病例报告、提取结构化肿瘤数据和推荐临床试验显著提升临床工作流效率,且在医学教育中用于模拟患者互动与放疗计划评估,为培训人员提供交互式学习支持。
3.传染病
在传染病防控与疫苗科学中,大语言模型被广泛应用于疾病传播建模与疫苗效果预测、利用社交媒体和可穿戴数据监测接种依从性与不良反应、通过生物标志物分析和抗原漂移预测优化疫苗株筛选与个性化接种策略,并借助情感分析揭示公众疫苗犹豫的成因与趋势,从而辅助流行病学监测、加速疫苗研发并支撑数据驱动的公共卫生政策制定。
四、药物发现与开发
药物研发是一个资源密集且耗时的过程,LLMs与生物信息学专用语言模型相结合能够整合并分析海量异构数据(包括分子数据、生物网络和科学文献),并通过大规模预训练内嵌丰富的药物相关背景知识。
1. 药物靶点识别(Drug target identification,DTI)
传统实验方法在DTI领域中的成本、规模与复杂系统适应性上的瓶颈,正被LLMs强大的知识整合与表征学习能力突破。目前有三类LLMs可用于DTI领域:(1)基于序列的单模态方法,利用预训练语言模型从蛋白质序列和药物SMILES中提取深层表征,有效解决冷启动问题并显著加速推理;(2)多模态融合框架,通过整合分子图、结构信息与文本描述,借助注意力机制实现更精细的相互作用预测与机制解释;(3)知识图谱驱动方法,依托语义关系与多智能体协作,从海量文献和数据库中挖掘药物重定位线索。这些方法共同提升了DTI预测的准确性、泛化能力与临床可解释性。
2. 分子对接与药物设计
基于Transformer的生物学语言模型能够整合文献、专利与多源结构数据,同时支持基于序列和基于结构的药物设计策略。在分子对接领域,LLMs不仅能自动生成对接脚本(如AutoDock输入文件),还能通过蛋白质语言模型(如LaMPSite)在无三维结构条件下预测配体结合位点,或通过HelixFold-Single等模型实现无需多序列比对的结构预测,突破了传统结构生物学对实验数据的依赖。在结合亲和力预测方面,RTMScore与ConPlex分别借助图Transformer与对比学习,显著提升了虚拟筛选的精度与效率。此外,LLMs在ADMET性质预测、药效学与药代动力学评估中展现出自动化数据挖掘与综合分析优势,有望缩短药物研发周期、降低研发成本并提高候选药物的成功率。
五、免疫学与疫苗研发
基于 GPT 架构在内的大语言模型(LLMs),通过赋能对海量复杂数据集的深度分析,已深刻改变了免疫学与疫苗研发的格局。这些模型与机器学习、自然语言处理及特征选择技术相结合,推动了免疫生物标志物的发现、疫苗效力的预测、疫苗犹豫情绪的解析以及不良事件的实时监测。
1. 免疫应答分析与生物标志物研究
分析免疫应答并识别生物标志物,对于理解疫苗效力及其作用机制至关重要。通过整合单细胞测序、表观遗传与临床数据,LLMs能够识别预测体液免疫的关键生物标志物与基因网络,并自动化处理文献与实验数据以加速免疫机制解析,为精准疫苗设计提供分子层面的依据。
2. 疫苗开发与模型推荐
疫苗的开发和优化依赖于计算模型来预测效力、识别适宜毒株并推荐抗原匹配的候选疫苗。通过挖掘病毒进化历史、文献证据和实验数据,LLMs不仅提升了季节性流感疫苗毒株推荐的准确性,还加速了从数据到疫苗配方的转化,推动疫苗开发向智能化、自动化方向发展。
3. 疫苗效力预测与免疫原性研究
准确预测疫苗效力并评估免疫原性,对于优化接种策略和深入理解免疫应答至关重要。通过自动化处理电子病历、调查文本和实验数据,LLMs提升了疫苗效力与免疫原性预测的准确性,支持个性化疫苗接种方案,并强化了上市后安全监测的数据处理能力。
4. 疫苗犹豫与公众态度分析
疫苗犹豫仍是实现广泛免疫覆盖的重大障碍。通过实时监测社交媒体、调查数据与临床记录,LLMs 能够识别公众担忧的核心议题、追踪态度演变趋势,并为制定差异化的健康教育、风险沟通和反谣言策略提供数据驱动的决策支持。
5. 疫苗安全性与不良事件检测
确保疫苗安全并监测接种后不良事件(AEFI)是免疫规划的关键组成部分。通过自动化处理VAERS等系统中的自由文本报告、可穿戴设备数据及临床记录,LLMs实现了不良事件的快速识别、分类与模式挖掘,提升了安全信号检测的灵敏度与监管响应速度,为疫苗安全性的持续评估提供了强有力的技术支撑。
6. 疫苗相关社会与健康数据分析
社会与健康数据分析对于理解疫苗接种率、疾病传播模式和公共卫生结局至关重要。通过打通电子病历、社会经济数据、可穿戴设备监测与文献证据,LLMs帮助研究者识别影响疫苗接种与疾病传播的社会决定因素,支持疫情早期预警、公共卫生政策制定及精准人群干预,推动疫苗项目从个体免疫向群体健康管理的升级。
六、总结和展望
尽管大语言模型在生物信息学中已在基因组学、蛋白质组学、药物发现和临床医学等领域取得变革性进展,但其发展仍受限于训练数据质量与标注稀缺、计算资源与长序列处理瓶颈、模型可解释性不足以及患者隐私伦理风险等核心挑战。未来研究将聚焦于开发LoRA/QLoRA等轻量高效架构、整合DNA/RNA/蛋白质/表观遗传等多组学数据、借助注意力可视化提升可解释性,并探索跨模态Transformer以实现影像、文本、时序与分子序列的深度融合,最终通过与新兴生物技术的协同创新推动精准医学向更个体化、更高效的方向迈进。
QB期刊介绍
Quantitative Biology (QB)期刊是由清华大学、北京大学、高等教育出版社联合创办的全英文学术期刊。由高等教育出版社和Wiley双平台出版和发行。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。
QB期刊目前已被ESCI, PMC, Scopus, DOAJ, CSCD等国内外重要数据库收录。
来源:Quantitative Biology

