研究提出基于视觉—文本多模态融合的遥感图像全色锐化方法。近期,中国科学院合肥物质科学研究院团队将多模态融合方法应用于遥感图像全色锐化领域。
遥感图像全色锐化技术旨在融合低分辨率的多光谱图像与高分辨率的全色图像,生成兼具高空间分辨率和丰富光谱信息的遥感影像。文本引导的多模态学习方法在自然图像领域已取得进展,但由于缺乏全色锐化领域多模态数据集以及遥感场景的复杂性等问题,对准确提取语义信息提出了挑战。
研究团队提出了新的文本引导多模态融合框架TMMFNet。该框架基于多模态大语言模型,结合超分辨率模型、地理空间分割模型及思维链提示技术,为LRMS图像生成高质量的语义描述文本构建出面向全色锐化的多模态遥感数据集。此基础上,团队设计了文本增强模块与文本调制模块两个核心融合单元,将文本蕴含的高层语义信息注入融合网络,引导并优化视觉特征的融合过程。
在WorldView-II、GaoFen2和WorldView-III等公开卫星数据集上的实验结果显示,这一框架在峰值信噪比和结构相似性等评价指标上展现出优越性能。
相关研究成果发表在IEEE Transactions on Geoscience and Remote Sensing(IEEE TGRS)上。
基于视觉—文本多模态融合的遥感图像全色锐化网络
多光谱影像语义描述生成方法
研究团队单位:合肥物质科学研究院

