【成果】博士研究生王进在小样本分割方面取得进展

作者:来源:BB贝博艾弗森发布时间:2025-10-06浏览次数:70

  近日,公司控制科学与工程专业2023级博士研究生王进在小样本分割方面取得进展,相关研究成果Unbiased Semantic Decoding With Vision  Foundation Models for Few-Shot Segmentation发表在《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》。《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》是人工智能领域的国际知名期刊,目前影响因子为8.9SCI一区TOP)。论文第一作者为王进,通讯作者为刘伟锋教授、张冰峰副教授,BB贝博艾弗森为唯一署名单位和通讯单位,该研究得到国家自然科学基金、山东省自然科学基金、山东省重大基础研究项目、山东省泰山学者计划项目的资助支持。

1 论文首页

小样本分割(Few-shot Segmentation) 近年来受到了广泛关注。许多最新方法尝试将 Segment Anything ModelSAM) 引入该任务。得益于 SAM 强大的泛化能力与丰富的目标特征提取能力,这一思路在小样本分割中展现出巨大潜力。然而,SAM 的解码过程高度依赖于准确且显式的提示(prompt)。这使得现有方法大多专注于从支持集中提取提示信息,但这种方式无法充分激活 SAM 的泛化能力,并且在适应未知类别时容易导致解码偏差。为此,我们提出了一种与 SAM 相结合的无偏语义解码策略(Unbiased Semantic Decoding, USD)。该方法同时从支持集与查询集中提取目标信息,并借助 CLIPContrastive Language-Image Pre-training)模型的语义引导,实现一致的预测结果。具体而言,为增强 SAM 的无偏语义判别能力,我们设计了两种特征增强策略,利用 CLIP 的语义对齐能力来丰富原始的 SAM 特征,首先是全局增强(Global Supplement),在图像层面引入来自支持图像的类别指示信息,以提升模型的泛化能力;其次是局部引导(Local Guidance),在像素层面提供来自查询图像的目标位置信息,以强化局部目标关注。此外,我们还提出了一个可学习的视觉-文本目标提示生成器(Visual-Text Target Prompt Generator),通过目标文本嵌入与 CLIP 视觉特征的交互,生成以目标为中心的提示嵌入。该方法无需重新训练基础视觉模型,就能通过富含目标语义信息的提示,引导模型关注目标区域,从而提升分割效果。

2 无偏置语义解码流程


论文链接:https://ieeexplore.ieee.org/document/11185253