无需大量标注也能理解3D，新研究登上ICLR 2025 Spotlight - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

无需大量标注也能理解3D，新研究登上ICLR 2025 Spotlight

3 天前 / 阅读约9分钟

来源：36kr

融合文本、2D和3D模态

只要极少量的标注样本，就能让模型精准分割3D场景？

来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员，提出了一个全新的多模态Few-shot 3D分割设定和创新方法。

无需额外标注成本，该方法就可以融合文本、2D和3D信息，让模型迅速掌握新类别。

△

人形机器人、VR/AR，以及自动驾驶汽车，都依赖于对3D场景的精确理解。

然而，这种精准的3D理解往往需要大量详细标注的3D数据，极大推高了时间成本和资源消耗。

Few-shot学习是一种有效的解决思路，但当前研究都局限于单模态点云数据，忽略了多模态信息的潜在价值。

对此，这项新研究填补了这一空白，文章已被ICLR 2025接收为Spotlight论文。

整合多模态信息，理解3D场景

3D场景理解在具身智能、VR/AR等领域至关重要，帮助设备准确感知和解读三维世界。

然而，传统全监督模型虽在特定类别上表现出色，但其能力局限于预定义类别。

每当需要识别新类别时，必须重新收集并标注大量3D数据以及重新训练模型，这一过程既耗时又昂贵，极大地制约了模型的应用广度。

3D Few-shot学习旨在利用极少量的示例样本以适应模型来有效的识别任意的全新类别，大大降低了新类适应的开销，使得传统的3D场景理解模型不再局限于训练集中有限的类别标签，对广泛的应用场景有重要的价值。

具体而言，对于Few-shot 3D点云语义分割（FS-PCS）任务，模型的输入包括少量支持样本（包含点云及对应新类标签）和查询点云。

模型需要通过利用支持样本获得关于新类别的知识并应用于分割查询点云，预测出查询点云中关于新类别的标签。

在模型训练和测试时使用的目标类别无重合，以保证测试时使用的类均为新类，未被模型在训练时见过。

目前，该领域涌现出的工作都只利用点云单模态的输入，忽略了利用多模态信息的潜在的益处。

对此，这篇文章提出一个全新的多模态Few-shot 3D分割设定，利用了文本和2D模态且没有引入额外的标注开销。

在这一设定下，他们推出了创新模型——MultiModal Few-Shot SegNet (MM-FSS)。

该模型通过充分整合多模态信息，有效提升小样本上新类别的学习与泛化能力，证明了利用普遍被忽略的多模态信息对于实现更好的小样本新类泛化的重要性。

多模态FS-PCS vs 传统设定

△

（为便于讨论，以下都将Few-shot 3D点云语义分割简称为FS-PCS。）

传统的FS-PCS任务中，模型的输入包含少量的支持点云以及对应的新类别的标注（support point cloud & support mask）。

此外，输入还包括查询点云（query point cloud）。模型需借助support样本中关于新类别的知识，在query点云中完成新类别分割。

而作者引入的多模态FS-PCS包括了除3D点云之外的两个额外模态——文本和2D。

文本模态相应于支持样本中的目标类别/新类的名称。2D模态相应于2D图片，往往伴随3D场景采集同步获得。

值得注意的是，2D模态仅用于模型预训练，不要求在meta-learning和测试时作为输入，保证了其Few-shot输入形式与传统FS-PCS对齐，仅需要相同的数据且无需额外标注。

引入特征分支和有效的跨模态融合

MM-FSS在Backbone后引入了两个特征提取分支：

Intermodal Feature (IF) Head（跨模态特征头），学习与2D视觉特征对齐的3D点云特征。

Unimodal Feature (UF) Head（单模态特征头），提取3D点云本身的特征。

△

在预训练阶段，MM-FSS先进行跨模态对齐预训练，通过利用3D点云和2D图片数据对，使用2D视觉-语言模型（VLM）输出的2D特征监督IF head输出的3D特征，使得IF Head学习到与2D视觉-语言模型对齐的3D特征。

这一阶段完成后，Backbone和IF Head保持冻结，确保模型在Few-shot学习时能利用其预训练学到的Intermodal特征。这样，在Few-shot任务中无需额外的2D输入，仅依赖Intermodal特征即可获益于多模态信息。

此外，该特征也隐式对齐了VLM的文本特征，为后续阶段利用重要的文本引导奠定基础。

而在Few-shot训练（称为meta-learning）时，给定输入的support和query点云，MM-FSS分别将IF Head和UF Head输出的两套特征计算出对应的两套correlations（correlations表示每个query点和目标类别prototypes之间的特征相似度）。

两套correlations会通过Multimodal Correlation Fusion (MCF)进行融合，生成初始多模态correlations，包含了2D和3D的视觉信息。

这个过程可以表示为：