当前位置：首页 > news >正文

多模态智能

news 2025/8/16 12:41:00

研究背景：

深度学习从1.0的端到端走向2.0的预训练，通过大规模预训练来记忆多模态数据中共性知识，增强对下游任务的学习能力。

深度学习1.0：特定任务有标注训练数据->随机初始化训练->最终模型

深度学习2.0：大规模无标注数据自监督预训练（BERT、CLIP）（特定任务有标注训练数据）->模型微调->最终模型

预训练的本质是让模型参数不再随机初始化，仍停留在感知层面。

多模态推动从感知到认知和推理。

面临的挑战：

多模态数据输入表示的准确性、表示到推理的合理性、模型鲁棒性：数据表示难以控制、推理过程难以理解、决策结果不够鲁棒。

1.表示的准确性：

方法

联合表示：投影到一个共同空间中进行学习。

协调表示：分别学习不同模态特征，期间施加特定的约束来使不同模态的特征互相融合。

难点

克服多模态数据的异质性挑战

大规模预训练需要大量数据，当数据量少或缺失时，如何设计并优化多模态模型提升异质特征的准确性：从深度学习内在机制出发，通过设计不同耦合度的网络和组合损失来学习并优化不同网络层的异质特征。（各异的低层结构表征（深度学习尾部提取）和一致的高层语义关系（深度学习头部提取））

挖掘异质数据互补性和关联性

自注意力或跨注意力机制都无法充分捕捉多模态任务中互补的上下文关系，如何进一步实现异模数据充分交互：设计联合注意力机制和多粒度学习策略增强，最终可以利用无标注数据实现分割，同时刻画模态内和模态间互补的上下文关系。

越大规模数据越容易出现不易发现的噪声，如何保证数据特征和语义标签之间的关联性：设计基于代理的对比损失（借助代理减小语义鸿沟，提出互量化损失，对齐数据同分布增强语义一致性）和互量化损失，置信样本挑选策略抵御噪声影响

2.推理合理性：

方法

相关性推理：挖掘存在的大量关联关系，执行相关性驱动的推理决策；

因果性推理：挖掘潜藏因果关系，是推理更鲁棒、可解释

难点

如何实现小数据下的知识发现、推理和更新

如何利用海量无标签数据提升模型推理能力，如何利用已有知识高效发现无标签数据中的知识：训练过程包含有标签和无标签数据，且类别信息不重叠，基于分治策略，对两种数据进行建模，设计两组组合专家模型，分别从特征、语义层面，建模新、旧知识的差异性和互补性，挖掘新知识。提出局部知识共享学习策略，通过聚合在线/离线知识的优化目标，促进知识更新的局部一致性，提升发现知识的准确性。

如何准确捕捉细粒度的语义概念组合关系，实现精准推理：设计自适应语义分解组合学习策略刻画细粒度语义关系，提出分层分解组合学习机制，构造属性、目标子空间及其组合空间，学习语义概念的局部模式及组合模式，提升多模态推理泛化能力。