Vision-Language Pre-training (VLP) 学习小总结
主题: Vision-Language Pretraining (VLP) 学习总结:技术脉络、模型对比与未来展望 参考资料:
- VLP综述文章:arXiv:2202.09061
- ViT、ViLT、CLIP、BLIP、FLAVA 原始论文
1. 引言:为什么要做VLP?
在自然语言与计算机视觉逐渐走向深度融合的今天,多模态预训练(Vision-Language Pretraining, VLP)成为推动AI通用智能的重要路径。VLP通过大规模图文对进行预训练,学习视觉与语言之间的统一语义空间表示,为下游任务(如图文检索、VQA、图像描述等)提供强大的迁移能力。
2. 方法演进:从Early Fusion到Unified Learning
VLP方法自2019年以来呈现出从“任务定制”到“通用学习”的明显演进路径:
- 第一阶段:早期融合 + 目标检测特征
- 代表模型:ViLBERT、LXMERT
- 特征提取基于Faster R-CNN,图文分别编码后通过cross-attention融合
- 优点:性能强;缺点:依赖重视觉主干、推理慢、不统一
- 第二阶段:轻量统一建模尝试
- 代表模型:ViLT
- 抛弃视觉主干,直接用图像patch参与Transformer,与文本一起进入Encoder
- 优点:轻量、推理快;缺点:视觉理解弱、依赖良好训练技巧
- 第三阶段:弱监督大数据驱动的对比学习
- 代表模型:CLIP、ALIGN
- 使用数亿网页图文对,通过对比学习构建视觉语言共享表示
- 优点:zero-shot泛化强;缺点:生成能力弱、对齐粒度粗
- 第四阶段:理解+生成统一模型的探索
- 代表模型:BLIP
- 提出MED统一结构,支持ITC(对比)、ITM(匹配)、LM(生成)多任务训练
- 创新点在于数据自举策略 CapFilt,提升数据质量
- 第五阶段:向通用多模态表示扩展
- 代表模型:FLAVA
- 学习支持图像、文本、图文混合输入的统一表征,具备结构化架构(Modality Expert + Fusion Transformer)
3. 模型对比分析:代表模型逐一拆解
模型 | 架构类型 | 特征提取 | 融合策略 | 核心任务 | 优点 | 缺点 |
---|---|---|---|---|---|---|
ViLT | 单流Transformer | 图像patch+文本token | 共享Transformer | MLM, ITM | 高效轻量 | 视觉建模弱 |
CLIP | 双流Encoder | ViT + Transformer | 对比空间 | 对比学习 (VLC) | Zero-shot强、训练简单 | 无生成能力、需大数据 |
BLIP | 统一结构 (Encoder + Decoder) | ViT + MED | task-aware routing | ITC, ITM, LM | 理解+生成一体、多任务共享 | 实现复杂 |
FLAVA | 三阶段模块化 | 专属encoder + fusion | 多层交互模块 | MLM, MVM, VLM, VLC | 多任务扩展性强 | 参数较多、训练复杂 |
多模态融合方式
- 单流(Single-stream):文本与图像拼接后输入同一Transformer(如ViLT、BLIP)
- 双流(Dual-stream):两个Encoder分别编码后在对比空间对齐(如CLIP)
- 多模块统一融合:FLAVA结合单模态专家与统一融合模块,更适合复杂场景
4. 趋势观察:从任务定制到统一表征的过渡
核心趋势一:架构统一化
VLP模型逐步从分裂架构(双流)转向可切换的统一模型(如BLIP的MED),提升多任务共享能力与参数效率。
核心趋势二:从监督到弱监督/自监督
CLIP、ALIGN使用网页图文作为弱标注数据,大幅降低对人工标注依赖,BLIP通过自举生成高质量训练样本,展现了未来方向。
核心趋势三:从理解到生成并重
从只做匹配/检索的CLIP到同时兼顾理解与生成的BLIP,说明VLP逐渐具备语言生成能力,有助于多模态对话与推理等场景。
核心趋势四:数据质量重于数据规模
BLIP中的CapFilt策略显示:合理利用少量高质量标注引导数据清洗生成,比盲目堆叠海量噪声数据更有效。
5. 当前挑战与未来展望
挑战:
- 模态对齐误差:图像和文本对齐误差对下游任务影响极大,尤其在弱监督数据中更难控制;
- 训练资源消耗大:大模型+大数据的训练门槛高,难以复现;
- 缺乏知识推理能力:目前VLP多数仍停留在“表层对齐”,不具备深层语义推理;
- 任务泛化能力不足:在非训练任务/领域迁移中仍存在显著性能下降
未来方向:
- 多模态联合学习扩展:加入音频、语义图谱,向更泛化的多模态表示前进(如MERLOT、VATT)
- 知识增强的VLP:通过接入常识图谱,增强模型的认知推理能力
- Prompt Tuning 与轻量迁移:减少每个任务都需微调的负担,实现更高效迁移学习
- 跨模态生成能力提升:图像→文本、文本→图像双向生成将成为VLP的重要评估能力
6. 结语
VLP正走在从“表征对齐”向“通用理解生成”演化的道路上。ViLT代表了极致轻量化的探索,CLIP开启了弱监督大规模预训练的大门,BLIP提出任务统一结构并重塑数据构建方式,FLAVA则指向多模态统一世界的曙光。未来,具备跨模态理解、生成、推理和交互能力的通用模型,将逐步成为多模态智能的核心基石。