从技术演进阶段来看,2010 - 2018年是单模态模型时代,文本领域出现了BERT、GPT - 1等预训练模型,视觉领域则是ResNet、VGG等CNN架构主导,但存在模态割裂、无法跨模态理解的局限。2018 - 2022年进入跨模态融合阶段,CLIP(图文匹配)、ViLBERT(视觉 - 语言联合建模 ...