资讯

CLIP 采用基于 softmax 的对比损失函数,而 SigLIP 则引入了成对的 sigmoid 损失函数,简化了训练流程,并提高了效率和性能,尤其在大规模数据集上表现突出。 图像编码器:可以是 Vision Transformer 或其他视觉骨干网络。 文本编码器:基于 Transformer 的语言模型。