随着视觉语言模型(VLMs)不断进步,研究者们陆续推出了诸多基准和数据集,用以评估其第一视角下的视频理解能力。例如,HourVideo和EgoSchema等基准主要关注长视频解析以及对物体和事件的识别能力。