资讯

【导读】智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。 尽管OpenAI GPT-4o、Google ...
长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google ...
机器之心发布机器之心编辑部长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini ...