VL Wagon Stickes - 搜索 News

资讯

字节发布 Seed1.5-VL 视觉-语言多模态大模型，20B 参数狂揽 60 项公开 ...

今天给大家介绍的是Seed 1.5-VL，相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力，不仅视觉定位和推理更快更准，还新增了视频理解、多模态智能体能力。 5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品 ...

51CTO1月

看图猜位置不输o3！字节发布Seed1.5-VL多模态推理模型，在60个主流 ...

字节发布轻量级多模态推理模型Seed1.5-VL，仅用532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰手腕，还是能带图深度思考的那种。在60个主流基准测试中拿下38项第一！字节发布轻量级多模态推理模型Seed1.5-VL，仅用532M视觉编码器+200亿活跃参数就 ...

凤凰网1月

看图猜位置不输o3！字节发布Seed1.5-VL多模态推理模型，在60个主流 ...

在60个主流基准测试中拿下38项第一！字节发布轻量级多模态推理模型Seed1.5-VL，仅用532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰 ...

新浪网1月

字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

其中，全场最吸睛的就是豆包 1.5・视觉深度思考模型（以下称 Seed 1.5-VL）。相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力 ...

腾讯网2月

阿里开源多模态模型Qwen2.5-VL-32B，实测碾压Gemma 3 27B，可本地部署

原来AI圈也有自己的汪峰！昨天DeepSeek前脚刚发布新版本DeepSeek-V3-0324，后脚阿里云通义千问开源了视觉理解模型Qwen2.5-VL-32B-Instruc。结果也如大家 ...

IT之家2月

就在 DeepSeek-V3 更新的同一夜，阿里通义千问 Qwen 又双叒叕一次梦幻联动了 —— 发布 Qwen2.5-VL-32B-Instruct。此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。这一次的 32B 版本进一步兼顾尺寸和性能，可在本地运行。同时经过强化学习优化 ...

IT之家4月

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持 ...

IT之家1 月 28 日消息，阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。 IT之家附 Qwen2.5-VL 的主要特点如下：视觉理解：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼 ...

GitHub6月

实际微调Qwen2-vl 所用显存和最佳实践差异显著-导致OOM #2536

按照最佳实践20G可以微调7B模型，我有空余显存40多G，但是无法微调即使是 2B版本的模型。这是运行命令和报错信息，（为了信息完整性都加进来了，命令在代码块开头部分，报错oom信息在代码块的尾部，无法加粗、抱歉），尝试过 7B 和 2B ，甚至batch_size=1 都不 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果