资讯

近些年,多模态大语言模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA-v1.5 将输入图像缩放为),对于输入图像为高分辨率图像(例如 8K ...
近日,由穆罕默德·本·扎耶德人工智能大学的Imran Razzak教授领衔的研究团队,连同来自蒙纳士大学、西交利物浦大学和南安普顿大学的多位研究者,共同发表了一项医学人工智能领域的重要进展。这项研究题为"TAGS: A Test-Time ...