multimodal - 搜索 News

资讯

9 小时

听到基因组、蛋白质组等词汇，大家首先想到的是什么？庞杂的数据？得出的结论解释性差？虽然 DNA 基础模型拥有强大的序列表征能力，但是难以进行多步推理，并且缺乏内在透明、生物学直观的解释。在这里，来自多伦多大学（University of ...

腾讯网12 小时

大模型能否欺骗CLIP？通过文本更新测试预训练多模态表示的对抗组合 ...

近日，首尔国立大学的研究团队Jaewoo Ahn、Heeseung Yun、Dayoon Ko和Gunhee Kim在arXiv上发表了一篇引人深思的研究论文，题为《Can LLMs Deceive CLIP? Benchmarking ...

12 小时

AI青年学霸齐聚杭州！这场峰会要选出「未来科学新星」

2025年6月6-8日，由中国人工智能学会主办的2025全球人工智能技术大会（GAITC 2025）将在浙江杭州召开。戴琼海院士、Adrian ...

科技行者 on MSN2 天

SATORI-R1：华中科技大学研究团队通过空间定位和可验证奖励增强多 ...

在人工智能视觉语言理解领域，一项重大突破悄然发生。由华中科技大学沈楚明、魏威、屈晓晔和香港中文大学郑宇共同完成的研究《SATORI-R1: Incentivizing Multimodal Reasoning with Spatial ...

腾讯网16 小时

漫画也懂故事：东京大学开发 MangaLMM，让 AI 像人类一样阅读日本漫画

MangaVQA和MangaLMM的研究不仅是技术上的突破，更代表了AI向理解更复杂叙事形式迈出的重要一步。就像一个外国读者逐渐掌握阅读日本漫画的技巧一样，这项研究帮助AI系统学习理解漫画这种独特的多模态叙事形式。

Top16813 小时

SenseTime Co-Founder Xu Bing to Step Down from Board to Lead AI Chip Unit in Strategic Shift

AsianFin -- SenseTime Group announced a major boardroom reshuffle on the eve of the Dragon Boat Festival, revealing that ...

Scientific Research Publishing29 天

A Multimodal Discourse Analysis of Second Language Instruction Videos ()

As the internet and education technologies boom, second language teaching has been witnessing profound changes. The second language instruction video is one of the changes mentioned. This paper aims ...

Scientific Research Publishing29 天

Current Situation and Strategies of Multimodal Translation of Jiangxi Red Culture ()

and shaping the image of China. This paper focuses on the multimodal translation of Jiangxi Red Culture, analyzes the current situation, points out the problems, and proposes strategies.

5 天

云从科技从容大模型登顶全球多模态评测榜首中国AI首超国际巨头

近日,云从科技自主研发的从容大模型在国际权威评测平台OpenCompass最新全球多模态榜单中,以80.7分的综合成绩登顶榜首。https://rank.opencompass.org.cn/leaderboard-multimodal/?m=REA ...

凤凰网11 天

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美 ...

仅用了 40% 合成数据，140 亿参数的 Phi-4 就在数学性能上击败了 GPT-4o。刚刚，微软又隆重介绍了 Phi-4 模型家族的两位新成员：Phi-4-multimodal （多模态模型）和 Phi-4-mini（语言模型）。Phi-4-multimodal 改进了语音识别、翻译、摘要、音频理解和图像分析，而 Phi-4-mini 专 ...

科技行者 on MSN12 小时

ChartLens：让图表理解更加透明 —— 从马里兰大学和Adobe研究院联合 ...

近年来，随着人工智能技术的发展，多模态大型语言模型（MLLMs）在图表理解方面取得了长足进步。然而，这些模型经常面临一个关键问题：幻觉现象——即模型生成的文本内容与所提供的视觉数据不符。这就像是我们请了一位解说员描述一张图表，但他却时不时地"凭空想象 ...

科技行者 on MSN5 天

强化微调赋能多模态大语言模型的推理能力：从清华来的新研究揭示 ...

在人工智能快速发展的2025年，当我们正站在通用人工智能（AGI）发展的关键节点上，由清华大学深圳国际研究生院的孙浩源、吴佳琪、夏博等研究团队发表的一篇名为《强化微调赋能多模态大语言模型的推理能力》（Reinforcement Fine-Tuning ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果