资讯

字节跳动旗下的Seed团队近期公布了一项重大技术进展,他们宣布开源了一个名为BAGEL的统一多模态理解与生成模型。这一模型能够同时处理文本、图像和视频数据,实现跨模态的信息交互与生成。
近日, 韩国科学技术院( KAIST) 人工智能研究团队的Bryan Sangwoo Kim、Jeongsol Kim和Jong Chul Ye共同发表了一项突破性研究,名为"Chain-of-Zoom: 通过尺度自回归和偏好对齐实现极端超分辨率"。这项研究于2025年5月27日发表在arXiv预印本平台(arXiv:2505.18600v2 [ cs.CV]),为 图像超分辨率技术领域带来了革命 ...
在人工智能图像生成领域有了重大突破!弗吉尼亚理工大学的研究团队Yusuf Dalva、Hidir Yesiltepe和Pinar Yanardag在2025年5月29日发布了一项创新研究《LoRAShop: Training-Free ...
Uni-Instruct的核心创新在于提出了一个基于理论的统一框架,能够将10多种现有的单步扩散蒸馏方法统一起来。就像发现了不同厨师秘方背后的共同烹饪原理一样。这个框架基于研究团队提出的"f-散度族的扩散扩展理论"(diffusion ...
在数字设计的世界里,可缩放矢量图形(SVG)一直是设计师的得力助手,它能创建无论放大多少倍都不失真的图像。但如何让人工智能自动生成这些SVG代码,却是一个棘手的问题。近日,来自ServiceNow研究团队、蒙特利尔理工学院和Mila人工智能研究所的研 ...
金融界2025年6月3日消息,国家知识产权局信息显示,重庆赛力斯凤凰智创科技有限公司申请一项名为“图像识别方法、装置、系统及终端设备”的专利,公开号CN120088338A,申请日期为2025年02月。
近日,新加坡国立大学(NUS)团队发布了一个名为 “OmniConsistency” 的创新项目,旨在以极低的成本复现 OpenAI 的 GPT-4o 模型在图像风格化上的一致性。这项技术不仅解决了当前开源社区在图像风格化和一致性之间的矛盾,还为广大开发者提供了可行的解决方案。
近期扩散模型(diffusion model)的发展推动了基于文字引导的图像编辑(text-guided image ...
直接上图, OmniConsistency 能很好的维持风格化前后构图、语义、细节一致,对人物面部特征的维持也有一定作用。对多人合影等复杂场景,很好的维持了人数、姿势、性别、种族、年龄,甚至还能维持图片中的英文文字正确性。
多模态大模型的探索正在逐步取得进展,近年来产业聚焦在视觉等重点模态领域突破。理想中的“Any-to-Any”大模型,Google ...
(怡保2日讯)霹雳州行政议员吴家良于因一张于今年4月在社交媒体发布,讽刺霹雳州反对党领袖兼伊党新芒魏州议员拉兹曼的小丑图像,而遭人举报,并于今日(2日)被警方录口供。吴家良在代表律师兼雪兰莪州万宜国会议员谢瑞詹陪同下,今日上午在行政议员办事处,接受来 ...
近日,来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion ...