机器之心报道机器之心编辑部当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 ...
李飞飞团队提出了 FlowMo,一种基于 Transformer 的扩散自编码器,它在多种压缩率下实现了图像 tokenization 的新性能标准,且无需使用卷积、对抗损失、空间对齐的二维潜在编码,或从其他 tokenizer ...