Transformer Unit - 搜索 News

资讯

大数据文摘受权转载自数据派THU 作者：Fareed Khan 翻译：赵鉴开校对：赵茹萱 Transformer架构可能看起来很恐怖，您也可能在YouTube或博客中看到了各种 ...

2022年，我们打赌说transformer会统治世界。我们花了两年时间打造Sohu，这是世界上第一个用于transformer（ChatGPT中的“T”）的专用芯片。但对于transformer来说，Sohu是有史以来最快的芯片。借助Llama 70B每秒超过50万个token的吞吐量，Sohu可以让您构建在GPU上无法实现的 ...

36氪6月

行人、车辆、动物等ReID最新综述，武大等全面总结Transformer方法

【导读】研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析，将现有工作分类为图像/视频Re-ID、数据/标注受限的Re ...

51CTO7月

基于视觉 Transformer（ViT）进行图像分类

在本教程中，我们在相对较小的数据集上从头开始训练，但原理保持不变。通过遵循这些步骤，您将能够实现并训练一个用于花卉图像分类的视觉Transformer模型，深入了解现代深度学习技术在计算机视觉中的应用。近年来，Transformer 架构彻底改变了自然语言处理 ...

腾讯网8月

MIT系初创打破Transformer霸权！液体基础模型刷新SOTA，非GPT架构首次 ...

【新智元导读】就在刚刚，MIT系初创公司Liquid AI推出液体基础模型LFM，1B模型在基准测试中成为SOTA，这是非GPT架构首次显著超越Transformer模型！背后 ...

36氪10月

Mamba再次挑战霸主Transformer，首个通用Mamba开源大模型一鸣惊人

Falcon Mamba 7B有什么特别之处？ TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分 ...

澎湃新闻11月

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

【新智元导读】Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。去年12 ...

虎嗅网1 年

图解Transformer：它包含几个层级？

本文来自微信公众号：Afunby的 AI Lab（ID：AI_Lab_of_Afunby），原标题《图解 transformer——逐层介绍》，作者：Afunby，题图来自：视觉中国为了深入理解每个组件的作用，在翻译任务中step-by-step地训练Transformer。使用只有一个样本的训练数据，其中包括一个输入序列 ...

虎嗅网1 年

图解Transformer：它能用来干嘛？

本文来自微信公众号：Afunby的 AI Lab（ID：AI_Lab_of_Afunby），原标题《图解Transformer：功能概览》，作者：Ketan Doshi，翻译&整理：Afunby，题图来自：视觉中国随着大型语言模型如 ChatGPT 的横空出世，我们进入了自然语言处理（NLP）的一个新纪元。在这个纪元中 ...

51CTO1 年

一文读懂 Transformer 神经网络模型

自从最新的大型语言模型的发布，例如 OpenAI 的 GPT 系列、开源模型 Bloom 以及谷歌发布的 LaMDA 等，Transformer 模型已经展现出了其巨大的潜力，并成为深度学习领域的前沿架构楷模。 Hello folks，我是 Luga，今天我们来聊一下人工智能(AI)生态领域相关的技术 ...

IT之家2 年

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

原文标题：《Transformer 全新里程碑！诞生 6 年，开山之作被引近 8 万，没夺下 NeurIPS 最佳论文，却彻底改变 AI 界》 Transformer，6 岁了！2017 年，Attention is All You Need 奠基之作问世，至今被引数近 8 万。这个王者架构还能继续打多久？ 2017 年 6 月 12 日，Attention is All ...

GitHub2 年

从sft_clm_mlm三种训练方式来看data_collator——【transformers源码阅读】

工程上（或者叫代码上）98%都是相同的。 2%的不同，体现在训练的数据结构上和data_collator部分。之前也一直想好好写一写transformers包的data_collator部分，这个部分，给很多人的感觉：“不就是数据填充么”，其实没那么简单。他做了不少东西：比如mlm、clm的实现。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果