Transformers LLM - 搜索 News

腾讯网20 小时

记忆层增强的 Transformer 架构：通过可训练键值存储提升 LLM 性能的 ...

点击上方“Deephub Imba”,关注公众号,好文章不错过 ...

腾讯网11 小时

高效Attention引擎是怎样炼成的？陈天奇团队FlashInfer打响新年第一枪！

新智元报道 ...

中华网7 天

Transformer作者初创重磅发布Transformer²，AI模型活了，动态调整自己权 ...

针对这一挑战，Sakana ...

GitHub17 天

MiniCPM-2B-chat transformers 部署调用.md

pip换源和安装依赖包 # 升级pip python -m pip install --upgrade pip # 更换 pypi 源加速库的安装 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install modelscope transformers sentencepiece ...

8 天

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

在自然界，「适应」是一种非常普遍的现象。例如，章鱼能够迅速改变自身的肤色和纹理，以融入周围环境，从而躲避天敌和捕捉猎物；人脑在受伤后能够重新连接自身神经回路，使个体能够恢复失去的功能并适应新的思维方式或行动方式。生物体展现出的适应能力使得生命能够在不 ...

51CTO7 天

Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过的任务，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。从章鱼通过改变皮肤颜色来融入周围环境 ...

6 天

对2025年AI的四个大胆预测

随着2024年的结束，我们可以回顾并认识到，AI已经取得了令人瞩目且开创性的进展。按照当前的发展速度，几乎无法预测2025年AI将带来怎样的惊喜，但有几个趋势为企业描绘了一幅来年可期以及如何充分准备的动人画卷。

GitHub15 天

Ref - Transformer.md

这个打分起到的作用，就好像以 decoder hidden state 为标准，特别关注某一些 encoder hidden state，所以叫 attention。 Transformer Attention 是一种思路而不是具体算法实现，也不限于 seq2seq 的问题。Transformer 等可以看作是对 attention 机制的一种实现，而这种实现往往要关注 ...

来自MSN15 天

OpenAI更强系统来了，通用人工智能真的触手可及吗？

"机器究竟还需要多长时间，才能真正具备人类大脑的认知能力？"这个困扰人工智能领域数十年的根本性问题，在2024年末再次成为全球科技界的焦点。当人工智能在图像识别、自然语言处理等特定领域不断突破时，一个更具挑战性的目标始终若即若离：让机器获 ...

10 天

Transformer从自然语言到计算机视觉的跨界之旅：解密AI革命的基石

在全球人工智能（AI）领域，随着ChatGPT的崛起，一场掀起的AGI革命如火如荼。但在这背后，鲜有人知的是，推动这一变革的技术基石便是Transformer模型。这项集各种神经网络精华于一体的架构，不仅在自然语言处理（NLP）中表现卓越，更在计算机 ...

9 天

谷歌Titans架构：终结Transformer的长序列处理新纪元

在近期的AI研究领域，谷歌团队推出了一种被称为Titans的新架构，标志着长序列处理技术的一次重大突破。这一创新可以被视为对目前广泛使用的Transformer架构的颠覆，尤其是在应对上下文长度剧增的任务中展现了其独特优势。

10 小时

谷歌对AI芯片并不饥渴，这或许是英伟达最大的风险所在

SemiAnalysis 的 Patel 将亚马逊的定制 AI 称为 Amazon Basics TPU，因为它相对于英伟达来说很便宜，就像 Amazon Basics 浴巾相对于 Charmin 卫生纸来说很便宜一样。尽管亚马逊的定制 AI ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果