Recurrent - 搜索 News

21 小时

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

具体来讲，xLSTM 7B 模型基于 DCLM 数据集，使用 128 块 H100 GPU，在 8192 上下文长度下训练了 2.3 万亿 token。研究者对原始 xLSTM 架构进行了改进，确保训练效率和稳定性，同时保持任务性能。新架构依靠 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果