今天,清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破。
DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。
新浪科技讯 3月14日下午消息,清华大学高性能计算研究所翟季冬教授团队与清华系创企清程极智联合宣布,大模型推理引擎“赤兔Chitu”正式开源。据悉,该引擎实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型,打破“硬件绑定”困境,为国产AI芯片的广泛应用和生态建设带来了新的突破。
近日,开源大模型平台DeepSeek在GitHub上开源了针对Hopper GPU优化的高效MLA解码内核——FlashMLA。这一项目一经发布,便迅速吸引了广泛关注,瞬间突破1000颗星。这一成果不仅展示了DeepSeek在AI技术领域的深厚积累,也为Hopper GPU的优化提供了重要支持。
在AI和深度学习的浪潮中,显卡的性能妖异提升成为各大厂商竞争的焦点。NVIDIA最新推出的Hopper显卡系列,凭借其选用先进工艺和架构,已然成为市面上性能最高的计算平台之一。现在,DeepSeek团队推出的DeepGEMM库则被视为打破桎梏的重要推手,带动了这一市场的重要变革。它被称为“核弹级武器”,在FP8运算中达到了惊人的1350万亿次每秒,切实推动了各类AI计算的飞速发展。
快科技3月14日消息,据报道,清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎“赤兔Chitu”。这一突破性技术为国产AI芯片的广泛应用和生态建设带来了新的机遇。
FlashMLA是一款专门为Hopper GPU(比如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA高端显卡上提升性能。 通过FlashMLA ...
近日,清华大学高性能计算研究所的翟季冬教授团队携手清华背景的科技创新企业清程极智,共同发布了一款名为“赤兔Chitu”的开源大模型推理引擎。这款引擎实现了在非英伟达Hopper架构GPU以及多种国产芯片上原生运行FP8精度模型,为国产AI芯片的广泛应用和生态建设带来了历史性的突破。
幸运的是,市场对当前Hopper架构产品的需求依然保持强劲态势,因此,2024年内,Hopper架构产品依然是英伟达数据中心产品线的主要出货力量。
Hopper GPU 的持续优化 Hopper GPU 自发布以来,经过持续的软件优化,性能得到了显著提升。H100 GPU 在 LLM 预训练性能上比首次提交时快了 1.3 倍 ...