LLM - 搜索 News

资讯

基于内存高效算法的 LLM Token 优化：一个有效降低 API 成本的技术方案

点击上方“Deephub Imba”,关注公众号,好文章不错过 !在使用 OpenAI、Claude、Gemini 等大语言模型 API ...

1 天

针对提升LLM推理能力面临的挑战，斯坦福大学研究人员提出了“思考、修剪、训练”（TPT）框架，让LLM利用自生成且验证正确的数据迭代优化。研究表明，无需强化学习、大型数据集或外部教师模型，TPT可以使较小模型推理性能媲美甚至超越大模型，凸显了TPT框 ...

15 小时

UC伯克利新作颠覆认知：LLM靠「自信爆表」学会推理？无需外部奖励 ...

【新智元导读】不靠外部奖励，LLM纯靠「自信爆棚」，就能学会推理了？UC伯克利的华人团队发现，LLM居然跟人一样！靠自信来训练AI后，数学、编程性能提升惊人。

腾讯网2 天

LLM省钱大测评！48块GH200，首个百亿级参数量实证

然而，模型参数量（如DeepseekR1的671B参数）和上下文窗口的急剧膨胀，带来了巨大的计算力（GPT-3训练约需3640Petaflop/s-days）、能源消耗和资金投入（GPT-3训练成本估计超460万美元）。

4 天

红帽联手谷歌、NVIDIA启动llm-d开源项目，破解大规模AI推理成本与延迟 ...

全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d，专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM ...

3 天

红帽推出llm-d社区：打造大规模分布式AI推理“Linux”

具体而言，llm-d采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由，可以将先进的推理能力集成到现有的企业IT基础设施中，从而显著降低与高性能AI加速器相关的总体拥有成本（TCO）。

InfoQ中国 on MSN4 天

LLM 驱动的 Go 到 Rust 项目迁移的挑战与实践

随着 LLM 不断发展、功能逐渐强大，我们发现可以基于 LLM 做很多具有挑战性的应用。比如，当我们公司内正在切换语言栈，那么基于 LLM 进行现有项目的迁移，无疑是一个高效的方式；特别是从 Go 语言迁移到 Rust ...

8 小时

Claude 团队打开大模型“脑回路”，推出开源 LLM 思维可视化工具

Claude 团队来搞开源了 —— 推出“电路追踪”（circuit tracing）工具，可以帮大伙儿读懂大模型的“脑回路”，追踪其思维过程。该工具的核心在于生成归因图（attribution graphs），其作用类似于大脑的神经网络示意图，通过可视化模型内部超节点及其连接关系，呈现 LLM 处理信息的路径。

2 天

爆火论文颠覆RL认知！「错误奖励」让LLM推理暴涨24.6%，学界惊了

Llama3.1-8B-Instruct在错误奖励在提升仅1.3%，而随机奖励性能暴减4.9%。然而，这种频繁且高质量的代码推理能力在其他模型中并不存在。在应用RLVR后，无论奖励质量如何，Qwen-Math 的代码推理频率平均增加到超过90%。

5 天

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

特别值得注意的是，Llama模型在高难度题目上的MAPLE得分最高，说明它在复杂数学推理方面存在最严重的问题。这个发现提醒我们，不同的AI模型在数学推理能力上存在显著差异，我们不能简单地认为所有的大模型都有相似的数学能力。

科技行者 on MSN4 天

MultiHal：基于知识图谱的多语言LLM幻觉评估数据集——为大模型事实 ...

大型语言模型（LLM）的飞速发展带来了前所未有的应用可能，但同时也伴随着一个关键问题：幻觉。所谓"幻觉"，简单来说就是模型生成的看似可信但实际上不准确或完全虚构的内容。这就像一个口若悬河的朋友，他的故事听起来很精彩，但事后你发现其中有不少情节是他凭空 ...

GitHub6 天

HqWu-HITCS/Awesome-Chinese-LLM

自ChatGPT为代表的大语言模型（Large Language Model, LLM）出现以后，由于其惊人的类通用人工智能（AGI）的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现了非常多基于LLM的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果