Python 代码 - 搜索 News

资讯

36 分钟

程序员们又有新工具可以欢呼了!由 OpenHands、耶鲁大学、南加州大学和斯坦福大学的研究团队联手推出的 LocAgent，正是一个专门为代码定位而设计的图索引大语言模型（LLM）代理框架。令人振奋的是，LocAgent 的代码定位准确率达到了92.7%，这一新高度将在2025年 ACL 会议上正式亮相。程序员在工作中常常会遇到难以定位代码问题的困扰。例如，在处理一个 bug 报告时，可能会陷 ...

1 小时

爆火论文颠覆RL认知，“错误奖励”让LLM推理暴涨24.6%，学界惊了

谷歌DeepMind研究科学家Xidong Feng表示，这篇论文会让一大堆LLM+RL的研究受到质疑。另一位DeepMind科学家Andrew Lampinen称赞道，这确实是一个反常识典型案例。

腾讯网1 小时

从零开始200行python代码实现LLM

前言大语言模型（LLM）很火，讨论的文章铺天盖地，但对于没有机器学习背景的人来说，看多了只是粗浅了解了一堆概念，疑惑只增不减。本文尝试从零开始，用python实现一个极简但完整的大语言模型，在过程中把各种概念“具象化”，让大家亲眼看到、亲手写出sel ...

17 小时

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

在使用标准 GRPO 裁剪的情况下，随机奖励为 Qwen2.5-Math-7B 带来了约 21% 的性能提升，并增加了代码推理模式。但是，当我们通过上述三种方法中的任何一种消除裁剪效应时，随机奖励并未带来任何改善。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果