instruction - 搜索 News

资讯

5 小时

研究团队使用EduBench对多个主流大语言模型进行了广泛评估，包括DeepSeek R1、DeepSeek V3、Qwen Max等,这些模型包括不同的参数规模和训练方式，涵盖从数十亿到数千亿参数的各种类型。

Hospitals launch new nursing aide service

China has launched a pilot program at hospitals in deeply aging regions, offering patients the option of relying on nurses ...

2 天

200+全球少年跨洋集结！粒刻能量加持暑假篮球封闭营！

这个夏天，五星篮球封闭营燃爆来袭！截至目前，已有200+来自全球的篮球少年报名加入。他们将从美国、英国、加拿大、马来西亚等国家，以及全国各地奔赴暑假篮球封闭营。无论是想提升篮球技巧，结交跨国好友，还是挑战个人极限，在这里，都可以实现！

China.org.cn21 小时

Vietnam aims to universalize AI by 2030

HANOI, June 2 (Xinhua) -- Vietnam has set its sights on universalizing artificial intelligence (AI) and becoming one of the top three Southeast Asian countries leading in AI by 2030, according to the ...

腾讯网5 天

顽固的智能：KAIST研究团队揭示大型推理模型如何任性“修改”用户指令

2. 输入不信任（Input Distrust）：模型开始怀疑用户提供的条件是否有误，猜测可能存在打字错误、翻译错误或误解。这就像一个过于自信的专家认为客户的特殊需求一定是表达不清，而不是真正的需求。这种模式的典型表现包括模型使用"也许用户打错了字" ...

腾讯网3 天

从打分器到思考者：RM-R1用推理重塑模型价值判断

「知其然，亦知其所以然。」这句儒家命题强调，真正的理解不仅在于结果，更在于推理过程。如今，在大型语言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却难以解释其依据。缺乏推理的奖励，就如「知其然而不知其 ...

5 天

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯 ...

LIFEBENCH，全称“Length Instruction Following Evaluation ...

3 天

GPT-4o-Image仅完成28.9%任务，上海AI实验室等发布图像编辑新基准，360道 ...

即使是最强的GPT-4o-Image，在复杂视觉编辑任务中的准确率也仅为 28.9% ，最强的开源模型BAGEL仅能完成 5.8% 的任务，其它被测开源模型完成率几乎为零，显示出当前开源模型与闭源模型在视觉理解能力上的差距。

科技行者 on MSN5 天

语音无需语音：Menlo Research团队为低资源语言开发的创新语音指令 ...

在当今数字化时代，语音助手已成为我们日常生活的重要组成部分。无论是苹果的Siri、亚马逊的Alexa还是谷歌助手，这些智能语音助手让我们通过自然语言就能与设备进行交互。然而，开发一个高质量的语音助手并不容易，尤其是对于越南语这样的低资源语言来说更是挑 ...

6 天

SAP与阿里云深化AI合作：通义千问接入核心应用

27日，全球最大ERP软件公司SAP和阿里巴巴宣布达成战略合作。未来，SAP的核心产品将接入阿里巴巴大模型通义千问，企业客户可以调用通义千问的大模型能力。SAP将支持企业在阿里云上部署其ERP云等核心产品，双方还将联手扩展中国、东南亚、中东和非洲市场 ...

科技行者 on MSN7 天

BLEUBERI：当BLEU不再只是一个简单指标，而成为指导大语言模型的强力 ...

大语言模型（LLM）的发展日新月异，但要让这些强大的模型真正按照人类意图行事，研究人员需要各种技术手段。在这个领域，最新的研究成果来自马里兰大学帕克分校的Yapei Chang、Yekyung Kim、Michael ...

财富中文网5 天

因兵员短缺，美军过去三年为保持兵力花费60亿美元

海军为吸引水兵延长服役的支出，同样远超其他军种。过去三年，海军每年向约7万名现役军人发放延长服役奖金。这一数字是陆军每年获延长服役奖金的士兵人数的两倍有余，尽管陆军规模远超海军。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果