分词 - 搜索 News

资讯

2 天

原创《乘风2025》黄英分词争议，少引强烈反响

此前，黄英因“浪姐6连跪战神”的经历备受瞩目，而这次的分词争议似乎也是她“美强惨”人设的延续。不过，即使在分词上受到限制，她在和声部分的音准和情感依然赢得了乐评人的认可。而此事件也激发了粉丝们自发发起#为黄英讨分词#的话题，期待她在后续的舞台中能有更 ...

腾讯网3 小时

腾讯AI技术助力敦煌「数字藏经洞」全球上线

敦煌藏经洞古籍，第一次变得「人人可读」——刚刚，敦煌研究院正式发布「数字藏经洞」数据库平台，发布敦煌文书经卷9900多卷、图像60700多幅，内容涵盖佛经、律典、契约、绢画等。在腾讯智能检索和大模型技术助力下，沉睡于竖排繁体和生僻字中的古籍信息被唤醒 ...

10 天

《乘风2025》黄英分词少引强烈争议

观众对此反应强烈。大家普遍认为黄英作为《快乐女声》季军，其实力与此次的待遇反差太大。甚至有人调侃她的分词长度不如短视频广告。不少网友质疑节目组刻意限制黄英的表现，比如她在四公的镜头量位列倒数第三，加更内容里几乎没什么镜头。

科技行者 on MSN6 天

大语言模型中的分词限制：一项探究符号和算术推理边界的研究

近日，由不列颠哥伦比亚大学的张翔和曹俊泰、浙江大学的魏佳琪、思科公司的徐一伟以及纽约石溪大学的尤晨宇共同完成的一项前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and ...

腾讯网3 小时

为什么我说我掌握了世间的奥义

不藏了，藏不住了，其实我们最近掌握了“复活术”，9900多卷敦煌文书经卷、60700多幅图像的数字化版本实现赛博智能永生，连夜穿越来见你。是的你没听错，5月31日，敦煌研究院正式上线“数字藏经洞”数据库平台，邀请你去逛一千年前的丝路图书馆。包括佛经、 ...

2 小时

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

二是多头潜在注意力（MLA）机制，最早可追溯到《Attention Is All You Need》这篇论文，后被DeepSeek再次带火。它关注的是在不同层之间如何融合注意力信息，能减少每一层的冗余计算。

3 天

掴、拍、掌掴，（生气时）啪地放下或随意扔放（某物）（slap的过去 ...

掴、拍、掌掴，（生气时）啪地放下或随意扔放（某物）（slap的过去式和过去分词） ...

科技行者 on MSN12 天

打破大语言模型的"词汇牢笼"：从TokenAdapt到Supertoken，让AI自由适应多 ...

大型语言模型的迅猛发展令人叹为观止，但它们面临着一个鲜为人知的"隐形枷锁"——词汇分割系统（也称为分词器）。这项由Shaurya Sharthak、Vinayak Pahalwan（来自tinycompany）、Adithya ...

腾讯网10 天

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型

自回归（AR）范式凭借将语言转化为离散 token 的核心技术，在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o，「next-token prediction」以简单粗暴的因果建模横扫语言领域。但当我们将目光转向视觉生成，却发现这条黄金定律似乎失效了……现有方案硬生生将图像网格化为空间 token，强行塞入自回归架构。这像极了 NLP ...

5 小时

入选ICML 2025，清华/人大/字节提出首个跨分子种类统一生成框架UniMoMo ...

不同的分子类型在药物开发中各有优劣，因此在不同的疾病场景中适合使用的分子类型也有所不同。对此，清华大学刘洋老师组联合人大黄文炳老师组和字节 AI 制药团队，共同提出了一种跨分子种类统一生成框架 ...

GitHub27 天

Mynlp: 高性能、可扩展的中文NLP工具包

该章节介绍如何安装和简单使用mynlp的基础功能。 mynlp已经发布在Maven中央仓库中，所以只需要在Maven或者Gradle中引入mynlp.jar依赖即可。因为资源文件较大，所以mynlp.jar包默认不包括资源文件（词典和模型文件）依赖。懒人方案，通过引用mynlp-all依赖默认提供的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果