分词 - 搜索 News

资讯

6 天

原创《乘风2025》黄英分词争议，少引强烈反响

此前，黄英因“浪姐6连跪战神”的经历备受瞩目，而这次的分词争议似乎也是她“美强惨”人设的延续。不过，即使在分词上受到限制，她在和声部分的音准和情感依然赢得了乐评人的认可。而此事件也激发了粉丝们自发发起#为黄英讨分词#的话题，期待她在后续的舞台中能有更 ...

腾讯网7 小时

zip2zip：通过令牌压缩实现大语言模型的推理时自适应词汇表

zip2zip的革命性理念在于它能让语言模型在对话进行时实时调整词汇表，就像我们人类在交谈中会即兴创造简称或缩写一样。这种动态适应能力无需事先重新训练模型，也不需要为每种语言或每个专业领域准备单独的词汇表。

科技行者 on MSN10 天

大语言模型中的分词限制：一项探究符号和算术推理边界的研究

近日，由不列颠哥伦比亚大学的张翔和曹俊泰、浙江大学的魏佳琪、思科公司的徐一伟以及纽约石溪大学的尤晨宇共同完成的一项前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and ...

15 天

《乘风2025》黄英分词少引强烈争议

观众对此反应强烈。大家普遍认为黄英作为《快乐女声》季军，其实力与此次的待遇反差太大。甚至有人调侃她的分词长度不如短视频广告。不少网友质疑节目组刻意限制黄英的表现，比如她在四公的镜头量位列倒数第三，加更内容里几乎没什么镜头。

51CTO2 天

Transformer入门必读！从文本分词到输出概率的全解析原创精华

在Transformer处理文本之前，它需要先把文本切分成更小的单元，也就是“token”。这就好比把一个句子切成拼图的碎片。简单的分词器会按照单词来切分（比如“I love AI”会被切分成["I", "love", "AI"]），但现代的LLMs通常使用子词分词（subword tokenization），这样可以 ...

腾讯网4 天

腾讯AI技术助力敦煌「数字藏经洞」全球上线

敦煌藏经洞古籍，第一次变得「人人可读」——刚刚，敦煌研究院正式发布「数字藏经洞」数据库平台，发布敦煌文书经卷9900多卷、图像60700多幅，内容涵盖佛经、律典、契约、绢画等。在腾讯智能检索和大模型技术助力下，沉睡于竖排繁体和生僻字中的古籍信息被唤醒 ...

18 小时

日本AI逆袭全球！Shisa V2 405B开源发布，碾压GPT-4的日语神器来了！

据AIbase了解，Shisa.AI 最新发布了基于Llama3.1的Shisa V2405B模型，这一开源模型被誉为“日本有史以来训练的最强大型语言模型”。该模型不仅在日语任务上表现出色，还保留了强大的英语处理能力，展现了日英双语模型的卓越性能。

ZAKER on MSN11 小时

华语乐坛，终于有了下一个王菲？

转载来源：十点人物志（sdrenwu）去年，阔别四年的《歌手2024》重启，以直播形式和国际化的阵容强势“出圈”。节目中，一众早已成名的歌手的音域、音准、音色被反复检阅，跑调、破音无所遁形。

18 小时on MSN

日本AI新突破！Shisa V2405B开源，日语处理能力超越GPT-4

近期，日语AI领域迎来了一项重要突破，一家名为Shisa.AI的东京初创公司发布了其最新日英双语模型——Shisa ...

腾讯网1 天

Explore the millennium-old digital library in Dunhuang with AI

On May 31st, the "Digital Library Cave" platform developed by the Dunhuang Academy (https://cave17.e-dunhuang.com) officially ...

GitHub27 天

分词器可能会将一些词前的空格和换行符划分到词中 #38

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community. Sign up for GitHub By clicking ...

腾讯网14 天

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型

自回归（AR）范式凭借将语言转化为离散 token 的核心技术，在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o，「next-token prediction」以简单粗暴的因果建模横扫语言领域。但当我们将目光转向视觉生成，却发现这条黄金定律似乎失效了……现有方案硬生生将图像网格化为空间 token，强行塞入自回归架构。这像极了 NLP ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果