资讯

敦煌藏经洞古籍,第一次变得「人人可读」——刚刚,敦煌研究院正式发布「数字藏经洞」数据库平台,发布敦煌文书经卷9900多卷、图像60700多幅,内容涵盖佛经、律典、契约、绢画等。在腾讯智能检索和大模型技术助力下,沉睡于竖排繁体和生僻字中的古籍信息被唤醒 ...
近日,由不列颠哥伦比亚大学的张翔和曹俊泰、浙江大学的魏佳琪、思科公司的徐一伟以及纽约石溪大学的尤晨宇共同完成的一项前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and ...
自回归(AR)范式凭借将语言转化为离散 token 的核心技术,在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o,「next-token prediction」以简单粗暴的因果建模横扫语言领域。但当我们将目光转向视觉生成,却发现这条黄金定律似乎失效了……现有方案硬生生将图像网格化为空间 token,强行塞入自回归架构。这像极了 NLP ...
在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本 ...
预训练中分词器对数字性能的影响 首先,一种普遍的猜想是,大模型在数字能力上的薄弱与其对数字的分词(tokenization)方式有关。目前大多数流行的大模型由于词汇表固定,需要将长数字分拆为多个 token,这种方式可能会削弱模型对数字的理解。在早期的 GPT-2 ...
一同登场的还有合作伙伴英伟达新发布的Cosmos视频分词器,超高质量和压缩率助力构建虚拟世界。 AI时代的机器人怎么训练? 去年3月,挪威人形 ...
一位听众来信询问如何判断在句子中应使用现在分词还是过去分词。英语中的分词分为以 -ing 结尾的现在分词和多以 -ed 结尾的过去分词。虽然在一些极为特殊的句子中,这两种分词可以互换使用,但在大多数情况下,它们在句中起到的作用是不同的。本期节目 ...
关键词分词,方法就两种,区别是快和更快。 前天我们分享了郝老师的表格分词法—— 《攻略来了!手动分词工具,分分钟搞定分词,竞价员必须人手一个》 。 今天咱们继续说说如何高效分词,今天我要介绍的超实用工具是—— 厚昌网络分词工具 只需十几秒 ...