这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。
在GTC2025的发布会上,英伟达推出了多款AI芯片架构,虽说新一代的GB300在性能上不如预期惊艳,人们对其反应冷淡,但未来的Rubin系列芯片预示着巨大的算力提升目标。尤其是在AI的发展阶段此起彼伏,英伟达的产品规划依然让人振奋。
对DiLoCo来说,这依然能保持不错的性能,还能一次性用更多资源,缩短总训练时间。而Data-Parallel似乎更依赖串行训练。这种训练时间的减少还因为通信量降低而加倍明显。
这就是在业界甚嚣尘上的 scaling law 撞墙猜测。简而言之,机器学习的 scaling law 的指的是随着模型大小(参数量)、数据集、训练成本这三大要素的提升,大模型的性能也会有所提升(具体细节不展开)。
Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law ...
谷歌推出的DiLoCo分布式训练方法,其Scaling Law比数据并行更稳健、更优越、更高效、更强大,其模型规模越大优势越明显,有效解决通信瓶颈,为大模型训练开辟新可能。网友称DiLoCo可能会重新定义Scaling的方式。
研究人员发现随着模型尺寸的增大,DiLoCo 会呈现出可预测的稳健扩展。如果调整得当,DiLoCo 的模型规模扩展性优于数据并行训练方法,即使在小模型规模下 DiLoCo 也能胜过数据并行训练方法。
周博洋:我觉得后训练和推理语境下的新Scaling Law其实跟“思考时间”有关。思维链的产生和我的偶像Donald Norman有关,他在大学痴迷玩德国扑克,这个游戏就是思考的事件越长,获胜概率才会更高。这跟Alpha Go有点像,它们会花很长时间思考,最终战胜人类。人类大脑也有快思考和慢思考,简单的事情比如约喝咖啡,很快就能决定;但复杂的事情比如讨论算法,就需要很多中间步骤和时间。
BEIJING, March 21 (Xinhua) -- China's securities regulator said Friday it will advance the rule of law in the capital markets to make them more safe, well-regulated, transparent, open, vibrant and ...