资讯

近期,我们看到Gemini-1.5、DeepSeek-V3和Llama-4等顶尖大语言模型纷纷采用了一种名为"专家混合"(Mixture-of-Experts,简称MoE)的架构。这是怎样的一种技术?想象一下,传统的语言模型就像一个万能选手,必须处理 ...
研究者们认识到,在机械可解释性社区中,对特征一致性的重要性存在不同看法。有些研究者认为SAE特征只是一种实用的分解,不应期望具有完美的一致性;另一些人认为可以在不要求完美特征一致性的情况下取得足够好的可解释性。