资讯

证毕。 应用场景 事实上,笔者是在 Arxiv 的新文章 Exploring Alternatives to Softmax Function[1]看到这个结论的。原论文给出了一个基于数学归纳法的比较复杂的证明,上述证明则是笔者自己构思的,相对来说更加简单明了一些。 那么原论文为什么要得到这个结论呢?