线性注意力机制 Katharopoulos等人提出了一种创新性的解决方案,他们通过将softmax指数函数重写为特征映射φ(x)的点积形式的核函数,并利用矩阵乘法 ...
在训练阶段,模型使用带标签的数据集进行学习。Linear层学习如何将特征映射到词汇表空间,而Softmax层将这些映射转换为概率分布。然后,模型的输出(概率分布)与真实的标签进行比较,计算损失函数(如交叉熵损失),并通过反向传播更新模型的参数。
对于多分类问题,在模型中一般会使用softmax函数将logits映射成每个类对应的概率,但对单个样本进行分类时,一般此样本只会属于某一个类别,因此需要对 label 做 one-hot 编码。 对于二分类问题而言,不再使用softmax函数做概率映射,而是使用sigmoid函数做概率 ...