为了增强模型的安全意识和推理能力,研究团队提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采用三阶段的方法,系统性提升基础模型在复杂的安全对齐场景中表现。 论文实验结果表明,基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基础模型,STAIR 框架 ...