资讯

梦晨 发自 凹非寺量子位 | 公众号 QbitAI OpenAI发布最新论文,找了到控制AI“善恶”的开关。 通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏” ...