资讯

继分不清 9.11 和 9.9 哪个大以后,大模型又“集体失智”了!数不对单词“Strawberry”中有几个“r”,再次引起一片讨论。 GPT-4o 不仅错了还很自信。 刚出炉的 Llama-3.1 405B,倒是能在验证中发现问题并改正。 比较离谱的是 Claude 3.5 Sonnet,还越改越错了。 说起来这 ...