Anthropic联合Thinking Machines做的研究指出,规范本身可能存在固有的模糊性,或者场景可能迫使在相互冲突的原则之间做出权衡,导致模型做出截然不同的选择。 研究团队通过生成超过30万个场景来揭示这些「规范缺口」,这些场景迫使模型在相互竞争的原则之间做出选择。