资讯

在 PersonQA 基准测试中, o3 会在 33% 的问答中出现幻觉 ,几乎是o1( 16% )的 2 倍, o4-mini 的幻觉率更是高达 48% ,远高于此前发布的推理模型。