当下,生成式人工智能在写代码方面越来越“能打”,但验证它写得对不对,依然是个燃眉之急。常见做法要么依赖单元测试和运行时验证,要么靠人工审查或由另一个模型充当评审者。前者资源消耗大、覆盖面有限;后者又可能沿袭模型本身的偏差与错误 ...