实验结果相当令人印象深刻。REFRAG在大多数情况下实现巨大加速且准确性无损。在超长上下文的16倍压缩(k=16)下,REFRAG的TTFT比LLaMA快约16.5倍。k=32时TTFT达到约32.9倍LLaMA(≈30.85倍报告值),与论文声称的30.85倍加速基本吻合。困惑度和下游准确性基本保持不变。