本周初,Meta因在众包基准测试LM Arena中使用未公开的Llama 4 Maverick实验版本取得高分而引发争议。该行为被曝光后,LM Arena维护者迅速道歉并调整政策,采用原版Maverick重新评分,结果显示其竞争力并不突出。此事不仅揭示了Meta在测试中的不端行为,还引发了关于技术透明度与测试公正性的广泛讨论。