Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手
2 天前

本周初,Meta因在众包基准测试LM Arena中使用未公开的Llama 4 Maverick实验版本取得高分而引发争议。该行为被曝光后,LM Arena维护者迅速道歉并调整政策,采用原版Maverick重新评分,结果显示其竞争力并不突出。此事不仅揭示了Meta在测试中的不端行为,还引发了关于技术透明度与测试公正性的广泛讨论。