苹果的研究引起广泛关注,其主要方法是在一系列经过精密设计的逻辑谜题中测试LRMs,如汉诺塔(Tower of Hanoi)和过河难题(River Crossing)。研究团队发现:在任务复杂度逐步提升的过程中,模型的表现出现断崖式下滑,甚至在最难的谜题中,输出token数量明显减少,似乎连“尝试解决”的动力都减弱了。更令人忧虑的是,他们根据复杂度划分出了三个“能力分界”:在简单任务中,普通LLMs(语言模型)表现更佳;在中等复杂度任务中,LRMs开始展现优势;但在高复杂度阶段,所有模型集体“崩塌”。