bloomington - 搜索 News

8 天

OpenAI的「草莓」——o1系列模型，居然迅雷不及掩耳地上线了！在复杂推理、数学和代码问题上，它又提升到了全新高度，可以说打碎了我们对LLM固有水平的认知。这次由Ilya奠基的工作，产生了全新的Scaling Law。

8 天

在推理常用的MATH、GSM8K等基准测试上，o1和最近很多的前沿模型已经达到了饱和表现，很难有区分度，因此OpenAI主要选择了AIME评估模型的数学和推理能力，以及其他人类考试和基准测试。

8 天

新智元报道编辑：编辑部【新智元导读】OpenAI的「草莓」——o1系列模型，居然迅雷不及掩耳地上线了！在复杂推理、数学和代码问题上，它又提升到了全新高度，可以说打碎了我们对LLM固有水平的认知。这次由Ilya奠基的工作，产生了全新的Scaling ...

在推理常用的MATH、GSM8K等基准测试上，o1和最近很多的前沿模型已经达到了饱和表现，很难有区分度，因此OpenAI主要选择了AIME评估模型的数学和推理能力，以及其他人类考试和基准测试。