OpenAI:我们将发布一项新的评估FrontierScience,用于衡量专家级的科学推理能力。FrontierScience包含两个题型:奥林匹克赛题,用于评估奥林匹克竞赛式的科学推理能力;研究赛题,用于评估现实世界中的科研能力。

2025-12-17

OpenAI:我们将发布一项新的评估FrontierScience,用于衡量专家级的科学推理能力。FrontierScience包含两个题型:奥林匹克赛题,用于评估奥林匹克竞赛式的科学推理能力;研究赛题,用于评估现实世界中的科研能力。