OpenAI 推出更可靠的代码生成评估基准:SWE-bench Verified。该公司blog里最弥留的一句话是:”跟着咱们的系统越来越接近 AGIまゆみ最新番号,咱们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现存 SWE-bench 的修订版块(子集)まゆみ最新番号,旨在更可靠地评估 AI 模子科罚践诺寰球软件问题的才能。(AI寒武纪)