北京大學(xué)物理學(xué)院攜手校內(nèi)多個(gè)學(xué)院,共同揭曉了一項(xiàng)名為“PHYBench”的全新評測體系,該體系專注于衡量大型模型在物理推理領(lǐng)域的實(shí)際效能。這一項(xiàng)目的核心驅(qū)動(dòng)力來自朱華星教授與曹慶宏副院長,集結(jié)了一支超過200人的精英團(tuán)隊(duì),成員包括物理學(xué)院及其他學(xué)科的佼佼者,其中不乏全國中學(xué)生物理競賽的金牌得主。
PHYBench精心策劃了500道物理題目,內(nèi)容廣泛覆蓋從高中物理知識(shí)到大學(xué)物理課程,乃至物理奧林匹克競賽的復(fù)雜挑戰(zhàn)。與傳統(tǒng)評估手段不同,PHYBench引入了創(chuàng)新的評分機(jī)制——表達(dá)式樹編輯距離(EED Score),這一方法通過分析模型答案與標(biāo)準(zhǔn)答案在數(shù)學(xué)表達(dá)式結(jié)構(gòu)上的相似性,能夠更為精確地評估模型的推理深度。相較于傳統(tǒng)的對錯(cuò)評判,EED Score提供的連續(xù)分?jǐn)?shù)體系,更能細(xì)膩地展現(xiàn)不同模型間的性能差異。
在一次引人注目的“人機(jī)對抗”中,81名來自北京大學(xué)的學(xué)子與頂尖的人工智能模型進(jìn)行了正面交鋒。結(jié)果顯示,盡管Gemini2.5pro模型作為AI界的佼佼者,但其答題正確率僅為36.9%,而人類專家的平均正確率則高達(dá)61.9%,這一結(jié)果凸顯了人類在物理推理方面的顯著優(yōu)勢。PHYBench研究團(tuán)隊(duì)深入剖析了模型的錯(cuò)誤,將推理過程細(xì)分為物理感知與魯棒推理兩大環(huán)節(jié),揭示了當(dāng)前AI在物理推理領(lǐng)域面臨的瓶頸。