北大PHYBench評測：AI物理推理能力，能否超越人類智慧？-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會(huì)員：801

北大PHYBench評測：AI物理推理能力，能否超越人類智慧？

發(fā)布時(shí)間：2025-04-29 10:47:32 作者：網(wǎng)友整理

北京大學(xué)物理學(xué)院攜手校內(nèi)多個(gè)學(xué)院，共同揭曉了一項(xiàng)名為“PHYBench”的全新評測體系，該體系專注于衡量大型模型在物理推理領(lǐng)域的實(shí)際效能。這一項(xiàng)目的核心驅(qū)動(dòng)力來自朱華星教授與曹慶宏副院長，集結(jié)了一支超過200人的精英團(tuán)隊(duì)，成員包括物理學(xué)院及其他學(xué)科的佼佼者，其中不乏全國中學(xué)生物理競賽的金牌得主。

PHYBench精心策劃了500道物理題目，內(nèi)容廣泛覆蓋從高中物理知識(shí)到大學(xué)物理課程，乃至物理奧林匹克競賽的復(fù)雜挑戰(zhàn)。與傳統(tǒng)評估手段不同，PHYBench引入了創(chuàng)新的評分機(jī)制——表達(dá)式樹編輯距離（EED Score），這一方法通過分析模型答案與標(biāo)準(zhǔn)答案在數(shù)學(xué)表達(dá)式結(jié)構(gòu)上的相似性，能夠更為精確地評估模型的推理深度。相較于傳統(tǒng)的對錯(cuò)評判，EED Score提供的連續(xù)分?jǐn)?shù)體系，更能細(xì)膩地展現(xiàn)不同模型間的性能差異。

在一次引人注目的“人機(jī)對抗”中，81名來自北京大學(xué)的學(xué)子與頂尖的人工智能模型進(jìn)行了正面交鋒。結(jié)果顯示，盡管Gemini2.5pro模型作為AI界的佼佼者，但其答題正確率僅為36.9%，而人類專家的平均正確率則高達(dá)61.9%，這一結(jié)果凸顯了人類在物理推理方面的顯著優(yōu)勢。PHYBench研究團(tuán)隊(duì)深入剖析了模型的錯(cuò)誤，將推理過程細(xì)分為物理感知與魯棒推理兩大環(huán)節(jié)，揭示了當(dāng)前AI在物理推理領(lǐng)域面臨的瓶頸。

分享到：

標(biāo)簽：推理北大評測超越物理