【ITBEAR科技資訊】7月18日消息,近日,上海人工智能實(shí)驗(yàn)室揭曉了一場(chǎng)特殊的“高考”成績(jī),這場(chǎng)考試與眾不同,因?yàn)樗膮⒖颊卟⒎钦鎸?shí)的學(xué)生,而是7個(gè)頂尖的AI大模型。這一評(píng)測(cè)的初衷在于探索當(dāng)前大模型的真實(shí)能力水平,并尋找其可能存在的問(wèn)題,以期推動(dòng)技術(shù)的進(jìn)步。
據(jù)評(píng)測(cè)結(jié)果,書生?浦語(yǔ) 2.0 系列文曲星大模型(浦語(yǔ)文曲星)、阿里通義千問(wèn)大模型 Qwen2-72B 和廣為人知的 GPT-4o 在眾多模型中脫穎而出,分別在文科和理科的評(píng)測(cè)中位列前三。這三款大模型的文、理科成績(jī)均超越了“一本”和“二本”的分?jǐn)?shù)線,這一參考線是基于今年高考人數(shù)最多的河南省的分?jǐn)?shù)線設(shè)定的。
此次參與評(píng)測(cè)的大模型除了上述三款外,還包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及來(lái)自法國(guó)AI初創(chuàng)公司Mistral的Mixtral 8×22B。整個(gè)評(píng)測(cè)過(guò)程嚴(yán)謹(jǐn)而全面,不僅進(jìn)行了全卷的評(píng)分,還特意邀請(qǐng)了有高考閱卷經(jīng)驗(yàn)的老師進(jìn)行打分,以確保評(píng)分的公正性和準(zhǔn)確性。
在這場(chǎng)特殊的“高考”中,Qwen2-72B 以546分的高分奪得了文科狀元的桂冠,而浦語(yǔ)文曲星則以468.5分領(lǐng)跑理科。與此同時(shí),GPT-4o在文理科均展現(xiàn)出不俗的實(shí)力。不過(guò),國(guó)外的大模型Mixtral 8x22B在此次評(píng)測(cè)中表現(xiàn)相對(duì)較弱。
閱卷老師們?cè)趯?duì)答案進(jìn)行仔細(xì)分析后指出,雖然大模型在基礎(chǔ)知識(shí)的掌握上表現(xiàn)出色,但與真實(shí)考生相比,在邏輯推理和知識(shí)靈活應(yīng)用上還存在明顯差距。特別是在解答主觀題時(shí),大模型往往難以完整理解題目要求,導(dǎo)致答案與題目要求不符。在數(shù)學(xué)題的解答過(guò)程中,大模型的表現(xiàn)也顯得機(jī)械且邏輯性不強(qiáng)。
根據(jù)上海人工智能實(shí)驗(yàn)室上個(gè)月公布的 AI 高考全卷結(jié)果,Qwen2-72B、GPT-4o 及書生?浦語(yǔ) 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過(guò) 70%。大部分模型“考生”語(yǔ)文、英語(yǔ)科目表現(xiàn)良好,但數(shù)學(xué)方面仍有很大提升空間。