日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

大模型跑分刷榜,有意義嗎?

今年咱們新硅編輯部最大的困擾,就是面對各種“超越GPT”的大模型,陷入無盡的沉思。

我們就納了悶了,為什么GPT這么好超越?

在“第一個中文大模型”“第一個垂類大模型”等名號被各大科技公司相繼占領之后,這場競賽逐漸轉移到了分數上,競爭者們紛紛宣稱自己在某些維度上排名第一,或是在某方面遠超GPT-4。

即便是谷歌在發布其新模型Gemini時也未能免俗。

大模型跑分刷榜,有意義嗎?圖源:Gemini官網

到了年末,AI排行榜上充斥著各種高分大模型,然而它們似乎也就止步于此,高分的模型就只存在于排行榜上,真正能用的似乎也沒幾個。

用李彥宏的話來說,就是目前大量的資源浪費在各種各樣基礎模型的訓練上,甚至是跑分刷榜上,而比較少的資源和精力放在了AI原生應用上。

大模型為什么要跑分,源于一個最樸實的概念:如果用戶用不上,那么如何證明咱家的模型高級?

在ChatGPT橫空出世后,大家只知道ChatGPT很厲害,因為它可以像模像樣地回答任何問題,哪怕是腦筋急轉彎。于是大家開始用各種刁鉆的問題問大模型,來判斷大模型好不好。

被稱為人類最后堡壘的弱智吧問題,常常用來測試大模型,像什么“老鼠生病了,吃老鼠藥可以治好嗎?”“跳多高才能跳過廣告?”“生蠔煮熟了還叫生蠔嗎?”

大模型跑分刷榜,有意義嗎?

但仔細想想,這種測試方式不夠科學也不太全面,而且萬一未來AI主導社會,顯然也不是靠抖機靈上位的。

于是,眾多研究機構、高校開始建立完善的大模型評估體系。比如由MBZUAI、上海交通大學、微軟亞洲研究院共同推出的CMMLU,專門用于評估大模型在中文語境下的知識和推理能力。

我們根據OpenCompass(主流的開源網站)整理了一下目前主流的大模型評測方法,大概有39種。

大模型跑分刷榜,有意義嗎?

嚴格意義來說,這39種評測方法只要有一個領域領先GPT,就可以拿來當宣發標題了。

大模型測試都會涉及5個方面的能力??荚嚹芰?、語言能力、知識能力、理解能力和推理能力。

我們一一來介紹下,每個能力都是什么,以及為什么要測試這些能力。

考試能力主要測試了大模型在特定任務或條件下的表現。以GAOKAO-Bench為例,這個測試集簡單來說就是讓大模型去參加高考。

GAOKAO-Bench收集了2010-2022年全國高考卷的題目,包括選擇填空之類的客觀題,和閱讀理解類的主觀題,其中主觀題訓練集的標準答案由上海市曹楊第二中學的老師們評分。

插句題外話,這所學校在上海高中里面可以排進前二十。

這一能力通常說明模型在接受特定訓練后,能否實現相應的效果,也是評測中努努力最容易得高分的項目。

這和好好學習就能考高分如出一轍。

大模型跑分刷榜,有意義嗎?圖源:GAOKAO-Bench 例題

語言能力指大模型理解和使用語言的能力,包括語法、句法和語義。

比如AFQMC測試就用到螞蟻金融的數據,可以評估大模型能否判斷“雙十一花唄提額在哪”“哪里可以提花唄額度”兩句話意思不一樣。

大模型跑分刷榜,有意義嗎?圖源:AFQMC 例題

知識能力指模型擁有的信息和數據,以及如何使用這些信息來回答問題或解決問題。

當我們問ChatGPT一些常識問題,如“中國的首都在哪里?”ChatGPT會毫不猶豫地回答北京。這就是大模型的知識能力。也就是說大模型的知識能力越好,知識盲區越小。

大模型跑分刷榜,有意義嗎?圖源:commonsenseQA 例題

理解能力指模型對信息的深入理解,包括上下文、隱含的意義和復雜概念。能否識別弱智吧的問題,基本就靠這個能力,但凡說生蠔煮熟了就不是生蠔的,理解能力通通不過關。

大模型跑分刷榜,有意義嗎?圖源:C3 例題

推理能力指模型根據現有信息做出邏輯判斷和決策的能力。例如CMNLI測試了大模型能否確定兩個句子之間的邏輯關系,從而判斷大模型的推理能力。

大模型跑分刷榜,有意義嗎?圖源:CMNLI例題

比如這個例子,新的權利已經足夠好了,其實并不等于每個人都很喜歡最新的福利。

大模型測試的數據集很多,而且會有新的測試出現,但測試的能力基本都是考試能力、語言能力、知識能力、理解能力和推理能力。

看到眼花繚亂的測試,你是不是覺得高分的大模型一定很厲害?

還真不一定。

首先,行業內存在“大模型測試泄露”的問題。很多大模型的測試題目是公開的,導致廠商可以“針對性訓練”模型以提高分數。

這一現象在人民大學高瓴人工智能學院最近發表的論文Don‘t Make Your LLM an Evaluation Benchmark Cheater被證實。這種做法雖然能提升測試成績,但并不代表模型的真實能力得到了提升。

大模型跑分刷榜,有意義嗎?圖源:Don‘t Make Your LLM an Evaluation Benchmark Cheater

換句話說,只要把這些測試題全部喂給大模型,然后送這個模型去考試,怎么得分都不會低,畢竟是開卷考試。

具體來看,在使用測試題進行訓練后,小模型也能秒殺大模型。論文中測試了很多模型,這里我們以LLaMA為例。

LLaMA-2(7B)在沒有使用測試題訓練前,在各大測試中分數都不如LLaMA-13B。但在使用測試題訓練后,LLaMA-2(7B)的分數可以接近甚至高于LLaMA-65B。

后者的參數量是前者的近10倍,要知道,在絕大多數情況下,參數量往往決定了大模型的能力。

大模型跑分刷榜,有意義嗎?圖源:Don‘t Make Your LLM an Evaluation Benchmark Cheater

那不公開的閉源測試可以解決這個問題嗎?也不行。

閉卷考的主要優勢是它可以防止廠商針對特定的測試題目進行優化,從而提供更真實的模型性能評估。

可問題是,這種測評如何服眾?沒人知道到底如何測試模型的情況下,其評測的可信度就得打一個問號。

質疑隨之而來,比如“賣榜單”。

在沒有足夠透明度的情況下,廠商可能會通過某些手段來影響或操縱排名,從而損害測試的公正性,國內有一個大模型測試集,由于沒有公開測試詳細內容,引來網友質疑。

大模型跑分刷榜,有意義嗎?

大模型跑分刷榜,有意義嗎?圖源:知乎網友評論

在大模型測試榜單即將水漫金山前,中國信通院發布了《大規模預訓練模型技術和應用評估方法》,評測范圍包含智能語義、智能視覺、智能語音、跨模態四個能力,共計30余個能力項。

這算是給“混亂”的大模型評測帶來了一個“國標”方案。

雖然《大規模預訓練模型技術和應用評估方法》還未全面普及,僅完成了模型開發和模型能力兩部分的內容,還未形成統一完善的標準,但至少在國內也有官方權威的口徑進行評測。

不管怎么說,拿不到國標就不能上路。

大模型跑分刷榜,有意義嗎?圖源:中國信通院

不過也存在一種說法,就算目前的大模型測試存在問題,但這些測試題已經足夠全面了,能做這么多題就不錯了,以后只要把題庫不斷完善,大模型不就越來越強大了?

所以都怪駕校只考到科目四,不然也不會出這么多事故了。

很顯然,會做題并不代表能力強。畢竟人類在做題的過程中有成長的概念,而現階段的AI還沒到“自我成長”的階段。

通過做題訓練出來的大模型,有一種術語稱其為“快思考”。

google DeepMind資深工程師盧一峰表示:“(快思考階段中)它的知識是來自于整個互聯網的數據,壓縮以后進行的重組、匯編,憑此來試著回答用戶的問題,它實際上離我們真正所謂的‘慢思考’,即幫助人類去解決一些很難的問題,還有很長的路要走。”

“區別就在于,你可以讓它幫你寫一些日常的郵件,但是如果你問它,‘我們怎么能夠把人類帶到火星?’這樣的問題,那它就無法用一次問答的方式獲得完整的答案。”

舉個例子,“快思考”的大模型就像一本百科全書,你只能獲得書里有的內容,不管怎樣提問他給出的答案都是在書中某個角落里寫過的,最多幫你整合編輯一下。

而“慢思考”的大模型就像一位專家,他可以用腦子里的知識儲備進行學習,從而實現“回答一切問題”的能力。

因此,大模型跑分并不能全面體現大模型的能力。

那么性能測試就沒有意義了嗎?

前文中,我們探討了大模型測試存在諸多問題,那么大模型開發者為什么仍熱衷于進行性能測試?

首先,大模型測試可以幫助開發者對大模型的能力有一個初步的認識,能考上985大學通常來說比上大專的能力會強一些。

此外,它們也涉及到一些重要的“價值對齊”問題,例如避免人種歧視、性別歧視,或是協助恐怖襲擊等。

另一方面,在模型競爭激烈的環境下,性能測試成為廠商展示自家模型最主要的營銷手段,畢竟當前大模型的普及程度尚淺,且缺乏明確的應用場景,廠商很難通過實際應用來吸引用戶,一個最直接的“得分”更能抓人眼球。

是不是很熟悉?這種現象與早期智能手機和PC市場的情況頗為相似。

起初,用戶對消費電子的理解不深,主要通過性能分數來判斷手機的優劣,魯大師跑分就是在這個時候崛起的。

然而,隨著智能手機的普及和關鍵應用場景的明確化,用戶體驗逐漸成為了評價標準的核心。

大模型跑分刷榜,有意義嗎?圖源:某微博大V對手機跑分吐槽

到了應用普及的年代,誰還看跑分?

參考文章:

[1] 一言不合就跑分,國內AI大模型為何沉迷于“刷榜”|三易生活 

[2] LLM Evaluation 如何評估一個大模型?|知乎

[3] 谷歌工程師:大模型自進化關鍵在從“快思考”進入“慢思考”|極客公園

[4] 《Don‘t Make Your LLM an Evaluation Benchmark Cheater》

[5] 可信AI技術熱點|大模型持續釋放技術紅利,產業級大模型評估體系正式發布|中國信通院

[6] 全國首個!“大模型標準符合性測試”結果公布,這四款國產大模型首批通過!|證券時報

[7] 李彥宏:卷 AI 原生應用才有價值,別卷大模型了!|極客公園

分享到:
標簽:模型
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定