日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會(huì)員:801

隨著人工智能技術(shù)日新月異的發(fā)展,推理AI模型逐漸成為了科研領(lǐng)域的熱門焦點(diǎn)。這類模型能夠模擬人類的思考過程,尤其在物理學(xué)等專業(yè)領(lǐng)域,展現(xiàn)出了超越非推理模型的卓越能力。然而,高昂的測(cè)試成本卻成為了驗(yàn)證這些模型性能的一大障礙。

據(jù)第三方AI測(cè)試機(jī)構(gòu)“人工智能分析”提供的數(shù)據(jù),評(píng)估不同推理模型的費(fèi)用差異顯著。以O(shè)penAI的o1推理模型為例,在七個(gè)主流的AI基準(zhǔn)測(cè)試中的評(píng)估費(fèi)用高達(dá)2767.05美元,折合人民幣約20191元。相比之下,Anthropic的Claude 3.7 Sonnet混合推理模型的評(píng)估費(fèi)用為1485.35美元,折合人民幣約10839元。而OpenAI的o3-mini-high模型評(píng)估則僅需344.59美元,折合人民幣約2514元。盡管存在費(fèi)用較低的模型,如OpenAI的o1-mini評(píng)估費(fèi)用僅為141.22美元,折合人民幣約1030元,但整體來看,推理模型的測(cè)試成本依然偏高。

“人工智能分析”機(jī)構(gòu)已投入約5200美元,折合人民幣約37945元,用于評(píng)估十幾種推理模型,這一投入幾乎是非推理模型評(píng)估費(fèi)用2400美元的兩倍。OpenAI在2024年5月發(fā)布的非推理GPT-4o模型評(píng)估成本僅為108.85美元,而Claude 3.6 Sonnet的評(píng)估成本更是低至81.41美元。該機(jī)構(gòu)的聯(lián)合創(chuàng)始人喬治·卡梅倫表示,隨著推理模型的開發(fā)日益增多,測(cè)試預(yù)算也將相應(yīng)增加。

AI初創(chuàng)公司“通用推理”的首席執(zhí)行官羅斯·泰勒也面臨著測(cè)試成本上升的挑戰(zhàn)。他透露,為評(píng)估Claude 3.7 Sonnet,使用了約3700個(gè)獨(dú)特的提示詞,費(fèi)用高達(dá)580美元。泰勒估計(jì),僅對(duì)MMLU Pro進(jìn)行一次完整測(cè)試的成本就可能超過1800美元。他擔(dān)憂地指出,隨著資源投入的差異,學(xué)者可能無法復(fù)制實(shí)驗(yàn)室的報(bào)告結(jié)果。

推理模型測(cè)試成本高昂的主要原因在于其生成的token數(shù)量龐大。Token是原始文本的片段,如將單詞“fantastic”拆分為多個(gè)音節(jié)。據(jù)“人工智能分析”稱,在基準(zhǔn)測(cè)試中,OpenAI的o1模型生成了超過4400萬個(gè)token,是GPT-4o生成量的八倍。由于大多數(shù)AI公司按token收費(fèi),因此成本迅速累積。

現(xiàn)代基準(zhǔn)測(cè)試包含復(fù)雜、多步驟任務(wù)的問題,導(dǎo)致模型生成大量token。Epoch AI的高級(jí)研究員讓-斯坦尼斯拉斯·德內(nèi)恩指出,盡管每個(gè)基準(zhǔn)測(cè)試的問題數(shù)量總體減少,但問題本身更加復(fù)雜,旨在評(píng)估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力,如編寫和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)等。最昂貴的模型每百萬輸出token的成本也在不斷增加。例如,Anthropic發(fā)布的Claude 3 Opus模型每百萬輸出token的成本為75美元,而OpenAI的GPT-4.5和o1-pro模型的成本則分別為150美元和600美元。

德內(nèi)恩表示,盡管隨著技術(shù)進(jìn)步,模型的性能提升且成本有所下降,但評(píng)估最大最好的模型仍需支付高昂費(fèi)用。部分AI實(shí)驗(yàn)室,包括OpenAI,為測(cè)試目的向基準(zhǔn)測(cè)試組織提供免費(fèi)或補(bǔ)貼的模型訪問權(quán)限,但一些專家擔(dān)憂這可能影響測(cè)試結(jié)果的公正性。

分享到:
標(biāo)簽:水漲船高 基準(zhǔn) 推理 模型 費(fèi)用
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52011

    網(wǎng)站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定