月之暗面公司今日震撼發(fā)布其備受矚目的Kimi研究功能,正式進軍競爭激烈的AI智能體領(lǐng)域。據(jù)悉,該功能在多項嚴格測試中展現(xiàn)出了卓越性能,特別是在“人類終極考驗”(HLE)測試中,以壓倒性優(yōu)勢超越了谷歌與OpenAI的同類產(chǎn)品,榮登榜首。
Kimi研究功能的核心競爭力在于其自主研發(fā)的Kimi-Researcher智能體,這款智能體在多輪搜索與推理方面展現(xiàn)出了非凡的能力。據(jù)統(tǒng)計,Kimi-Researcher在執(zhí)行任務(wù)時,平均會執(zhí)行23個推理步驟,并瀏覽超過200個相關(guān)網(wǎng)頁,其強大的信息處理與分析能力令人矚目。
在HLE測試中,Kimi-Researcher基于Kimi k-系列模型的內(nèi)部版本構(gòu)建,并通過端到端的智能體強化學習進行訓練。其Pass@1得分率達到了26.9%,Pass@4準確率更是高達40.17%,刷新了業(yè)界記錄。尤為Kimi-Researcher的HLE初始得分僅為8.6%,經(jīng)過強化學習訓練后,成績實現(xiàn)了質(zhì)的飛躍,這充分證明了端到端智能體強化學習在提升智能體智能水平方面的巨大潛力。
Kimi-Researcher在多個復(fù)雜且具有挑戰(zhàn)性的真實世界基準測試中同樣表現(xiàn)出色。在xbench測試的xbench-DeepSearch項目上,Kimi-Researcher取得了69%的Pass@1得分率(四次運行平均值),優(yōu)于其他配備搜索工具的模型。在涉及多輪搜索推理(如frameS、Seal-0)和事實性信息問答(如SimpleQA)的基準測試中,Kimi-Researcher同樣展現(xiàn)出了卓越的性能。
為了讓更多用戶能夠體驗到Kimi-Researcher的強大功能,月之暗面公司宣布,即日起將逐步向用戶開放內(nèi)測申請。用戶只需訪問kimi.com即可提交申請。更令人期待的是,月之暗面公司計劃在未來幾個月內(nèi)開源Kimi-Researcher背后的基礎(chǔ)預(yù)訓練模型以及經(jīng)過強化學習訓練后的模型,這將為AI社區(qū)的發(fā)展注入新的活力。
感興趣的用戶可以訪問月之暗面公司的GitHub頁面(https://moonshotai.github.io/Kimi-Researcher/),了解更多關(guān)于Kimi-Researcher的詳細信息。