快科技8月10日消息,AI大模型成為今年的熱點,OpenAI的ChatGPT一馬當(dāng)先,微軟、谷歌、Meta緊隨其后,國內(nèi)科技巨頭也迅速跟進(jìn),現(xiàn)在國內(nèi)據(jù)說已經(jīng)有上百款大模型問世了。
這么多大模型中,實力到底如何?日前清華大學(xué)新聞與傳播學(xué)院發(fā)布了《大語言模型綜合性能評估報告》,將國內(nèi)外的大模型做了一番對比。
該報告還探討了這些模型在不同知識領(lǐng)域,如創(chuàng)意寫作、代碼編程、輿情分析、歷史知識等方面的回答情況,以及其在解決實際問題中的有效性和局限性。
從生成質(zhì)量、使用與性能、安全與合規(guī)三個維度,對目前市場上的7個大型語言模型進(jìn)行了全面的綜合評估。
在這7款大模型中,GPT-4獲得了毫無懸念的第一,第二名是百度的文心一言,其次是GPT-3.5,后面就是Claude、訊飛星火、阿里云的通義千問及昆侖的天工。
雖然GPT-4各方面領(lǐng)先,但是對國內(nèi)用戶來說,更懂中文的大模型才是關(guān)鍵,這方面百度的文心一言更好,在部分中文語義理解方面,文心一言以92%的得分率排名榜首,超越訊飛星火、GPT-4。
這跟百度的大模型包含大量中文文本有關(guān)系,因此能夠更好地處理本土文化相關(guān)的內(nèi)容。