來源:動點科技
當(dāng)?shù)貢r間 3 月 14 日,OpenAI 攜 GPT-4 來了!隨著 ChatGPT 聚焦全球目光,這一次的產(chǎn)品發(fā)布自然也備受關(guān)注。
據(jù)了解,OpenAI 花了 6 個月時間使 GPT-4 更安全、更具一致性。在內(nèi)部評估中,與 GPT-3.5 相比,GPT-4 對不允許內(nèi)容做出回應(yīng)的可能性降低 82%,給出事實性回應(yīng)的可能性高 40%。GPT-4 引入了更多人類反饋數(shù)據(jù)進行訓(xùn)練,不斷吸取現(xiàn)實世界使用的經(jīng)驗教訓(xùn)進行改進。
作為一款所謂的 " 高體驗、強能力的先進 AI 系統(tǒng) ",在官方演示中,GPT-4 幾乎就只花了 1-2 秒的時間,識別了手繪網(wǎng)站圖片,并根據(jù)要求實時生成了網(wǎng)頁代碼制作出了幾乎與手繪版一樣的網(wǎng)站。
除了普通圖片,GPT-4 還能處理更復(fù)雜的圖像信息,包括表格、考試題目截圖、論文截圖、漫畫等,例如根據(jù)專業(yè)論文直接給出論文摘要和要點。正因此,OpenAI 官方稱,GPT-4 是 OpenAI 擴展深度學(xué)習(xí)的最新里程碑。
值得一提的是,GPT-4 雖然于 14 日才正式公開,但早在一個月前,微軟的搜索引擎必應(yīng)就已經(jīng)在 GPT-4 上運行。微軟表示," 如果您在過去五周內(nèi)的任何時間使用過新版必應(yīng),那么您已經(jīng)體驗過 GPT-4 的早期版本。"
多模態(tài)學(xué)習(xí)的最新成果
OpenAI 宣稱,GPT-4 是一個大型多模態(tài)(接受圖像和文本輸入,發(fā)出文本輸出)模型,我們首先需要弄清楚,何為模態(tài)?
每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達、紅外、加速度計等。以上的每一種都可以稱為一種模態(tài)。同時,模態(tài)也可以有非常廣泛的定義,比如我們可以把兩種不同的語言當(dāng)做是兩種模態(tài),甚至在兩種不同情況下采集到的數(shù)據(jù)集,亦可認(rèn)為是兩種模態(tài)。
多模態(tài)學(xué)習(xí)從 1970 年代起步,經(jīng)歷了幾個發(fā)展階段,在 2010 后全面步入深度學(xué)習(xí)階段。
OpenAI 表示,在過去兩年里,他們重構(gòu)了整個深度學(xué)習(xí)堆棧,并與微軟 Azure 合作,共同設(shè)計了一臺超級計算機。一年前,OpenAI 訓(xùn)練了 GPT-3.5,作為整個系統(tǒng)的首次 " 試運行 "。
目前,GPT-4 可以可以讓用戶指定任何視覺或語言任務(wù),然后生成文本輸出(自然語言、代碼等),給定的輸入包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4 表現(xiàn)出與純文本輸入類似的能力。比如圖表分析、總結(jié)概括。
強悍的學(xué)習(xí)力
雖然在許多現(xiàn)實場景中 AI 仍不如人類,但 GPT-4 在許多專業(yè)和學(xué)術(shù)基準(zhǔn)上都呈現(xiàn)了人類水平的表現(xiàn)。以美國 BAR 律師執(zhí)照統(tǒng)考為例,GPT3.5 可以達到 10% 水平,GPT-4 可以達到 90% 水平。在 GPT-3.5 版本模型下,它的 SAT 成績只能排倒數(shù) 10% 的水平,然而 GPT-4 模型可以超越 90% 考生的水平。如果僅以分?jǐn)?shù)作為衡量,GPT-4 已經(jīng)差不多達到了美國頂尖名校的入學(xué)標(biāo)準(zhǔn)。
不僅如此,GPT-4 的語言能力同樣令人驚嘆。OpenAI 稱,在測試的 26 種語言中,GPT-4 在 24 種語言方面的表現(xiàn)均優(yōu)于 gpt-3.5 等其他大語言模型的英語語言性能。其中 GPT-4 的中文能夠達到 80.1% 的準(zhǔn)確性,而 gpt-3.5 的英文準(zhǔn)確性僅為 70.1%,GPT-4 英文準(zhǔn)確性提高到了 85.5%。
在 API 方面,GPT-4 還開放了一個使用功能,允許修改 " 系統(tǒng)提示 "。通過修改系統(tǒng)提示,GPT-4 就可以展現(xiàn)出更多樣的性格,而不會像先前那樣一板一眼。
與此同時,OpenAI 正在開源其軟件框架 OpenAI Evals,用于創(chuàng)建和運行評估 GPT-4 等模型的基準(zhǔn),同時逐個樣本檢查其性能。用戶可以應(yīng)用它來跟蹤不同模型版本(現(xiàn)在將定期推出)和不斷發(fā)展的產(chǎn)品集成的性能。
不足之處
大模型的發(fā)展趨勢,除了更好的性能表現(xiàn)外,關(guān)鍵的突破就是多模態(tài),GPT-4 此次在多模態(tài)方面相比前代已經(jīng)進步了不少。然而,GPT-4 目前只能輸入圖片內(nèi)容,但是輸出的仍是文字。圖片、視頻等跨模態(tài)的生成形式,GPT-4 尚不具備。
而且,與前一代一樣,GPT-4 是基于 2021 年 9 月之前的數(shù)據(jù)訓(xùn)練的,所以 GPT-4 對于 2021 年 9 月之后發(fā)生的事件仍然缺乏有效理解,也不會從其經(jīng)驗中進行學(xué)習(xí)。OpenAI 表示:"GPT-4 仍有許多已知的局限性,我們正在努力解決,例如社會偏見、幻覺和對抗性提示。"
OpenAI 承認(rèn),GPT-4 與早期的 GPT 模型具有相似的局限性,它仍然不完全可靠,可能會存在推理錯誤。不過 GPT-4 相對于以前的模型已經(jīng)有比較顯著的改善了。OpenAI 對不同模型進行了內(nèi)部對抗性真實性測試,具體來看,進行了涵蓋學(xué)習(xí)、技術(shù)、寫作、歷史、數(shù)學(xué)、可惜等九類測試,準(zhǔn)確度為 1.0 意味著模型的答案被判斷為與人類理想回答一致。
目前,GPT-4 沒有免費版本,僅向月訂閱費 20 美元的 ChatGPT Plus 用戶及企業(yè)和開發(fā)者開放。ChatGPT Plus 用戶將獲得有使用上限的 GPT-4 權(quán)限。OpenAI 將根據(jù)實際需求和系統(tǒng)性能調(diào)整確切的使用上限,但預(yù)計容量將受到嚴(yán)重限制。