刷題成績達哈佛標準，GPT-4 要讓谷歌工程師熬夜了-魔扣目錄

來源：動點科技

當?shù)貢r間 3 月 14 日，OpenAI 攜 GPT-4 來了！隨著 ChatGPT 聚焦全球目光，這一次的產(chǎn)品發(fā)布自然也備受關(guān)注。

據(jù)了解，OpenAI 花了 6 個月時間使 GPT-4 更安全、更具一致性。在內(nèi)部評估中，與 GPT-3.5 相比，GPT-4 對不允許內(nèi)容做出回應的可能性降低 82%，給出事實性回應的可能性高 40%。GPT-4 引入了更多人類反饋數(shù)據(jù)進行訓練，不斷吸取現(xiàn)實世界使用的經(jīng)驗教訓進行改進。

作為一款所謂的 " 高體驗、強能力的先進 AI 系統(tǒng) "，在官方演示中，GPT-4 幾乎就只花了 1-2 秒的時間，識別了手繪網(wǎng)站圖片，并根據(jù)要求實時生成了網(wǎng)頁代碼制作出了幾乎與手繪版一樣的網(wǎng)站。

除了普通圖片，GPT-4 還能處理更復雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等，例如根據(jù)專業(yè)論文直接給出論文摘要和要點。正因此，OpenAI 官方稱，GPT-4 是 OpenAI 擴展深度學習的最新里程碑。

值得一提的是，GPT-4 雖然于 14 日才正式公開，但早在一個月前，微軟的搜索引擎必應就已經(jīng)在 GPT-4 上運行。微軟表示，" 如果您在過去五周內(nèi)的任何時間使用過新版必應，那么您已經(jīng)體驗過 GPT-4 的早期版本。"

多模態(tài)學習的最新成果

OpenAI 宣稱，GPT-4 是一個大型多模態(tài)（接受圖像和文本輸入，發(fā)出文本輸出）模型，我們首先需要弄清楚，何為模態(tài)？

每一種信息的來源或者形式，都可以稱為一種模態(tài)。例如，人有觸覺，聽覺，視覺，嗅覺；信息的媒介，有語音、視頻、文字等；多種多樣的傳感器，如雷達、紅外、加速度計等。以上的每一種都可以稱為一種模態(tài)。同時，模態(tài)也可以有非常廣泛的定義，比如我們可以把兩種不同的語言當做是兩種模態(tài)，甚至在兩種不同情況下采集到的數(shù)據(jù)集，亦可認為是兩種模態(tài)。

多模態(tài)學習從 1970 年代起步，經(jīng)歷了幾個發(fā)展階段，在 2010 后全面步入深度學習階段。

OpenAI 表示，在過去兩年里，他們重構(gòu)了整個深度學習堆棧，并與微軟 Azure 合作，共同設(shè)計了一臺超級計算機。一年前，OpenAI 訓練了 GPT-3.5，作為整個系統(tǒng)的首次 " 試運行 "。

目前，GPT-4 可以可以讓用戶指定任何視覺或語言任務，然后生成文本輸出（自然語言、代碼等），給定的輸入包括帶有文字和照片的文件、圖表或屏幕截圖，GPT-4 表現(xiàn)出與純文本輸入類似的能力。比如圖表分析、總結(jié)概括。

強悍的學習力

雖然在許多現(xiàn)實場景中 AI 仍不如人類，但 GPT-4 在許多專業(yè)和學術(shù)基準上都呈現(xiàn)了人類水平的表現(xiàn)。以美國 BAR 律師執(zhí)照統(tǒng)考為例，GPT3.5 可以達到 10% 水平，GPT-4 可以達到 90% 水平。在 GPT-3.5 版本模型下，它的 SAT 成績只能排倒數(shù) 10% 的水平，然而 GPT-4 模型可以超越 90% 考生的水平。如果僅以分數(shù)作為衡量，GPT-4 已經(jīng)差不多達到了美國頂尖名校的入學標準。

不僅如此，GPT-4 的語言能力同樣令人驚嘆。OpenAI 稱，在測試的 26 種語言中，GPT-4 在 24 種語言方面的表現(xiàn)均優(yōu)于 gpt-3.5 等其他大語言模型的英語語言性能。其中 GPT-4 的中文能夠達到 80.1% 的準確性，而 gpt-3.5 的英文準確性僅為 70.1%，GPT-4 英文準確性提高到了 85.5%。

在 API 方面，GPT-4 還開放了一個使用功能，允許修改 " 系統(tǒng)提示 "。通過修改系統(tǒng)提示，GPT-4 就可以展現(xiàn)出更多樣的性格，而不會像先前那樣一板一眼。

與此同時，OpenAI 正在開源其軟件框架 OpenAI Evals，用于創(chuàng)建和運行評估 GPT-4 等模型的基準，同時逐個樣本檢查其性能。用戶可以應用它來跟蹤不同模型版本（現(xiàn)在將定期推出）和不斷發(fā)展的產(chǎn)品集成的性能。

不足之處

大模型的發(fā)展趨勢，除了更好的性能表現(xiàn)外，關(guān)鍵的突破就是多模態(tài)，GPT-4 此次在多模態(tài)方面相比前代已經(jīng)進步了不少。然而，GPT-4 目前只能輸入圖片內(nèi)容，但是輸出的仍是文字。圖片、視頻等跨模態(tài)的生成形式，GPT-4 尚不具備。

而且，與前一代一樣，GPT-4 是基于 2021 年 9 月之前的數(shù)據(jù)訓練的，所以 GPT-4 對于 2021 年 9 月之后發(fā)生的事件仍然缺乏有效理解，也不會從其經(jīng)驗中進行學習。OpenAI 表示："GPT-4 仍有許多已知的局限性，我們正在努力解決，例如社會偏見、幻覺和對抗性提示。"

OpenAI 承認，GPT-4 與早期的 GPT 模型具有相似的局限性，它仍然不完全可靠，可能會存在推理錯誤。不過 GPT-4 相對于以前的模型已經(jīng)有比較顯著的改善了。OpenAI 對不同模型進行了內(nèi)部對抗性真實性測試，具體來看，進行了涵蓋學習、技術(shù)、寫作、歷史、數(shù)學、可惜等九類測試，準確度為 1.0 意味著模型的答案被判斷為與人類理想回答一致。

目前，GPT-4 沒有免費版本，僅向月訂閱費 20 美元的 ChatGPT Plus 用戶及企業(yè)和開發(fā)者開放。ChatGPT Plus 用戶將獲得有使用上限的 GPT-4 權(quán)限。OpenAI 將根據(jù)實際需求和系統(tǒng)性能調(diào)整確切的使用上限，但預計容量將受到嚴重限制。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

刷題成績達哈佛標準，GPT-4 要讓谷歌工程師熬夜了

數(shù)獨大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數(shù)有氧達人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓練成績評定2018-06-03