GPT-4和ChatGPT大比拼，究竟誰勝？-魔扣目錄

圖片來源@視覺中國

文 | 零點有數科技

作為人工智能史上里程碑事件之一的ChatGPT，自2022年11月30日發布至今，一直備受熱議。在ChatGPT熱潮尚未見減弱之勢，2023年3月14日，OpenAI公司繼續發布新一代AI語言大模型GPT-4，并官宣稱GPT-4是“OpenAI最先進的系統”“能夠產生更安全、更有用的響應”。

作為同一家公司推出的同屬人工智能技術驅動的自然語言處理工具（AI語言大模型），相比此前的ChatGPT，GPT-4到底有何先進之處？支持這些先進之處的底層邏輯是什么？點擊閱讀原文，領取零點有數專家的超萬字詳細解讀。

鑒于ChatGPT是基于GPT-3.5大模型微調形成的一個應用產品——AI聊天機器人，而GPT-4則是GPT-3.5的下一代大模型，本文將從兩個層面來比較：一是從基礎模型層面，比較GPT-4與GPT-3.5（作為底層邏輯）；二是從應用能力層面，比較GPT-4與ChatGPT（作為先進之處）。

01 GPT-4與GPT3.5

GPT-4是OpenAI公司自2018年6月發布GPT-1以來，并歷經GPT-2、GPT-3、GPT-3.5之后的最新一代AI自然語言大模型(參見下表1)。

從歷代沿革來看，原理基本相同。第一，都是采用一種稱之為“自回歸生成”的關聯統計方法；第二，都是首先采用無監督學習預訓練出一個基礎通用模型，然后再通過監督學習進行微調適配各種任務，最后采用“從人類反饋中強化學習”的強化學習方法，使得模型能像人類一樣進行對話交流；第三，都是基于一種稱之為“Transformer”的算法框架。即都是“GPT”(生成式預訓練轉換器，或稱生成式預訓練大模型)。

然而不同的是，演變的變量主要關乎模型的規模（即參數個數）、預訓練的數據量、對輸入信息的支持能力（是否是多模態、是否是長信息）、模型功能（是否有多種能力）以及模型性能、應用安全和可靠性等方面。

具體對比如下：

1、模型規模。相較于GPT-3.5的1750億個參數，GPT-4的參數達到了5000億個（也有報道為1萬億），GPT-4的規模比GPT-3.5更大。更大的規模通常意味著更好的性能，能夠生成更復雜、更準確的語言。

2、訓練數據。GPT-3.5使用了來自維基百科、新聞報道、網站文章等互聯網上的大量文本數據，大小為45TB左右。而GPT-4則使用了更大量的網頁、書籍、論文、程序代碼等文本數據，同時還使用了大量的可視數據。盡管無法考究具體數值，但毫無疑問，GPT-4的訓練數據比GPT-3.5更豐富。這使得GPT-4具備更廣泛的知識，回答也更具針對性。

表1 OpenAI歷代GPT模型參數與預訓練數據量對比

3、模態與信息。GPT-3.5是基于文本的單模態模型，無論是圖像、文本、音頻，用戶只能輸入一種文本類型的信息。而GPT-4是一個多模態模型,可以接受文本和圖像的提示語（包括帶有文字和照片的文件、圖表或屏幕截圖）。這使得GPT-4可以結合兩類信息生成更準確的描述。在輸入信息長度方面，與GPT-3.5限制3000個字相比，GPT-4將文字輸入限制提升至2.5萬字。文字輸入長度限制的增加，也大大擴展了GPT-4的實用性。例如可以把近50頁的書籍輸入GPT-4從而生成一個總結概要，直接把1萬字的程序文檔輸入給GPT-4就可直接讓它給修改Bug。

4、模型功能。GPT-3.5主要用于文字回答和劇本寫作。而GPT-4，除文字回答和劇本寫作外，還具有看圖作答、數據推理、分析圖表、總結概要和角色扮演等更多功能。

5、模型性能。雖然GPT-3.5已經表現出很強大的性能，但GPT-4在處理更復雜的問題方面表現得更好。例如，在多種專業和學術基準方面，GPT-4表現出近似人類水平；在模擬律師考試方面，GPT-4可以進入應試者前10%左右，而GPT-3.5則在應試者倒數10%左右；在USABO Semifinal Exam 2020（美國生物奧林匹克競賽）、GRE口語等多項測試項目中，GPT-4也取得了接近滿分的成績，幾乎接近了人類水平。參見如下圖1。

圖1 GPT-4各項考試結果（按GPT-3.5性能排序）（數據來源：https://openai.com/research/gpt-4）

6、安全性和可靠性。GPT-4改進了對抗生成有毒或不真實內容的策略，以減少誤導性信息和惡意用途的風險，提高其安全性和可靠性。特別地，GPT-4在事實性、可引導性和拒絕超范圍解答（非合規）問題方面取得了有史以來最好的結果（盡管它還不夠完美）。與GPT-3.5相比，在生成的內容符合事實測試方面，GPT-4的得分比GPT-3.5高40%，對敏感請求（如醫療建議和自我傷害）的響應符合政策的頻率提高29%，對不允許內容的請求響應傾向降低82%。

總體來說，GPT-4比GPT-3.5更可靠，更有創造力，能夠處理更細微的指令。參見表2。

表2 從GPT-3.5到GPT-4的新變化

02 GPT-4與ChatGPT

ChatGPT是基于GPT-3.5的AI聊天機器人。但在對話方面，GPT-4已表現出更好的連貫性和語境理解能力：不僅可以生成流暢、準確和有邏輯的文本，還可以理解和回答各種類型的問題，甚至還可以與用戶進行創造性和技術性的寫作任務。其中，比較突出的應用能力體現如下。

1、新增的圖片辨識和分析能力。與ChatGPT相比，GPT-4除了可以支持文字輸入以外，還新增了圖片辨識和分析功能，即能辨識圖片（輸出對圖片的內容描述）、分析圖表（類似Excel中的圖表分析）、發現圖片中的不常之處（對圖片中異常現象進行辨識）、閱讀文件并總結概要（如對PDF文件內容進行歸納總結）等。甚至只需要在紙上畫一個網站的草稿圖，拍一張照片上傳給GPT-4，模型便可生成網站代碼。

2、更先進的推理能力。相比ChatGPT只能在一定程度上進行簡單和直接的推理，GPT-4可以進行復雜和抽象的思考，能解決更復雜的問題。如前所述，GPT-4在多個專業和學術領域都已表現出人類的水平，如美國的律師考試已經達到了前10%的標準，法學院的入學考試也達到了88%的成績，SAT大學入學考試也達到了90%的成績。特別是ChatGPT不擅長的數學解題能力，GPT-4有了大幅提升，在美國高校入學考試SAT數學考試中，獲得了800分中的700分。

3、更高水平的創造力和協作性。與ChatGPT只能在一定范圍內進行有限的創造和協作不同，GPT-4可以與用戶進行創造性和技術性的寫作任務，例如創作歌曲、編寫劇本或者學習用戶的風格和偏好，還可以生成、編輯和迭代各種類型和風格的文本，并且能夠根據用戶的反饋和建議來改進其輸出。

4、更廣泛的應用前景。GPT-4憑借接近人類水平的語言理解和生成能力以及其他方面的優勢，可在各種領域和場合中發揮重要作用。例如，GPT-4可以作為一個智能助理、教育工具、娛樂伙伴和研究助手，為office辦公軟件、搜索引擎、虛擬導師應用等提供使能。據公開資料報道，微軟已將GPT-4接入Office套件從而推出全新的AI功能Copilot，也已將GPT-4接入Bing以提供定制化搜索服務；摩根士丹利正在應用GPT-4進行財富管理部市場信息的分類和檢索；Doulingo將使用GPT-4進行角色扮演以增進語言的學習；BeMyEyes正在運用GPT-4將視覺型圖片轉成文字幫助盲人理解；可汗學院也已使用GPT-4作為虛擬導師Khanmigo……等等。

可以預見，GPT-4將會接入越來越多的行業，從而促進社會生產力和創造力的提升，為人類帶來便利和價值。與此同時，伴隨著GPT-4的應用拓展和深入，GPT-4將從人類反饋中進行更多、更快的學習，其模型迭代升級的速度也將隨之加快，更多的功能、更強的性能將會呈驚現于世。

03 共同的問題

如前所述，GPT-4和ChatGPT同屬生成式AI自然語言大模型。所謂生成式，簡而言之就是根據輸入的單詞來預測下一個最有可能出現的關聯性單詞，然后將這個最有可能出現的單詞輸入模型，再預測下一個最有可能出現的關聯性單詞……，類似“單詞接龍”，如此接續。通過對大量現存的各種人類語料進行“訓練”，讓模型的各個參數不斷調整，使得模型的“單詞接龍”水平不斷接近人類語料的真實情況，即讓模型學到規律。由此，GPT-4和ChatGPT均會存在由于生成式本身的短板所導致的一系列問題。

例如：如果真實語料中本身存在大量虛假信息，或者存在大量有毒信息（如充滿種族、性別、宗教、政治等偏見或惡意），而這些信息恰好被模型學到了，這無疑會導致模型存在產生有害內容的風險；如果出現了實際不同但碰巧符合同一規律的內容，模型有可能無法區分其真實性，最直接的結果是，若現實中不存在的內容剛好符合模型從訓練材料中學到的規律，模型就有可能對不存在的內容進行“合乎規律的混合捏造”，即產生虛假信息；由于模型缺乏可解釋性，而我們又無法直接查看模型到底記住了什么、學到了什么，只能通過多次提問來評估和猜測它的所記所學，這會導致隱私泄露風險（據BBC 3月23日報道，有用戶在社交媒體上看到了其他人使用ChatGPT的歷史搜索記錄標題）；基于“從人類反饋中強化學習”，難以避免從惡意的誘導中學到了不該學的規律，這會給意識形態侵襲、網絡安全帶來沖擊……。總之，伴隨著應用越廣泛、越深入，GPT-4和ChatGPT都將面臨更多的安全與風險挑戰。

正如OpenAI公司的創始人兼首席執行官Sam Altman最近接受ABC新聞采訪時表示，他對人工智能技術以及它如何影響勞動力、選舉和虛假信息的傳播有些“害怕”。他也警告說，人工智能的廣泛使用可能會帶來負面影響，這需要政府和社會共同參與監管，他呼吁反饋和規則對抑制人工智能的負面影響非常關鍵。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

GPT-4和ChatGPT大比拼，究竟誰勝？

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03