OpenAI發(fā)布GPT-4
北京時(shí)間3月15日消息,美國(guó)人工智能研究實(shí)驗(yàn)室OpenAI周二為其爆紅聊天機(jī)器人ChatGPT發(fā)布了最新GPT-4語(yǔ)言模型,這距離ChatGPT的上線僅僅過(guò)去了4個(gè)月時(shí)間。
外媒稱,和ChatGPT最初使用的GPT-3.5模型相比,GPT-4帶來(lái)十大變化,在提升了準(zhǔn)確率等功能的同時(shí)依舊存在錯(cuò)誤、“幻覺(jué)”等不足。
以下是外媒匯總的GPT-4主要改進(jìn)和不足:
更精確
人工智能專家、風(fēng)險(xiǎn)投資公司Page One Ventures合伙人克里斯·尼克爾森(Chris Nicholson)告訴GPT-4,自己的母語(yǔ)是英語(yǔ),不懂西班牙語(yǔ)。他希望GPT-4給他一份可以教他西班牙基礎(chǔ)知識(shí)的教學(xué)大綱。結(jié)果,GPT-4提供了一份詳細(xì)而有條理的教學(xué)大綱。它甚至為學(xué)習(xí)和記憶西班牙語(yǔ)單詞提供了廣泛的技巧,盡管并不是所有建議都中肯。
準(zhǔn)確性提高
GPT-4比GPT-3.5更準(zhǔn)確
它還提高了準(zhǔn)確性。當(dāng)人工智能研究員兼教授奧倫·埃齊奧尼(Oren Etzioni)第一次嘗試使用GPT-4時(shí),他問(wèn)了一個(gè)直截了當(dāng)?shù)膯?wèn)題:“奧倫·埃齊奧尼和伊萊·埃齊奧尼(Eli Etzioni)之間是什么關(guān)系?”機(jī)器人的反應(yīng)是正確的,稱兩人是父子關(guān)系。相比之下,GPT-3.5的回答則是錯(cuò)誤的,稱他們兩人是兄弟關(guān)系。但是,GPT-4也存在錯(cuò)誤。它說(shuō),奧倫是奧倫人工智能研究所的CEO,但實(shí)際上奧倫已經(jīng)卸任了這一職位。
更詳細(xì)地描述圖像
能詳細(xì)描述圖像
GPT-4能夠?qū)D像和文本做出驚人的詳細(xì)描述。OpenAI總裁兼聯(lián)合創(chuàng)始人格雷格·布羅克曼(Greg Brockman)演示了該系統(tǒng)如何細(xì)致地描述來(lái)自哈勃太空望遠(yuǎn)鏡的圖像。它還可以回答有關(guān)圖像的問(wèn)題。如果給出一張冰箱內(nèi)部的照片,它就能建議你用手邊的東西做幾頓飯。
更專業(yè)
北卡羅來(lái)納大學(xué)教堂山分校的醫(yī)學(xué)副教授兼心臟病專家阿尼爾·蓋希(Anil Gehi)向GPT-4描述了他一天前看過(guò)的一位病人的病史,包括這位病人入院后經(jīng)歷的并發(fā)癥,描述中包含了幾個(gè)外行不懂的醫(yī)學(xué)術(shù)語(yǔ)。當(dāng)蓋希醫(yī)生問(wèn)機(jī)器人詢問(wèn)他該如何治療病人時(shí),GPT-4給了一個(gè)他完美的答案。“這正是我們對(duì)待病人的方式。”他說(shuō)。不過(guò),這種知識(shí)不太可能在每次使用機(jī)器人時(shí)都展示出來(lái)。它仍然需要像蓋希這樣的專家來(lái)判斷它的反應(yīng)并執(zhí)行醫(yī)療程序。但它可以在從計(jì)算機(jī)編程到會(huì)計(jì)在內(nèi)的許多領(lǐng)域展示這種專業(yè)知識(shí)。
要搶編輯飯碗
當(dāng)被給出一篇來(lái)自《紐約時(shí)報(bào)》的文章時(shí),這個(gè)新的聊天機(jī)器人幾乎每次都能給出精確而準(zhǔn)確的故事摘要。如果你在摘要中添加了一個(gè)隨機(jī)的句子,并詢問(wèn)機(jī)器人摘要是否不準(zhǔn)確,它就會(huì)指向被添加的句子。埃齊奧尼博士稱,這是一項(xiàng)非凡的技能,“要做高質(zhì)量的摘要和高質(zhì)量的比較,它必須對(duì)文本有一定程度的理解,并能夠清楚地表達(dá)這種理解。這是一種高級(jí)形式的智能”。
越來(lái)越幽默
埃齊奧尼博士要求新機(jī)器人“講一個(gè)關(guān)于歌手麥當(dāng)娜的新笑話”,后者的回答給他留下了深刻的印象,也讓他笑了。機(jī)器人講的笑話是:“麥當(dāng)娜為什么學(xué)習(xí)幾何?因?yàn)樗雽W(xué)習(xí)如何在各個(gè)角度擺造型!”
擅長(zhǎng)標(biāo)準(zhǔn)化考試
OpenAI表示,新系統(tǒng)可以在美國(guó)41個(gè)州和地區(qū)的統(tǒng)一律師資格考試(UBE)中獲得前10%左右的成績(jī)。 根據(jù)該公司的測(cè)試,它還可以在SAT考試中獲得1300分(滿分1600分),在高中生參加的大學(xué)生物、微積分、宏觀經(jīng)濟(jì)學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)和歷史先修課程考試中獲得5分(滿分5分)。
推理能力下降
GPT-4推理能力不如GPT-3.5
埃齊奧尼博士給GPT-4出了一個(gè)難題,“想象一個(gè)無(wú)限寬的門口。哪個(gè)更有可能通過(guò)它,軍用坦克還是汽車?”GPT-4似乎做出了適當(dāng)?shù)姆磻?yīng),但是給出的答案沒(méi)有考慮到門口的高度,因?yàn)殚T口的高度可能會(huì)阻止坦克或汽車通過(guò),這一點(diǎn)不如GPT-3.5。OpenAI CEO薩姆·阿爾特曼(Sam Altman)表示,這款新機(jī)器人可能會(huì)“一點(diǎn)點(diǎn)”推理,但它的推理能力在很多情況下都失靈了。以前版本的ChatGPT處理這個(gè)問(wèn)題稍微好一點(diǎn),因?yàn)樗J(rèn)識(shí)到高度和寬度的重要性。
不擅長(zhǎng)討論未來(lái)
盡管這個(gè)新的機(jī)器人似乎能對(duì)已經(jīng)發(fā)生的事情進(jìn)行推理,但當(dāng)被要求對(duì)未來(lái)進(jìn)行假設(shè)時(shí),它就不那么擅長(zhǎng)了。它似乎是在借鑒別人的說(shuō)法,而不是創(chuàng)造新的猜測(cè)。
仍會(huì)產(chǎn)生幻覺(jué)
新的機(jī)器人還是會(huì)瞎編。這個(gè)問(wèn)題被稱為人工智能“幻覺(jué)”,困擾著所有領(lǐng)先的聊天機(jī)器人。由于系統(tǒng)不知道什么是真的,什么是假的,它們可能會(huì)生成完全錯(cuò)誤的文本。當(dāng)被要求提供描述最新癌癥研究的網(wǎng)站地址時(shí),它有時(shí)會(huì)生成不存在的互聯(lián)網(wǎng)地址。
【來(lái)源:鳳凰網(wǎng)科技】