google最強大的大模型Gemini發(fā)布了,陸續(xù)讀了技術(shù)報告和一些評測/分析,周末記錄和分享一下:
一、幾點值得Mark的筆記
- Gemini Ultra的得分為90.0%,是第一個在MMLU(大規(guī)模多任務(wù)語言理解)上超過人類專家的模型,類似于高考。國內(nèi)外也有類似的評測基準。
比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。
2. 此次Google對Gemini宣傳突出的最大亮點——多模態(tài)。“Gemini設(shè)計成原生的多模態(tài),從一開始就在不同的模態(tài)上進行預(yù)訓(xùn)練。助于Gemini從頭開始無縫地理解和推理各種輸入,遠遠優(yōu)于現(xiàn)有的多模態(tài)模型——其能力在幾乎每個領(lǐng)域都是最先進的。”
遵循 next token prediction 的方式,Gemini 把多模態(tài)數(shù)據(jù)從頭訓(xùn)練,包括文本、圖片、音頻、視頻等,所有模態(tài)數(shù)據(jù)轉(zhuǎn)換為 token,最后變成一維線性輸入(不同的模態(tài)按照顏色順序標記),讓模型預(yù)測 next token。
3. Google一口氣發(fā)布了三個規(guī)格的模型:Ultra是最大的,對標GPT4和4V、還沒有開放(12月13日開放API)。Pro對標GPT3.5,在美區(qū)Bard上可以用(我試了下我的Bard,還是之前的LaMDA)。Nano是小模型,在谷歌的Pixel 8手機上可以用。
4. 技術(shù)報告中,Google強調(diào)了算力優(yōu)勢:“我們宣布迄今為止最強大、高效和可擴展的TPU系統(tǒng)——Cloud TPU v5p ,旨在訓(xùn)練尖端的人工智能模型。”
翻譯成大白話,就是:微軟/AI target=_blank class=infotextkey>OpenAI/Anthropic這些公司,利潤(據(jù)說70%)都被Nvidia吃了,我的利潤還是自己的。(其實微軟和OpenAI也在嘗試自己做芯片,只是進度慢于Google。)
5. Gemini語音識別在主要語種上有大幅提升(Bleu值比OpenAI的Wisper 2高10個點,但在其他語種上Wisper更強。機器翻譯能力在WMT2023的測試集上評測的結(jié)果,也比GPT4略高)。
二、一個簡單的評測
沒用視頻,用這張圖試了下一些有多模態(tài)能力的模型。方法是:上傳這張圖,然后問:從設(shè)計上看,圖中哪個車會跑得更快?
百度文心4.0:
智譜清言:
ChatGPT的GPT4:
Google Bard(還不是Gemini Pro):
不多評論,不過四個同學都挺有意思~
三、幾點想法
1. 關(guān)于多模態(tài):實時處理聲音、視頻流、真實世界交互,意味著具身智能的一大步。可以實時接收信息并實時處理任務(wù),更像人類的生活場景了。Google坐擁全球最大的視頻網(wǎng)站YouTube,訓(xùn)練多模態(tài)模型條件優(yōu)越。而且最近大火的文生圖Midjourney和文生視頻Runway/Pika,證明了多模態(tài)在商業(yè)上的潛力。
不過,從智能的角度說,多模態(tài)被神化了。相比于文本語言模型,多模態(tài)模型從智能上來說提升并不大,模型在理解、推理、創(chuàng)造方面并沒有顯著的提升。除了視頻的訓(xùn)練難度,我猜想,我們低估了文本。Rust創(chuàng)始人Graydon Hoare說過:“所有的文學和詩歌、歷史和哲學、數(shù)學、邏輯、編程和工程都依靠文本編碼來表達它們的想法,這不是一個巧合”。
文本確實保存了人類智慧的精華,古今中外的智慧、對世界萬物的認知和發(fā)現(xiàn),自有人類文字記載以來,幾乎都存到文本中。
一方面,GPT只是一個讀了萬卷書的“書呆子”,卻已經(jīng)能具備強大的常識、理解、推理和創(chuàng)造力,頗有點“不出戶,知天下;不窺牖,見天道“的味道。另一方面,大自然這本書,到底怎么讀?這似乎是一個巨大的問題。從真實世界學習知識,就像行萬里路相比于讀萬卷書,低效太多。
2. Gemini沒有現(xiàn)場演示,網(wǎng)傳一些復(fù)現(xiàn)視頻和Demo視頻不符,有夸大宣傳嫌疑。不過,從Bard不斷縮小和ChatGPT差距的事實,以及Google綜合能力判斷,Gemini Ultra能力不會和宣傳的出入太大。
Gemini這一仗奠定了AI領(lǐng)域的雙子星格局,我們都低估了Google的隱忍。
從競爭格局看,無論是Meta的開源Llama2,還是主打安全的Anthropic、馬斯克的X.ai,目前的差距都拉大了。
3. Google的優(yōu)勢有這些:
組織方面,今年年初DeepMind和Google Brain的合并,解決了力量分散和認知不統(tǒng)一的問題,化劣勢為優(yōu)勢。
人才方面,領(lǐng)軍人物是AlphaGo的推動者,對AGI理解深刻的Demi Hassabis,首席科學家是工程師傳說級人物Jeff Dean。人數(shù)方面,技術(shù)報告作者欄的人數(shù)好幾頁,已將近千人。已經(jīng)比OpenAI的人數(shù)多(七百多人)。
算力/算法/工程方面:算力上谷歌不像微軟和OpenAI高度依賴英偉達,有Cloud TPU v5p。算法上,谷歌是Transformer的發(fā)明者,是一直以來算法的領(lǐng)頭羊;還有搜索業(yè)務(wù)本身積累的底層算法和工程能力。
生態(tài)方面,Google C端強于微軟,微軟除了云主要是window/office,而Google擁有幾乎微軟+蘋果的C端能力。另外,模型層和應(yīng)用層都在一個體系下,動作應(yīng)該比OpenAI和微軟的聯(lián)盟快。
4. 當然,OpenAI的優(yōu)勢至少也還有這些:
GPT4是3月就發(fā)布的,時間上領(lǐng)先了Gemini Ultra 9個月,過幾個月是否會發(fā)布GPT5?
ChatGPT的是一個Killer App,緊隨其后的GPT4發(fā)布,OpenAI占領(lǐng)了用戶心智,GPT也幾乎成了大模型的代名詞。
全球一億多用戶形成的用戶反饋和數(shù)據(jù)飛輪,大規(guī)模的落地已經(jīng)鋪開。
微軟快得不像大公司的Copilot和Azure云滲透,OpenAI的創(chuàng)業(yè)心態(tài),關(guān)于GPTs和GPT store的生態(tài)野望,都是厚實的肌肉。
5. 被神話的多模態(tài)前景,被低估的Google的隱忍,被加速的AI進程,被喧囂淹沒的AI風險提醒。
這可能是我們——依然處于早期矇昧的人類,在取得亙古未有的生產(chǎn)力躍遷前的徘徊,也有可能是文明充分發(fā)育后,在被硅基超越的懸崖邊緣的試探。
不管怎么樣,這注定是一段風起云涌,激蕩數(shù)年,值得觀察和記錄的人類歷史。