圖片來源:由無界 AI生成
昨晚 11 點,google 發(fā)布原生多模態(tài)大模型 Gemini,最強 Ultra 模型達到 GPT-4 水平,多模態(tài)能力超過 GPT-4V。這是我們在 OpenAI 發(fā)布一年內(nèi)第一次看到有可以比肩 GPT 的模型。Google 來了,帶著更強的用戶積累和產(chǎn)品生態(tài)。本文帶來 Gemini 的介紹、 Google 與 OpenAI 的對比思考。
OpenAI 用戶是否會轉(zhuǎn)向谷歌?短期 OpenAI 仍具優(yōu)勢,長期來看谷歌具備的海量用戶和產(chǎn)品生態(tài)將會成為強大勢能。相比 OpenAI,谷歌積累了海量的 PC 和手機端用戶,擁有海量實時數(shù)據(jù)(而 OpenAI 的數(shù)據(jù)依賴互聯(lián)網(wǎng),包括谷歌),并通過在用戶手機集成 GPT 提供如地鐵導(dǎo)航方面而擁有大量用戶信息。下一步,谷歌需要驗證其在搜索引擎以外,在日常應(yīng)用中提供的強大 Copilot 體驗。壓力給到了 OpenAI,補齊產(chǎn)品生態(tài)。
一個背景:
OpenAI 的月用戶數(shù)從 5 月開始下降,10 月出現(xiàn)回升達到 17 億。對比 Google 的搜索引擎 Bard 的用戶數(shù)在 2.6 億。在這次 Google 推出 Gemini 并集成到 Bard 之后,我們會繼續(xù)跟進 Bard 的后續(xù)。
每一次技術(shù)變革都是推動科學(xué)發(fā)現(xiàn)、加速人類進步和改善生活的機會。我相信,我們目前正在經(jīng)歷的人工智能轉(zhuǎn)型,將是我們一生中最深刻的變革,遠(yuǎn)超過此前的移動轉(zhuǎn)型或網(wǎng)絡(luò)轉(zhuǎn)型。人工智能具有創(chuàng)造機會的潛力——從日常到非凡——面向全球各地的人們。它將帶來創(chuàng)新和經(jīng)濟進步的新浪潮,并在我們之前未曾見過的規(guī)模上推動知識、學(xué)習(xí)、創(chuàng)造力和生產(chǎn)力。AI 產(chǎn)品分析—— Sundar Pichai,Google 和 Alphabet CEO
Gemini
Gemini 是包括 Google Research 在內(nèi)的 Google 各團隊間進行廣泛合作的成果。它從一開始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
Gemini 也是谷歌迄今為止最靈活的模型,從數(shù)據(jù)中心到移動設(shè)備,它能夠在所有設(shè)備上高效運行。其先進的功能將顯著改善開發(fā)者和企業(yè)客戶通過 AI 構(gòu)建和擴展的方式。
Ultra —規(guī)模最大且功能最強大的模型,適用于高度復(fù)雜的任務(wù)。
Pro — 適用于各種任務(wù)的最佳模型。
Nano — 端側(cè)設(shè)備上最高效的模型。
第一個版本 Gemini 1.0 針對不同尺寸進行了優(yōu)化,分別是:Ultra、Pro 和 Nano;可以解讀為Ultra 對標(biāo) GPT4,Pro 對標(biāo) GPT3.5 ,且 Ultra 不輸 GPT4,Pro 大幅超越 3.5。
目前只有 Gemini Pro 可以在 Bard 測試,但 Bard 目前還未進行實質(zhì)性更新,只提供文本處理能力,缺乏多模態(tài)功能,且還沒有提供API接口。因此,谷歌的演示視頻所展示的功能目前無法體驗。
01 性能
從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,在被大型語言模型(LLM)研究和開發(fā)中廣泛使用的 32 項學(xué)術(shù)基準(zhǔn)中,Gemini Ultra 的性能有 30 項都超過了目前最先進的水平。
Gemini Ultra 的得分率為 90.0%,是第一個在 MMLU(大規(guī)模多任務(wù)語言理解)測試中超過人類專家的模型,MMLU 綜合使用了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等 57 個科目,用于測試世界知識和解決問題的能力。
針對 MMLU,新的基準(zhǔn)測試方法讓 Gemini 能夠利用其推理能力在回答困難問題之前更加仔細(xì)地思考,從而比僅憑第一印象就直接回答問題有顯著的改善。
在新的 MMMU 基準(zhǔn)測試中,Gemini Ultra 也取得了得分率為 59.4% 的優(yōu)異成績,該基準(zhǔn)測試由橫跨不同領(lǐng)域、需要仔細(xì)推理的多模態(tài)任務(wù)組成。
谷歌在圖像基準(zhǔn)測試中,Gemini Ultra 在不使用對象字符識別 (OCR) 系統(tǒng)來提取圖像中的文本進行下一步處理的情況下,表現(xiàn)優(yōu)于以前最好的模型。這些基準(zhǔn)測試凸顯了 Gemini 的原生多模態(tài)性,并顯示出了 Gemini 具有更復(fù)雜推理能力的潛力。
02 能力
到目前為止,創(chuàng)建多模態(tài)模型的標(biāo)準(zhǔn)方法是分別訓(xùn)練不同模態(tài)的組件,然后將它們拼接在一起,以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務(wù),但在概念性更強、更復(fù)雜的推理方面卻顯得力不從心。
谷歌將 Gemini 設(shè)計為原生多模態(tài),從一開始就在不同模態(tài)上進行預(yù)訓(xùn)練。然后,谷歌利用額外的多模態(tài)數(shù)據(jù)對其進行微調(diào),以進一步提高其有效性。這有助于 Gemini 從最初階段就能對輸入的各種內(nèi)容順暢地進行理解和推理,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型,其能力幾乎各個領(lǐng)域都是最先進的
復(fù)雜的推理
- Gemini 1.0 具有復(fù)雜的多模態(tài)推理能力,可幫助理解復(fù)雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數(shù)據(jù)中發(fā)掘難以辨別的知識內(nèi)容。
- 它擁有通過閱讀、過濾以及理解信息,從數(shù)十萬份文件中提取見解的卓越能力,將有助于在從科學(xué)到金融等多個領(lǐng)域以數(shù)字化速度實現(xiàn)新的突破。
理解文本、圖像、音頻及更多
- Gemini 1.0 經(jīng)過訓(xùn)練,可以同時識別并理解文本、圖像、音頻等,因此它能更好地理解具有細(xì)微差別的信息,回答與復(fù)雜主題相關(guān)的問題。這就讓它尤其擅長解釋數(shù)學(xué)和物理等復(fù)雜科目中的推理。
高級編碼能力
谷歌的第一代 Gemini 可以理解、解釋和生成世界上最流行的編程語言(如 Python/ target=_blank class=infotextkey>Python、JAVA、C++ 和 Go)的高質(zhì)量代碼。它能夠跨語言工作并對復(fù)雜信息進行推理,這些能力使其成為世界領(lǐng)先的編碼基礎(chǔ)模型之一。
Gemini Ultra 在多個編碼基準(zhǔn)測試中表現(xiàn)出色,包括 HumanEval(用于評估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn))和 Natural2Code(谷歌內(nèi)部的留出數(shù)據(jù)集),該數(shù)據(jù)集使用作者生成的信息作為來源,而不是基于網(wǎng)絡(luò)的信息。
Gemini 還可用作更高級編碼系統(tǒng)的引擎。兩年前,谷歌展示了 AlphaCode,它是第一個在編程競賽中性能達到競賽水平的 AI 代碼生成系統(tǒng)。
谷歌利用一個專門版本的 Gemini,創(chuàng)建了更先進的代碼生成系統(tǒng) AlphaCode 2,該系統(tǒng)擅長解決那些不僅需要編碼能力而且也需要復(fù)雜數(shù)學(xué)和理論計算機科學(xué)知識的競賽性編程問題。
在與最初的 AlphaCode 在同一個平臺上進行評估時,AlphaCode 2 表現(xiàn)出了巨大的改進。它解決的問題數(shù)量幾乎是 AlphaCode 的兩倍,谷歌預(yù)計它的性能超過 85% 的參賽者,比 AlphaCode 高出將近 50%。當(dāng)程序員與 AlphaCode 2 合作,為示例代碼定義某些屬性時,它的表現(xiàn)甚至更好。
03 生態(tài)
Google 產(chǎn)品中的 Gemini Pro
谷歌通過 Google 的產(chǎn)品將 Gemini 帶給數(shù)十億人。 從今天開始,Bard 將使用 Gemini Pro 的微調(diào)版本來進行更高級的推理、規(guī)劃和理解等。這是 Bard 自推出以來最大的升級。它將在 170 多個國家和地區(qū)提供英語服務(wù),并且谷歌計劃在未來幾個月內(nèi)擴展不同的模態(tài),并支持新的語言和地區(qū)。
谷歌還在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭載 Gemini Nano 的智能手機,它可以支持錄音應(yīng)用中的“總結(jié)”等新功能,并在 Gboard 中推出“智能回復(fù)”功能,從 WhatsApp 開始,明年還將推出更多信息應(yīng)用。
未來幾個月,Gemini 將應(yīng)用于谷歌更多的產(chǎn)品和服務(wù),如 Search、Ads、Chrome 和 Duet AI。
谷歌已經(jīng)開始在 Search 中試驗 Gemini,它能夠為用戶提供更快的搜索生成體驗(SGE),用戶在美國的英語搜索延遲降低了 40%,同時在質(zhì)量方面也有所提高。
用 Gemini 打造產(chǎn)品
從 12 月 13 日開始,開發(fā)者和企業(yè)客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。
Google AI Studio 是一款基于網(wǎng)絡(luò)的免費開發(fā)者工具,可使用 API 密鑰快速創(chuàng)建原型并啟動應(yīng)用程序。當(dāng)需要一個完全托管的 AI 平臺時,Vertex AI 允許對 Gemini 進行定制,提供全面的數(shù)據(jù)控制,并受益于 Google Cloud 功能,實現(xiàn)企業(yè)安全性、保密性、隱私性以及數(shù)據(jù)治理和合規(guī)性。
Android 開發(fā)者還可以通過 AICore 使用谷歌端側(cè)任務(wù)最高效的模型 Gemini Nano。AICore 是 Android 14 中的一項新的系統(tǒng)功能,從 Pixel 8 Pro 設(shè)備開始支持。注冊獲得 AICore 預(yù)覽。
期待 Gemini Ultra
就 Gemini Ultra 而言,谷歌目前正在完成大規(guī)模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,并在其被廣泛使用前通過微調(diào)和人類反饋強化學(xué)習(xí)(RLHF)進一步完善模型。
在模型的完善過程中,谷歌將向部分客戶、開發(fā)者、合作伙伴以及安全和責(zé)任專家提供 Gemini Ultra,以供其進行早期試驗和提供反饋。隨后,在明年初谷歌將向開發(fā)者和企業(yè)客戶提供該模型。
明年年初,谷歌還將推出 Bard Advanced,這是一種全新的、前沿的 AI 體驗,讓用戶可以從 Gemini Ultra 開始使用谷歌最佳的模型和功能。
參考材料
https://blog.google/technology/ai/google-gemini-ai/