Andrej Karpathy這位AI target=_blank class=infotextkey>OpenAI聯(lián)合創(chuàng)始人最近在一個開發(fā)者活動上發(fā)表簡短講話,談論了自己和OpenAI內部對AI Agents (人工智能代理人)的看法。
Andrej Karpathy 對比了過去開發(fā)AI Agent的困難和現(xiàn)在新技術工具下開發(fā)的新機會,他還不忘調侃自己在特斯拉的工作,是“被自動駕駛分了心”,他認為自動駕駛和VR都是糟糕的AI Agents的例子。
對于新的機會,Andrej Karpathy認為此刻正是再次回歸神經(jīng)科學,從中尋求靈感的時刻——正像在深度學習早期發(fā)生的那樣。
另一方面,Andrej Karpathy認為普通人、創(chuàng)業(yè)者和極客在構建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢,大家目前處于平等競爭的狀態(tài),因此他很期待看到這方面的成果。
他還透露,如果一篇論文提出了某種不同的訓練方法,OpenAI內部的Slack上會嗤之以鼻,認為都是他們玩剩下的。但是當新的AI Agents論文出來的時候,他們會認真興奮的討論。
以下是此次分享全文:
大家好。
我受邀就AI Agents 的話題說一些激勵的話。我認為AI Agents在某種程度上跟我是很近的關系,讓我以一個故事開始,這是一個非常早期的OpenAI的故事,那時OpenAI可能只有十幾個人,在2016年左右,當時的潮流實際上是RL Agents(強化學習代理人)。
每個人都對建立代理人非常感興趣,但在當時主要是基于游戲,人們的興奮點圍繞著像 Atari這樣的游戲公司,而我當時在OpenAI的項目試圖將RL Agents的重點放在用鍵盤和鼠標使用電腦上,而不是游戲。
我想讓它們變得更有用,可以做很多工作,這個項目被稱之為World of Bits。
我和幾位同事最后發(fā)表了一篇論文。這不是一篇非常驚艷的論文,因為實際上這是基于RL強化學習方法的。我們的網(wǎng)頁非常簡單,上面可以讓人比如預定一個航班或者訂購一些食物等等。
這一切顯然是行不通的,因為技術還沒有準備好,在那時做這些東西是不明智的。
事實證明,應該完全忘記AI Agents這件事,去做語言模型。
五年之后我們回到這里,期間我被自動駕駛分了一點心,但現(xiàn)在AI Agents重新酷了起來,而我們的工具箱完全不一樣了,我們處理這些問題的方式也完全不同了。
事實上,你們所有人都在研究AI Agents,但你們可能沒有使用任何強化學習方法。這太瘋狂了,我不認為我們當時會預見到這一點。這簡直太有趣了。
下面我花一點時間談談為什么AI Agents如此火爆。我想很明顯,對很多人來說,AGI(通用人工智能)將充分利用AI Agents的能力,不是一個,而是很多個。也許將會出現(xiàn)數(shù)字實體的組織或文明,我認為這是非常鼓舞人心的,甚至有點瘋狂。
不過,我也想為此潑點冷水。 我認為有一大類問題很容易想象,很容易構建、演示,但實際上很難制作稱為產(chǎn)品。很多事情都屬于這一類,比如我想自動駕駛就是一個例子。
自動駕駛很容易想象,也很容易構建汽車繞街區(qū)行駛的演示,但將其變成產(chǎn)品需要十年時間。同樣的道理,我覺得VR也是如此,讓它發(fā)揮作用需要十年時間。
我認為AI Agents某種程度上也是如此。很容易想象它的場景,非常激發(fā)人的興奮感,但我認為如果你參與其中,你應該投入十年時間來讓它真正發(fā)揮作用。
我想說的另一件事是,我認為現(xiàn)在回到神經(jīng)科學并在某些方面再次從中獲得靈感是很有趣的,深度學習的早期階段就受到了神經(jīng)科學的啟發(fā)。
思考它們之間的關系是非常有趣的,特別是我認為很多人都把語言模型當作解決方案的一部分,但如何構建一個完整的,擁有人類所有認知能力的數(shù)字實體呢?
顯然,我們都認為我們需要某種潛在的系統(tǒng)來規(guī)劃、思考和反思我們正在做的事情,這是神經(jīng)科學發(fā)揮作用的地方。
比如,海馬體是非常重要的,AI Agents中什么東西發(fā)揮著海馬體的作用,用來實現(xiàn)儲存記憶,標記檢索等等這些功能?
我們大致已經(jīng)了解如何構建視覺和聽覺皮層,但還有許多的東西我們并不知道在AI Agents中意味著什么。
比如視覺游戲在AI Agents中是什么樣子的?潛意識的所在地——丘腦在AI Agents中又相當于什么呢?
這非常有趣。事實上我今天帶了一本神經(jīng)科學的書,David Eagleman的《大腦與行為》,我發(fā)現(xiàn)這本書非常有趣和有啟發(fā)性。
從神經(jīng)科學中汲取一些有趣的靈感,就像早期我們設計單個神經(jīng)元時所做的那樣,今天我們也許應該再次這樣做。
最后我想用一些鼓勵的話結尾。一個有趣但不明顯的事情是,你們(指現(xiàn)場觀眾)構建的AI Agents實際上處于當代AI Agents能力的最前沿,所有的大型LLM機構比如OpenAI、DeFi等,我懷疑他們都沒有處于最前沿。
你們正處于最前沿。
舉個例子,OpenAI 非常擅長訓練 Transformer 大語言模型。如果一篇論文提出了某種不同的訓練方法,那么我們OpenAI內部的Slack群組里的討論會類似于,哦是的,有人在兩年半嘗試過,它不起作用,我們對這種方法的來龍去脈非常了解。
但是當新的AI Agents論文出來的時候,我們都非常感興趣,覺得它非常酷,因為我們的團隊并沒有花費五年時間在這上面,我們并不比你們更多掌握什么,我們正在與你們所有人一起競爭。
這就是我為什么認為你們處于AI Agents能力的最前沿的原因,這對AI Agents的發(fā)展來說是非常重要的。