特斯拉近日正式發(fā)布了其“完全自動駕駛”軟件的最新版本FSD V13.2,并已完成首批用戶的交付。此次更新帶來了多項新功能,包括停車啟動、自動換擋以及目的地自動泊車等。特斯拉自動駕駛工程師Arek Sredzki強調(diào),新版本中的端到端網(wǎng)絡(luò)已經(jīng)能夠?qū)崿F(xiàn)從一個停車位到另一個停車位的全程自動駕駛(P2P)。
特斯拉FSD的每一次重要更新,總能引起行業(yè)內(nèi)各大智能駕駛玩家的密切關(guān)注。今年年初,特斯拉推送了FSD V12的測試版本,將城市街道駕駛的軟件棧升級為單一的端到端神經(jīng)網(wǎng)絡(luò)。這一變革不僅在美國本土引發(fā)了熱議,也遠(yuǎn)隔重洋,在中國掀起了一股端到端技術(shù)的熱潮。
當(dāng)前,眾多致力于在自動駕駛領(lǐng)域取得領(lǐng)先地位的汽車制造商和智能駕駛供應(yīng)商,開始將端到端技術(shù)作為宣傳的重點。2024年,多家車企或智能駕駛供應(yīng)商聲稱已進(jìn)入“智駕第一梯隊”,無論其技術(shù)和產(chǎn)品能力如何,端到端都成為了不可或缺的一個關(guān)鍵詞。
端到端技術(shù)究竟有何魅力?又存在哪些潛在問題?其與傳統(tǒng)自動駕駛算法的主要區(qū)別在于系統(tǒng)架構(gòu)和數(shù)據(jù)處理方式。傳統(tǒng)算法通常采用模塊化部署,將感知、預(yù)測、規(guī)劃和控制等功能劃分為獨立模塊,雖然結(jié)構(gòu)清晰,但存在誤差累積和信息丟失的問題。而端到端架構(gòu)則通過統(tǒng)一的神經(jīng)網(wǎng)絡(luò)模型,直接從傳感器數(shù)據(jù)映射到車輛控制指令,簡化了系統(tǒng)結(jié)構(gòu),提高了整體性和穩(wěn)定性。
用比喻來說,傳統(tǒng)自動駕駛算法就像是制作蛋糕的分步驟過程,每一步都由專門的廚師負(fù)責(zé),而端到端則像是一個特級大廚,從準(zhǔn)備原料到蛋糕出爐全程掌控。這種方式能夠更好地協(xié)調(diào)整個過程,減少錯誤,并快速學(xué)習(xí)和調(diào)整。
然而,在實踐過程中,行業(yè)內(nèi)部出現(xiàn)了兩種路徑選擇:一體化端到端(One Model)和分段式端到端。一體化方案從感知到預(yù)測規(guī)劃無縫銜接,確保信息完整傳遞,但一旦出現(xiàn)問題,整個系統(tǒng)難以精確調(diào)試。分段式方案則將感知和決策規(guī)劃分開,并在中間嵌入人工接口,以實現(xiàn)更靈活和可擴(kuò)展的系統(tǒng)設(shè)計。
黑芝麻智能采用了One Model架構(gòu)的端到端智能駕駛系統(tǒng),能夠輸入攝像頭、激光雷達(dá)、4D毫米波雷達(dá)、導(dǎo)航地圖等信息,直接輸出駕駛決策所需的預(yù)期軌跡。而Momenta則在去年實現(xiàn)了兩段式端到端,今年上半年又進(jìn)一步實現(xiàn)了一段式端到端。
為了進(jìn)一步提升端到端系統(tǒng)決策的準(zhǔn)確性和靈活性,行業(yè)里流行的做法是結(jié)合VLM(視覺語言模型)架構(gòu)。端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過程,而VLM則作為輔助系統(tǒng),提供對復(fù)雜交通場景的理解和語義解析。理想汽車的端到端與VLM相結(jié)合的雙系統(tǒng)架構(gòu)方案,基于人類兩套思維系統(tǒng)理論,旨在賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>
許多觀點認(rèn)為端到端+VLA(視覺語言動作模型)是端到端+VLM的下一個階段。VLA將端到端系統(tǒng)與多模態(tài)大模型更徹底地結(jié)合,形成一個統(tǒng)一的模型框架,使系統(tǒng)能夠更全面地理解和響應(yīng)復(fù)雜的駕駛環(huán)境。元戎啟行CEO周光表示,從VLM到VLA的進(jìn)步就像是從有人指導(dǎo)的初學(xué)者變成了經(jīng)驗豐富的老手直接操作,更加高效和安全。
然而,端到端技術(shù)的挑戰(zhàn)也顯而易見,尤其是對高質(zhì)量數(shù)據(jù)的需求呈指數(shù)級增長。受限于高階智能駕駛的量產(chǎn)規(guī)模、算力資源,大多數(shù)車企和智能駕駛公司都面臨高質(zhì)量駕駛數(shù)據(jù)獲取難度大、效率低、成本高的問題。為此,商湯絕影升級發(fā)布了“開悟”世界模型,以滿足端到端模型訓(xùn)練和仿真對數(shù)據(jù)質(zhì)量的高要求。
蔚來也在今年的創(chuàng)新科技日上發(fā)布了智能駕駛世界模型NWM,該模型能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場景,并找到最優(yōu)決策。理想汽車也在運用云端世界模型對其快慢雙系統(tǒng)進(jìn)行能力的訓(xùn)練和測試,以加速系統(tǒng)迭代。
盡管端到端技術(shù)的研發(fā)推進(jìn)面臨重重困難,但眾多企業(yè)正在積極尋求解決方案。奇瑞汽車副總經(jīng)理兼大卓智能CEO谷俊麗表示,核心研發(fā)能力將變?yōu)閿?shù)據(jù)、云計算以及頂級AI科學(xué)家三大要素。奇瑞推出的智能駕駛大模型,也是通過云端世界模型生成豐富場景,預(yù)計將在未來幾年實現(xiàn)兩段式和一段式端到端方案的量產(chǎn)上車。
端到端技術(shù)的落地將促進(jìn)其依賴的上游工具鏈和芯片等技術(shù)的加速發(fā)展,同時進(jìn)一步提升數(shù)據(jù)和AI人才的重要性。然而,關(guān)于端到端是否就是自動駕駛的終極方案,行業(yè)內(nèi)仍存在不同聲音。商湯絕影CEO王曉剛曾表示,端到端技術(shù)并非終點,未來還有通用人工智能、多模態(tài)等新技術(shù)不斷涌現(xiàn)和突破。