黑天鵝與灰犀牛齊飛,新技術(shù)與新產(chǎn)業(yè)共生。從上世紀(jì)末第一款產(chǎn)品亮相至今,自動(dòng)駕駛技術(shù)經(jīng)歷了快速而多元的發(fā)展,終于走到了今天。
算力方面,21世紀(jì)初,自動(dòng)駕駛還在靠笨重的計(jì)算機(jī)提供終端算力;而今天,英偉達(dá)、Mobileye已經(jīng)將終端芯片算力提升至了1000 TOPS以上。
算法方面,20世紀(jì)末,自動(dòng)駕駛還在依靠簡單的人工規(guī)則進(jìn)行少量固定場(chǎng)景內(nèi)的有限規(guī)控;而今天,基于深度神經(jīng)網(wǎng)絡(luò)的大算法模型,已將AI推入了自主學(xué)習(xí)的時(shí)代。
硬件方面,高昂的感知硬件成本一度讓自動(dòng)駕駛技術(shù)長期停滯于實(shí)驗(yàn)階段;而今天,感知硬件性能的大幅提升與成本的大幅下降已讓諸多自動(dòng)駕駛技術(shù)實(shí)現(xiàn)了規(guī)?;慨a(chǎn)。
自動(dòng)駕駛技術(shù)的不斷進(jìn)步,在促成更多自動(dòng)駕駛產(chǎn)品落地的同時(shí),也帶來更多有關(guān)技術(shù)發(fā)展路線的爭(zhēng)議,這又讓我們對(duì)自動(dòng)駕駛的未來產(chǎn)生了新的疑問:
在算力、算法、硬件升級(jí)之后,自動(dòng)駕駛的下一個(gè)階段又將是什么?
“以數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛3.0時(shí)代已經(jīng)到來,只有感知、認(rèn)知、模式、數(shù)據(jù)4個(gè)技術(shù)條件并行成立才能稱為真正進(jìn)入自動(dòng)駕駛新時(shí)代。我們所做的一切,都是為了能夠做出數(shù)據(jù)通道和計(jì)算中心,以便可以更高效地獲取數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為知識(shí)。”
以上這一段話,出自毫末智行CEO顧維灝之口。在剛剛結(jié)束的第六屆HAOMO AI DAY上,顧維灝像往常一樣,分享了現(xiàn)階段毫末自動(dòng)駕駛技術(shù)研發(fā)的新觀點(diǎn)和新思路。
但有一點(diǎn)不同的是,驅(qū)動(dòng)這些新觀點(diǎn)與新技術(shù)發(fā)酵的,并非來源于毫末智行自動(dòng)駕駛需求,而是來源于后者對(duì)自動(dòng)駕駛技術(shù)發(fā)展的思考。
俗話說得好,不想做將軍的廚子不是好士兵,而在毫末智行看來,不想做學(xué)術(shù)研究的自動(dòng)駕駛企業(yè),最終肯定也搞不好自動(dòng)駕駛技術(shù)。
換句話說,想要炒好自動(dòng)駕駛這盤菜,就要對(duì)材料、火候、步驟了如指掌。而當(dāng)下浮躁的自動(dòng)駕駛行業(yè),又顯然缺乏“靜下心來好好研究”的動(dòng)力。
所以在這樣的背景之下,毫末智行究竟研究出了一張?jiān)鯓拥牟俗V呢?
從第一性原理到自動(dòng)駕駛3.0時(shí)代
在之前的HAOMO AI DAY中,毫末智行重點(diǎn)提到了一個(gè)哲學(xué)概念“第一性原理”?;趯?duì)第一性原理的思考及運(yùn)用,毫末智行得以發(fā)現(xiàn)驅(qū)動(dòng)自動(dòng)駕駛迭代的關(guān)鍵,并最終推出了數(shù)據(jù)智能體系MANA。
作為誕生于2000多年前的哲學(xué)概念,第一性原理自然不可能直接給毫末智行打開“捷徑”,但確實(shí)又給困惑中的毫末智行指明了方向。
第一性原理強(qiáng)調(diào),世間萬物的發(fā)展都建立在其各自的基石假設(shè)之上,這也是驅(qū)動(dòng)萬物發(fā)展的本質(zhì);只要找到屬于自動(dòng)駕駛的基石假設(shè),就能在其基礎(chǔ)上建立并推動(dòng)自動(dòng)駕駛發(fā)展。
那么自動(dòng)駕駛發(fā)展至今,驅(qū)動(dòng)其快速發(fā)展的究竟是什么呢?
讓我們不妨先回到自動(dòng)駕駛發(fā)展的最初階段。在2004年,美國DARPA面向社會(huì)舉辦了第一屆自動(dòng)駕駛技術(shù)大賽。但在第一屆比賽中,沒有一家參賽車隊(duì)能夠完賽。
經(jīng)過事后分析,行業(yè)內(nèi)普遍認(rèn)為,這是因?yàn)楫?dāng)時(shí)的自動(dòng)駕駛硬件性能太低所導(dǎo)致的。果然在2005年第二代大賽中,得益于硬件性能的提升,很快便有車隊(duì)從一眾選手中脫穎而出,拿到了主辦方提供的豐厚獎(jiǎng)金。
在這一階段,自動(dòng)駕駛技術(shù)所包括的感知硬件、計(jì)算機(jī)與感知算法剛剛得到確立,但總體來看,感知硬件依舊是自動(dòng)駕駛?cè)绾卧趶?fù)雜環(huán)境下實(shí)現(xiàn)視覺感知的最大短板,所以硬件性能成為了這一階段自動(dòng)駕駛技術(shù)的發(fā)展重點(diǎn)。
這就是顧維灝口中的自動(dòng)駕駛1.0時(shí)代。
顯而易見的是,對(duì)比曾經(jīng)捉襟見肘的硬件性能,如今自動(dòng)駕駛技術(shù)可用的感知硬件可謂五花八門,包括激光雷達(dá)、毫米波雷達(dá)、感應(yīng)波雷達(dá)、攝像頭等硬件設(shè)備種類多樣,性能選擇也高低皆有,足夠滿足從L2到L4各類輔助駕駛及自動(dòng)駕駛的需求。
由此來看,硬件自然不是驅(qū)動(dòng)自動(dòng)駕駛迭代的關(guān)鍵。而在此之后,自動(dòng)駕駛發(fā)展又迎來了顧維灝口中的自動(dòng)駕駛2.0時(shí)代。
在2.0時(shí)代中,自動(dòng)駕駛終于可以通過性能優(yōu)良的感知硬件“看”清世界了,但在感知之后如何進(jìn)行決策規(guī)控,則又帶來了有關(guān)自動(dòng)駕駛算法的進(jìn)化。
谷歌Waymo與特斯拉是自動(dòng)駕駛2.0時(shí)代中的主角,基于跨越式與漸進(jìn)式路線,二者各自選擇了完全不同的發(fā)展道路,但結(jié)果也顯而易見:
特斯拉FSD已經(jīng)實(shí)現(xiàn)了高速域和城市域場(chǎng)景的打通,車隊(duì)規(guī)模很快就將達(dá)到百萬級(jí);而在無數(shù)輪融資后,谷歌Waymo依舊沒能走出電子?xùn)艡冢虡I(yè)化運(yùn)營進(jìn)程緩慢。
究其原因,馬斯克搬出了他對(duì)第一性原理的理解:成本與速度是自動(dòng)駕駛技術(shù)研發(fā)及迭代的關(guān)鍵,而核心就在于這一過程中,自動(dòng)駕駛企業(yè)所獲取到的數(shù)據(jù)。
谷歌Waymo與特斯拉自動(dòng)駕駛算法都基于深度學(xué)習(xí)而來,而這種當(dāng)下公認(rèn)的自動(dòng)駕駛算法的迭代核心,就是AI自己訓(xùn)練自己,即AI通過數(shù)據(jù)進(jìn)行學(xué)習(xí),由此實(shí)現(xiàn)不斷進(jìn)化。
在這一過程中,數(shù)據(jù)量越大越好,數(shù)據(jù)量獲取與學(xué)習(xí)速度越快越好,并且獲取數(shù)據(jù)的成本越低越好。
谷歌Waymo雖然在自動(dòng)駕駛競(jìng)爭(zhēng)中“起了個(gè)大早”,但由于有限的量產(chǎn)車隊(duì)限制了數(shù)據(jù)獲取量、獲取速度與獲取成本,終究還是“趕了個(gè)晚集”。這也得以讓我們從中得到一條關(guān)鍵信息:
在硬件與軟件達(dá)標(biāo)后,數(shù)據(jù)將成為驅(qū)動(dòng)自動(dòng)駕駛發(fā)展的核心,而數(shù)據(jù)量越大、數(shù)據(jù)獲取成本越低、數(shù)據(jù)學(xué)習(xí)速度越快,自動(dòng)駕駛就能更快完成數(shù)據(jù)閉環(huán),實(shí)現(xiàn)自動(dòng)駕駛技術(shù)的指數(shù)級(jí)發(fā)展。
這就是顧維灝口中的自動(dòng)駕駛3.0時(shí)代,而對(duì)于包括毫末智行的所有自動(dòng)駕駛企業(yè)來說,這也是即將步入的一個(gè)全新時(shí)代。
為數(shù)據(jù)解綁,打通數(shù)據(jù)驅(qū)動(dòng)的高速公路
對(duì)于如今的毫末智行來說,自動(dòng)駕駛3.0時(shí)代似乎還為時(shí)尚早,畢竟顧維灝也表示,數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛3.0時(shí)代需要至少1億公里以上的數(shù)據(jù)支撐,而如今毫末智行的輔助駕駛累計(jì)行駛里程,才剛剛突破1700萬公里。
不過,“未雨綢繆”本就是毫末智行的優(yōu)勢(shì),除了能快速領(lǐng)悟出“數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛迭代”的發(fā)展核心外,強(qiáng)大的規(guī)模化量產(chǎn)實(shí)力也能幫助毫末智行在數(shù)據(jù)獲取上快速達(dá)到目標(biāo)。
在此之前,毫末智行已經(jīng)針對(duì)城市場(chǎng)景,對(duì)數(shù)據(jù)智能體系MANA進(jìn)行了大幅升級(jí),具體表現(xiàn)在對(duì)具有Attiontion機(jī)制的Transformer大模型的運(yùn)用,不僅讓自動(dòng)標(biāo)注及訓(xùn)練效率大幅提升,也讓融合感知的魯棒性與泛化性有了更好的表現(xiàn)。
但就像一條高速公路一樣,Transformer大模型賦予了海量數(shù)據(jù)多車道暢行的條件,而標(biāo)注與訓(xùn)練也終將成為造成高速擁堵的“收費(fèi)站”與“檢查站”。
所以長久來看,如果想真正釋放海量數(shù)據(jù)帶來的迭代優(yōu)勢(shì),就必須降低“收費(fèi)站”與“檢查站”的監(jiān)督與限制,讓高速公路通暢起來;而數(shù)據(jù)也不能因?yàn)?ldquo;收費(fèi)站”與“檢查站”的放水而白白流失,AI需要學(xué)會(huì)從海量數(shù)據(jù)中直接抓取,進(jìn)行訓(xùn)練與學(xué)習(xí)。
這便是此次HAOMO AI DAY上重點(diǎn)提出的其中兩條技術(shù)思路,即建立無數(shù)據(jù)標(biāo)注的自監(jiān)督學(xué)習(xí)能力,徹底發(fā)揮海量數(shù)據(jù)的數(shù)量優(yōu)勢(shì),讓自動(dòng)駕駛真正實(shí)現(xiàn)“指數(shù)級(jí)升級(jí)”;另外,為了防止有價(jià)值的新數(shù)據(jù)被存量數(shù)據(jù)稀釋,毫末智行也提出建立增量式學(xué)習(xí)訓(xùn)練平臺(tái),保證對(duì)新數(shù)據(jù)的運(yùn)用,及整體數(shù)據(jù)集的有效混合。
提升對(duì)海量數(shù)據(jù)的應(yīng)用能力與效率,核心是要讓自動(dòng)駕駛能夠認(rèn)識(shí)并構(gòu)建出更真實(shí)的感知世界,并在此基礎(chǔ)上,讓認(rèn)知能力持續(xù)提升,盡快達(dá)到“老司機(jī)”的標(biāo)準(zhǔn)。
對(duì)此,毫末智行又提出了四條新觀點(diǎn),首先便是借助Transformer在時(shí)序以及Attiontion方面的優(yōu)勢(shì),構(gòu)建具有時(shí)序特征下、能夠?qū)χT如車道線、障礙物等物體有更準(zhǔn)確識(shí)別與判斷能力的實(shí)時(shí)虛擬場(chǎng)景。
在過去多模態(tài)感知融合過程中,由于算法模型本身的融合能力有限,經(jīng)常會(huì)出來類似于多攝像頭的某特征信息沒有拼接好、視覺與雷達(dá)感知沒能實(shí)現(xiàn)同步的情況。
經(jīng)過之前的“感知智能升級(jí)”,數(shù)據(jù)智能體系MANA已經(jīng)達(dá)成了對(duì)搭建更準(zhǔn)確感知世界的優(yōu)化,而這一次則是借Transformer再次優(yōu)化了一次。
而繼之前對(duì)紅綠燈識(shí)別做出升級(jí)外,對(duì)城市場(chǎng)景內(nèi)更多交互接口的識(shí)別也納入了此次的升級(jí)范圍里,例如車輛的剎車燈、倒車燈與轉(zhuǎn)向指示燈——作為為人類設(shè)計(jì)的交互接口,自動(dòng)駕駛實(shí)際并不能對(duì)其進(jìn)行感知交互,但既然要取代人類駕駛,那么“融入人類”就顯得格外重要。
其次則是在“認(rèn)知智能升級(jí)”的基礎(chǔ)上再升級(jí)。此前毫末智行的做法是,借助預(yù)訓(xùn)練大模型,對(duì)有價(jià)值的數(shù)據(jù)進(jìn)行篩選、標(biāo)注并訓(xùn)練,但訓(xùn)練對(duì)象卻是各類以場(chǎng)景劃分的小模型。
而這次,毫末智行則將訓(xùn)練對(duì)象升級(jí)為統(tǒng)一的大模型,即毫末智行的自動(dòng)駕駛場(chǎng)景庫,所有原本零碎場(chǎng)景的小決策都將基于一個(gè)統(tǒng)一連貫的大決策,如此既能避免機(jī)械、生硬的輔助駕駛行駛表現(xiàn),讓自動(dòng)駕駛決策更像人的同時(shí),也能讓這一決策變得更有可解釋性。
在借助海量數(shù)據(jù)提升對(duì)真實(shí)世界的感知后,還有針對(duì)仿真世界的提升,而在所有城市場(chǎng)景中,十字路口的變量最大、仿真難度最高。
對(duì)此,毫末智行則是選擇與阿里以及德清政府合作,利用路端設(shè)備將路口每時(shí)每刻的交通流都記錄下來,以此對(duì)仿真世界中的十字路口場(chǎng)景進(jìn)行調(diào)校。由于真實(shí)場(chǎng)景獲取的數(shù)據(jù)數(shù)量及類型非常豐富,所以這對(duì)數(shù)據(jù)智能體系MANA的認(rèn)知能力也會(huì)起到很大的幫助。
最后則是海量數(shù)據(jù)對(duì)龐大算力的需求。早在去年年底,毫末智行就宣布了建立超算中心的計(jì)劃,而此次HAOMO AI DAY上,毫末智行則更新了超算中心的新進(jìn)度,后者不僅能滿足千億級(jí)參數(shù),同時(shí)還能大幅降低訓(xùn)練成本。這不得不讓人為其有朝一日的滿負(fù)荷運(yùn)營充滿期待。
3.0時(shí)代后,才是自動(dòng)駕駛正賽開始時(shí)
作為自動(dòng)駕駛3.0時(shí)代的核心,數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛迭代、建立數(shù)據(jù)閉環(huán)將成為所有自動(dòng)駕駛企業(yè)能否生存下來的關(guān)鍵,越早領(lǐng)悟到這一點(diǎn),就越有可能從競(jìng)爭(zhēng)中活下來,并看到3.0時(shí)代的曙光。
特斯拉是目前所有自動(dòng)駕駛企業(yè)中最早步入自動(dòng)駕駛3.0時(shí)代的,盡管其純視覺+眾包地圖的技術(shù)路線在一眾自動(dòng)駕駛企業(yè)中顯得頗為極端,但憑借高效的數(shù)據(jù)獲取、學(xué)習(xí)及訓(xùn)練能力,特斯拉得以將其軟、硬件實(shí)力發(fā)揮至極限,由此打通一條數(shù)據(jù)閉環(huán),實(shí)現(xiàn)飛速發(fā)展。
毫末智行是第二家注意到數(shù)據(jù)重要性的自動(dòng)駕駛企業(yè),這使其能夠在一開始就確立數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛迭代的發(fā)展策略,并由此少走彎路,加速進(jìn)入自動(dòng)駕駛3.0時(shí)代。
不過話歸如此,屬于自動(dòng)駕駛的3.0時(shí)代依舊只是剛剛開始,除特斯拉、毫末智行外,越來越多的自動(dòng)駕駛企業(yè)也將因此而開始調(diào)轉(zhuǎn)船頭,真正精彩卓絕的高手對(duì)決,才正式鳴鑼開場(chǎng)。