雷達(dá)點(diǎn)云的語義分割是雷達(dá)數(shù)據(jù)處理中的一項新的挑戰(zhàn)。我們演示了如何執(zhí)行這項任務(wù),并提供了關(guān)于人工標(biāo)記的雷達(dá)反射的大型數(shù)據(jù)集。與之前將聚類反射產(chǎn)生的特征向量作為分類器的輸入不同的是,現(xiàn)在將整個雷達(dá)點(diǎn)云作為輸入,并獲得每個反射的類概率。因此,我們不再需要聚類算法和手動選擇特征。
1 介紹
在過去幾年中,圖像分析從單純的將圖像中的中心對象的分類,以及對象或?qū)ο蟛糠值臋z測轉(zhuǎn)移到單個組合任務(wù):語義分割。語義實例分割通過區(qū)分物理上不同的對象的相同類標(biāo)簽的像素來增強(qiáng)語義分割,使得除了按像素分類之外,還會對對象實例進(jìn)行分組。
語義分割通常是由深度卷積神經(jīng)網(wǎng)絡(luò)完成的,這些網(wǎng)絡(luò)通常表現(xiàn)為編碼器-解碼器結(jié)構(gòu)。這些架構(gòu)都依賴于規(guī)則的圖像結(jié)構(gòu),也就是具有等距像素的矩形網(wǎng)格。如果使用全卷積網(wǎng)絡(luò),網(wǎng)格的尺寸,即圖像的寬度和高度,可能是變動的。矩形網(wǎng)格引起像素之間的距離和鄰域關(guān)系,這些關(guān)系被卷積核所利用,其空間擴(kuò)展大于一個像素。因此,如果將攝像機(jī)用作傳感器,這些方法可以正常發(fā)揮作用。雷達(dá)和激光雷達(dá)傳感器是對攝像頭的補(bǔ)充,以保持功能安全。這些額外的傳感器不僅應(yīng)該是互補(bǔ),而且還是冗余的。因此,最好也能從雷達(dá)和激光雷達(dá)中獲得對周圍環(huán)境的高度語義理解。
在本文中,我們將對雷達(dá)數(shù)據(jù)進(jìn)行語義分割,也就是說,我們?yōu)槊恳粋€測量到的反射點(diǎn)分配一個類別標(biāo)簽。我們專注于動態(tài)對象,并針對研究六個不同的類別:汽車、卡車、行人、行人組、自行車和靜態(tài)對象。在應(yīng)用恒虛警率(CFAR)算法之后獲得的雷達(dá)檢測結(jié)果構(gòu)成了一個點(diǎn)云, 其中點(diǎn)云P被定義為一組N∈N個點(diǎn)pi∈Rd,i = 1,…,N,其中點(diǎn)云中的點(diǎn)的順序無關(guān)緊要。對于每次反射,需要測量兩個空間坐標(biāo)(徑向距離r和方位角φ),自我運(yùn)動補(bǔ)償多普勒速度vˆr和雷達(dá)截面(RCS)σ。因此,必須在語義分割任務(wù)中處理4維點(diǎn)云。雷達(dá)反射的空間密度會急劇變化,因此大規(guī)模網(wǎng)格映射的方法在計算上是不可行的。所以,不能應(yīng)用用于相機(jī)圖像的通常網(wǎng)絡(luò)結(jié)構(gòu)。可以從圖1中讀出,不需要類似圖像的輸入的算法,是非常有必要的,圖中顯示了在200毫秒的時間內(nèi)從四個雷達(dá)上收集的雷達(dá)探測數(shù)據(jù)。在該圖中,可以看到?jīng)]有測量的大區(qū)域以及具有大量反射的區(qū)域。整個場景的網(wǎng)格地圖具有大約2000個單獨(dú)的反射,必須覆蓋至少150米×200米的大空間區(qū)域,甚至在非常低的分辨率下,單元尺寸為1米×1米,網(wǎng)格中最多有6%的像素將具有非零值。
圖1 雷達(dá)點(diǎn)云積累超過200毫秒。突出了三種不同車型的反射。僅顯示完整視野的摘錄
因此,我們使用Poin.NET ++作為我們分割算法的基礎(chǔ)。PointNet ++能夠直接在點(diǎn)云上工作,它最初設(shè)計用于處理來自激光掃描儀的3D空間數(shù)據(jù)。在本文中,我們修改了架構(gòu)以處理兩個空間維度和另外兩個特征維度。
在之前的工作中,分類是在特征向量上進(jìn)行的,而這些特征向量又是從聚類的雷達(dá)反射中獲得的。通過我們的新方法,我們避免了這兩個預(yù)處理步驟:將雷達(dá)目標(biāo)分組到聚類,并且不再需要從這些聚類中生成預(yù)定義的特征向量。這些表明我們的新方法大大優(yōu)于以前的方法。
本文的其余部分結(jié)構(gòu)如下:在第二部分,我們評論了相關(guān)工作和該議題的其他方法。之后,我們更詳細(xì)地描述了我們的網(wǎng)絡(luò)結(jié)構(gòu),并解釋了我們的訓(xùn)練和測試程序。在第四部分,我們展示了我們的成果,并將其與以前的方法進(jìn)行了比較。最后,對我們的未來工作進(jìn)行了展望。
2 相關(guān)工作
當(dāng)相機(jī)用作傳感器并且大多數(shù)算法都針對圖像數(shù)據(jù)進(jìn)行定制時,語義分割是一種流行的方法。全卷積網(wǎng)絡(luò)的引入激發(fā)了許多類似的和后來更先進(jìn)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如SegNet,U-Net,R-CNN,以及其后續(xù)的Fast R-CNN,F(xiàn)aster R-CNN,和Mask R-CNN。為了將這些技術(shù)應(yīng)用于雷達(dá)數(shù)據(jù),必須進(jìn)行一些預(yù)處理。網(wǎng)格圖提供了一種將空間非均勻雷達(dá)反射轉(zhuǎn)換為圖像數(shù)據(jù)的方法。測量的反射隨時間積分并插入地圖中的相應(yīng)位置。用這種方法可以創(chuàng)建不同的地圖,例如占用網(wǎng)格地圖(描述網(wǎng)格占用的后驗概率),或者RCS地圖,(提供有關(guān)每個網(wǎng)格中反射的測量RCS值的信息)。這種方法對靜態(tài)物體很有效,因為只需要考慮自我運(yùn)動(而不是額外的物體速度和軌跡),就可以在地圖中的正確位置插入不同時間的雷達(dá)反射。對于在此項工作中所考慮的動態(tài)物體,需要精確的擴(kuò)展目標(biāo)跟蹤算法,或者將物體的動態(tài)視為特征,以便動態(tài)物體在地圖中創(chuàng)建擴(kuò)展的反射尾部。另一個困難是,對于稀疏數(shù)據(jù),網(wǎng)格映射并不是有效的,因為需要潛在的大網(wǎng)格來顯示相對較少的測量。
據(jù)我們所知,以前沒有對移動物體的汽車?yán)走_(dá)數(shù)據(jù)進(jìn)行過語義分割。分類只在小數(shù)據(jù)集或大量的模擬數(shù)據(jù)上進(jìn)行。
3 方法
A. 網(wǎng)絡(luò)結(jié)構(gòu)
齊等人提供了PointNet和PointNet++方法來直接處理點(diǎn)云,因此不需要先前的映射步驟。他們對通過從室內(nèi)場景的3D掃描的網(wǎng)格中采樣點(diǎn)獲得的3D點(diǎn)云執(zhí)行語義分割。我們使用他們的架構(gòu)作為我們方法的基礎(chǔ)。然而,我們在實驗中使用的雷達(dá)數(shù)據(jù)在以下方面與3D室內(nèi)數(shù)據(jù)不同。首先,每個雷達(dá)反射點(diǎn)只包含兩個而不是三個空間坐標(biāo),但加上自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣群蚏CS值的兩個附加值,整個點(diǎn)云的每個點(diǎn)pi都是四維的。其次,我們的數(shù)據(jù)在密度和采樣率方面顯示出更大的差異。斯坦福大學(xué)的3D語義分析數(shù)據(jù)集的3D掃描提供了高密度的點(diǎn)云,其中可以看到辦公室內(nèi)部的細(xì)節(jié),而我們的雷達(dá)數(shù)據(jù)僅為每個對象提供少量反射,因此對于較小或較遠(yuǎn)的物體,甚至連物體的輪廓都無法正確捕獲,見圖1。
在PointNet ++ 中定義了多尺度分組模塊(MSG)和特征傳播模塊(FP)。MSG模塊考慮了圍繞中心點(diǎn)的多種規(guī)模的鄰域,并在描述這些鄰域的中心點(diǎn)的位置處創(chuàng)建組合特征向量。該模塊包含三個步驟:選擇、分組和特征生成。首先,通過最遠(yuǎn)點(diǎn)采樣選擇輸入點(diǎn)云的Nsample點(diǎn)以便均勻地采樣輸入點(diǎn)云。在分組步驟中,為每個被選中的Nsample點(diǎn)創(chuàng)建鄰域。在我們的網(wǎng)絡(luò)中,鄰域由位于中心點(diǎn)周圍的半徑r內(nèi)的Nneigh點(diǎn)組成。只考慮雷達(dá)反射的兩個空間分量用于鄰域搜索。如果一個反射點(diǎn)在給定的搜索半徑內(nèi)有Nneigh個以上的鄰域,則僅將找到的第一個 Nneigh 點(diǎn)用于進(jìn)一步計算如果發(fā)現(xiàn)的反射點(diǎn)較少,則重復(fù)第一個鄰域以保證固定大小的數(shù)據(jù)結(jié)構(gòu)。在每個MSG模塊中,創(chuàng)建多個具有不同r和Nneigh值的鄰域。在最后一步中,通過在具有形狀(Nsample, Nneigh, cin )的鄰域張量上應(yīng)用具有濾波器大小1×1的卷積層,為每個Nsample 點(diǎn)生成特征,其中cin是通道的數(shù)量。這將產(chǎn)生一個大小為(Nsample, Nneigh, cout)的張量,在這個張量上應(yīng)用一個最終的最大集合層,以便只考慮具有針對相應(yīng)濾波器的最高激活的鄰居的貢獻(xiàn)。
經(jīng)過MSG模塊后,輸出點(diǎn)云中的點(diǎn)數(shù)比輸入點(diǎn)云中的小,因此,更深層中的點(diǎn)包含越來越多的抽象特征,這些特征提供了關(guān)于前幾層的領(lǐng)域點(diǎn)的信息。這個過程類似于用于圖像處理的卷積網(wǎng)絡(luò),圖像尺寸在每一層都被縮小。在圖2中,顯示了空間位置以及雷達(dá)反射的自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣龋⒚枋隽嗽诿總€MSG模塊之后輸入點(diǎn)云的子采樣。在圖中未顯示為MSG 模塊中的每個點(diǎn)生成的高維特征向量。場景的攝像機(jī)圖像如圖3所示。
對于語義分割,子采樣點(diǎn)云的信息被傳播到全輸入點(diǎn)云。
圖2 摘錄一個示例雷達(dá)點(diǎn)云。繪制空間坐標(biāo)以及自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣取淖蟮接遥狠斎雽犹幍狞c(diǎn)云和第一,第二和第三MSG 模塊之后的子采樣點(diǎn)云。數(shù)據(jù)累計超過500毫秒。該場景的攝像機(jī)圖像可以在圖3中找到。
圖3 與圖2相同場景的攝像機(jī)圖像
這一任務(wù)由特征傳播模塊執(zhí)行:k層MSG模塊之后是k層FP模塊,這些模塊將較少填充的點(diǎn)云的特征反復(fù)傳播到下一個較高層。對于密集點(diǎn)云中的每個點(diǎn)pi,計算出稀疏點(diǎn)云中三個最近鄰居的特征向量的加權(quán)平均值,并在將該特征向量通過一組卷積層后,分配給該點(diǎn)pi。從 MSG 模塊的相應(yīng)級別跳過連接改善了特征的傳播。
我們的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其中還定義了MSG 模塊的參數(shù)值。
B. 數(shù)據(jù)集
在本文中,我們僅使用由兩個不同的實驗車輛,即車輛A和車輛B,所收集的真實世界的數(shù)據(jù)。車輛A配備了四個77GHz的傳感器,分別安裝在車輛的兩個前角和側(cè)面。僅使用傳感器的近程模式,以便探測100米范圍內(nèi)的目標(biāo)。每個傳感器的視場角為±45°。
車輛B 配備了八個雷達(dá)傳感器,其規(guī)格與車輛A 的傳感器相同。這八個傳感器安裝在汽車的四個角上以及汽車的左前,右前,后左和右后側(cè)。
車輛A(B)的數(shù)據(jù)集包含了超過4.5小時(6.5分鐘)的駕駛測量,也就是說,收集了超過1億(500萬)的雷達(dá)反射,其中300萬(100 000)屬于6200(191)個不同的移動物體。所有屬于同一物體的反射都被手動分組,并使用以下類別中的標(biāo)簽進(jìn)行注釋:汽車、卡車、行人、行人組、自行車和靜態(tài)。表格 I 中顯示了六個類別的反射分布 與我們以前的工作不同的是,雜點(diǎn)沒有被作為一個額外的類別來研究,而是被視為靜態(tài),因為在這項工作中,我們的目標(biāo)是僅從原始點(diǎn)云中檢測和分類真實的動態(tài)物體。我們以前的分類器不得不處理并非來自真實物體的聚類和特征向量,因此有必要對垃圾類和真實物體進(jìn)行區(qū)分。這些錯誤創(chuàng)建的聚類和特征向量是由不完善的預(yù)處理步驟造成的,我們在此嘗試避免這些步驟。
表 I 六個類別的雷達(dá)反射分布
C. 訓(xùn)練和測試
在我們進(jìn)行實際訓(xùn)練之前,必須修復(fù)超參數(shù)。必須確定MSG模塊的數(shù)量、樣本點(diǎn)Nsample的數(shù)量、每個MSG模塊中的鄰域數(shù)量及其各自的半徑r,每個樣本點(diǎn)的鄰域點(diǎn)Nneigh數(shù)量,以及每個模塊中卷積層的數(shù)量和大小。通過檢查隨機(jī)選擇的驗證集上的合理配置并更改這些配置以進(jìn)一步優(yōu)化網(wǎng)絡(luò)性能來完成。由于參數(shù)空間的巨大規(guī)模和相應(yīng)的計算成本,對參數(shù)空間進(jìn)行完整的采樣是不可行的。
圖4描述了最終選擇的、性能最好的架構(gòu)。
圖4 我們網(wǎng)絡(luò)的結(jié)構(gòu)。紅色箭頭表示跳過的連接,通過這些連接,從MSG模塊中提取的特征被傳遞到相應(yīng)層的FP模塊中。三個MSG模塊的內(nèi)核大小 為[[32, 32, 64], [64, 64, 128]], [[32, 32, 64], [64, 64, 128]]和[[64, 64, 128], [64, 64, 128]] 。
為了評估,我們進(jìn)行了五重交叉驗證。也就是說,數(shù)據(jù)集被分成五個集合折疊,每個折疊占20%的數(shù)據(jù),每折疊用于測試一次,其余四個折疊作為訓(xùn)練數(shù)據(jù)使用。
只有車輛A的數(shù)據(jù)被用于訓(xùn)練。來自車輛B的測量數(shù)據(jù)僅用于檢查我們分類器的泛化能力。該網(wǎng)絡(luò)使用隨機(jī)梯度下降法和基于交叉熵的損失函數(shù)以及Adam優(yōu)化方案進(jìn)行訓(xùn)練。我們使用了中公布的張量流源代碼的一部分。
由于靜態(tài)和動態(tài)數(shù)據(jù)之間的巨大不平衡(大約9700萬到300萬),靜態(tài)類的損失函數(shù)的權(quán)重被降低,這樣優(yōu)化就不再把幾乎所有的點(diǎn)分配給靜態(tài)類。
訓(xùn)練歷時30個周期,在此期間進(jìn)行了數(shù)據(jù)增強(qiáng):隨機(jī)噪聲被應(yīng)用于每個特征維度,從而改變了反射的空間位置以及測量的RCS 值和自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣取K俣忍卣鲀H針對動態(tài)對象的反射進(jìn)行了修改。此外,為每個動態(tài)對象生成一個隨機(jī)數(shù)q∈[0,0.3],并且在該時期中以概率q 省略該對象的每個反射,從而改變動態(tài)對象的形狀和密度。
網(wǎng)絡(luò)本身對單個反射的記錄時間沒有概念,但在訓(xùn)練過程中,我們?yōu)榫W(wǎng)絡(luò)提供了長度為T=500毫秒的時間窗口,使得點(diǎn)云變得更加密集并且可以考慮每個對象更多的反射。在最早的測量時,不同時間段的反射被轉(zhuǎn)換成車輛坐標(biāo)系。
點(diǎn)云的輸入大小固定為3072次反射。如果在500毫秒長時間窗口內(nèi)測量到超過3072次反射,則去除靜態(tài)類別的反射,如果測量的反射少于3072次,則對一個反射重新取樣到所需的次數(shù)。由于網(wǎng)絡(luò)結(jié)構(gòu)中的最大匯集層,這種過采樣并不會改變語義分割的結(jié)果。
在測試過程中,接下來的3072次反射通過網(wǎng)絡(luò)傳遞,按測量時間排序,因此不需要過采樣或欠采樣。
訓(xùn)練是在配備了Nvidia GeForce GTX 1070 GPU的linux工作站上完成的。
4 結(jié)果
基于6×6混淆矩陣和宏觀平均F1分?jǐn)?shù)(下文僅稱為F1分?jǐn)?shù))對我們的系統(tǒng)進(jìn)行了評估。F1分?jǐn)?shù)對應(yīng)于精度和召回率的諧波平均值[24]。在宏觀平均中,在宏觀平均中,每個類別對總分的貢獻(xiàn)是相等的——與類別的計數(shù)無關(guān)——因為每個類別都計算一個單獨(dú)的F1分?jǐn)?shù),然后對這六個值進(jìn)行平均。
A. 最佳性能架構(gòu)
我們首先展示了使用我們性能最好的架構(gòu)獲得的結(jié)果。我們僅使用來自車輛A 的數(shù)據(jù)進(jìn)行五重交叉驗證。除了兩個空間坐標(biāo)x和y(在車輛坐標(biāo)系中), 我們還用自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣群蚏CS值來豐富輸入點(diǎn)云。因此,我們提供了一個四維的點(diǎn)云作為輸入。
由此產(chǎn)生的混淆矩陣如圖5所示。
圖5 用圖4中描述的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行5重交叉驗證后的相對混淆矩陣。點(diǎn)云的輸入特征:x, y, vˆr , σ。
不足為奇的是,帶有靜態(tài)標(biāo)簽的多數(shù)類顯示出最高的真陽值。然而,我們應(yīng)該知道,區(qū)分屬于移動或非移動物體的反射,遠(yuǎn)比在多普勒速度上設(shè)置一個閾值,并將速度低于該閾值的每個反射歸類為靜態(tài)反射要難得多。在現(xiàn)實場景中,許多不屬于運(yùn)動物體的反射顯示出非零的自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣龋@是由里程表誤差、傳感器偏差、時間同步誤差、鏡像效應(yīng)或其他傳感器偽影引起的。此外,多普勒速度為零的反射不一定屬于靜態(tài)物體,因為旋轉(zhuǎn)的汽車車輪底部或行人的身體部位(沿行走方向垂直移動)也可能不顯示徑向速度。
汽車類的物體被分類為次優(yōu),再次是行人組。卡車類的對象經(jīng)常與汽車混淆。有兩個原因可以解釋這種混淆:第一,在很遠(yuǎn)的距離上,每個物體只能測量到很少的反射,因此很難推斷物體的空間范圍。其次,汽車和卡車實例之間的轉(zhuǎn)換相當(dāng)順利的,因為,例如,大型SUV與小型卡車很難區(qū)分。
從圖中可以推斷出的另一個顯著行為是行人和行人組之間的高度混淆。這種行為可能是由我們的訓(xùn)練數(shù)據(jù)引起的,因為對于人類注釋員來說,有時可以將附近兩個行人的反射指定給個人,從而創(chuàng)建兩個行人的實例,但有時這不容易,而且時間要求也太高。使所有反射都標(biāo)記為行人組的單個實例。因此,除了復(fù)雜的任務(wù)本身之外,網(wǎng)絡(luò)還必須與地面真實數(shù)據(jù)的不一致性作斗爭。對于許多駕駛?cè)蝿?wù)來說,了解某一區(qū)域是否有一個或兩個行人并不重要,這樣兩個等級就可以合并在一起,從而產(chǎn)生超過91%的真實陽性率。
由于數(shù)據(jù)集高度不平衡,只檢查歸一化為類計數(shù)的相對混淆矩陣可能會產(chǎn)生誤導(dǎo)。因此,我們也在圖6中展示了具有絕對值的混淆矩陣。這種可視化強(qiáng)調(diào)了許多假陽性動態(tài)對象是由網(wǎng)絡(luò)創(chuàng)建的(圖中的最后一行)。這種效果對于汽車類來說是最明顯的:只有68%的預(yù)測汽車反射屬于動態(tài)物體(參見圖6的第一列)。然而,對于汽車應(yīng)用來說,動態(tài)物體的高假陽性率可能比高假陰性率更可取。降低靜態(tài)類的損失函數(shù)中的權(quán)重會導(dǎo)致更高的假陽性值,所以這個參數(shù)允許我們在假陽性和假陰性之間進(jìn)行調(diào)整。
圖6 用圖4中描述的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行5重交叉驗證后的絕對混淆矩陣。點(diǎn) 云的輸入特征:x, y, vˆr , σ。
應(yīng)該注意的是,動態(tài)反射和靜態(tài)反射之間的混淆百分比(圖5中混淆矩陣的最后一列)并不代表被忽略的對象的百分比。如果動態(tài)物體只有一個反射被正確分類,但同一物體的其他反射被分類為靜態(tài)的,即使假陰性計數(shù)增加,該物體仍然被檢測到。
B. 輸入特征的變化
為了更深入地了解哪些信息對網(wǎng)絡(luò)有用,我們用三組不同的輸入特征 f1 = x, y, vˆr , f2 = x, y, σ , f3= x, y重復(fù)五重交叉驗證,并將結(jié)果與原始特征 f0 = x, y, vˆr, σ進(jìn)行比較。在表II中,顯示了每個輸入配置的F1分?jǐn)?shù)。從這個表中可以看出以下幾點(diǎn)。呈現(xiàn)給網(wǎng)絡(luò)的輸入特征越多,性能就越高。在輸入特征中加入每個反射的RCS值會使F1分?jǐn)?shù)小幅增加(從0.7303到0.7425),而加入自我運(yùn)動補(bǔ)償?shù)亩嗥绽账俣葎t影響更大,使得分?jǐn)?shù)幾乎增加了0.1。盡管多普勒速度作為一個特征,有一定的重要性,但有趣的是,對于輸入特征f2和f3,網(wǎng)絡(luò)的性能仍然遠(yuǎn)遠(yuǎn)高于隨機(jī)猜測。這意味著反射的空間環(huán)境對網(wǎng)絡(luò)來說是非常有表現(xiàn)力的特征,并為分類步驟奠定了基礎(chǔ),然后再利用速度和RCS值的附加特征進(jìn)行分類。
表 II 不同輸入特征的分類分?jǐn)?shù)
C. 測試車輛B的數(shù)據(jù)
到目前為止,只應(yīng)用了車輛A的數(shù)據(jù)進(jìn)行訓(xùn)練和測試,現(xiàn)在,我們使用一個僅用車輛A的數(shù)據(jù)進(jìn)行訓(xùn)練的網(wǎng)絡(luò),來預(yù)測車輛B所測得的反射的類別。這種設(shè)置的差異在于兩個方面。一方面,車輛B配備了8個而不是4個雷達(dá)傳感器,因此提供了車輛周圍的360°視野,不同于車輛A的主要是正面和側(cè)面的設(shè)置。另一方面,車輛A的數(shù)據(jù)是在德國城市和鄉(xiāng)村道路上收集的,而車輛B只在美國收集數(shù)據(jù)。不同的道路和街道設(shè)計以及平均較大的汽車對算法構(gòu)成了挑戰(zhàn)。
在這些新數(shù)據(jù)上應(yīng)用我們性能最好的網(wǎng)絡(luò),其F1分?jǐn)?shù)為0.46,明顯低于我們用五重交叉驗證得到的數(shù)值。如果測試車輛前部的四個傳感器與后部的四個傳感器獨(dú)立評估,則F1分?jǐn)?shù)可增加到0.48。
由于車輛B的數(shù)據(jù)集與車輛A的數(shù)據(jù)集相比非常小,所以我們必須謹(jǐn)慎地解釋結(jié)果。然而,很明顯,改變傳感器的設(shè)置對分類器的性能有一定的影響。
D. 與以往方法的比較
在前面的工作中,我們使用DBSCAN進(jìn)行聚類,并使用LSTM網(wǎng)絡(luò)進(jìn)行分類,以生成特征向量序列的類標(biāo)簽。此前,我們對在地面真實集群上生成的特征向量進(jìn)行了性能測量。在本文中, 這種方法的評估是通過將特征向量的類標(biāo)簽投影回集群的原始反射來完成的。
我們在同一個數(shù)據(jù)集上訓(xùn)練LSTM網(wǎng)絡(luò)和我們的新方法,并在相同的測試集上評估這兩種方法。為了進(jìn)行公平的比較,LSTM不是在地面真實聚類的特征向量上進(jìn)行測試的,而是在點(diǎn)云上應(yīng)用DBSCAN得到的聚類中產(chǎn)生的特征向量上進(jìn)行。與我們當(dāng)前的方法不同,如果特征向量來自不屬于真實對象的聚類,LSTM還學(xué)習(xí)將其分類為垃圾。如果LSTM拒絕這樣一個特征向量,我們就會在比較中把相關(guān)的點(diǎn)當(dāng)作靜態(tài)的。
我們的新方法在這個選定的測試集上達(dá)到了0.734的F1分?jǐn)?shù),而DBSCAN+LSTM的方法只得到了0.597分。新方法創(chuàng)建的假陽性動態(tài)對象更少,并且在所有類中具有更高的真陽性計數(shù)。最吸引人的特點(diǎn)是,被錯誤地認(rèn)為是靜態(tài)的反射物少了三倍,因此可能有更少的物體被忽略了。源自動態(tài)物體的反射與來自靜態(tài)類的反射的混淆不僅源于LSTM的不良分類結(jié)果,而且主要是由于聚類不足,使得LSTM無法對某些反射進(jìn)行分類。
E. 可視化
在一個場景的前向傳遞過程中,可視化不同網(wǎng)絡(luò)層的輸出是很有用的。圖2顯示了一個示例場景在輸入級和三個MSG模塊之后的空間位置以及多普勒速度。
不同層的卷積核很難可視化,因為只執(zhí)行1×1的卷積,因此不存在濾波器本身的有意義的圖像。然而,我們可以通過網(wǎng)絡(luò)傳遞不同的場景,并在最后一個卷積層之前收集網(wǎng)絡(luò)輸出。在這個輸出中,我們從每個類中隨機(jī)選擇1000個點(diǎn),以及它們的128維特征向量,并通過t-SNE降維算法傳遞這個高維點(diǎn)云,得到一個二維點(diǎn)云。這在圖7中得到了體現(xiàn),在圖7中可以觀察到可以看到汽車、卡車、自行車和靜態(tài)類別的四個不同的集群。根據(jù)圖5中的混淆矩陣,來自行人或行人組的反射沒有被很好地分開。汽車和自行車類的反射豐富了點(diǎn)云的中心,顯示了那些難以分類的點(diǎn)。最后,圖8顯示了與圖2相同的場景,但現(xiàn)在顯示的是預(yù)測類標(biāo)簽,而不是多普勒速度。所有三個類別行人、卡車和汽車都被正確識別。然而,最右側(cè)行人后面的一些雜亂被錯誤地歸類為行人組,汽車后面的一些反射也被錯誤地標(biāo)記到汽車類。盡管如此,場景的語義信息還是得到了很好的表達(dá)。
圖7 我們網(wǎng)絡(luò)中倒數(shù)第二卷積層的128維特征向量的二維嵌入。用非線 性t-SNE方法進(jìn)行嵌入。
圖8 對一個實例場景的每個反射的預(yù)測類別標(biāo)簽。界限框是手動添加的, 用于關(guān)聯(lián)點(diǎn)云和攝像機(jī)圖像。
5 結(jié)論和展望
本文以到PointNet++為分類算法,給出了雷達(dá)數(shù)據(jù)語義分割的結(jié)果。我們展示出了我們的新方法優(yōu)于我們以前的方法,后者包括兩個現(xiàn)已過時的預(yù)處理步驟,即聚類和特征生成。此外,我們還證明了利用RCS 值和自我運(yùn)動補(bǔ)償多普勒速度可以提高分類結(jié)果,其中多普勒速度對分類結(jié)果的影響更大。
在今后的工作中,我們將把重點(diǎn)放在兩個不同的方面。一方面,將時間信息整合到網(wǎng)絡(luò)中似乎是有益的。物體的時間演化是一種描述性特征,至少應(yīng)該改善靜態(tài)和動態(tài)類實例之間的區(qū)別。實現(xiàn)這一目標(biāo)的一個可能的方法是將一個遞歸的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集成到PointNet++。一個更簡單的方法是將測量時間戳作為一個額外的功能來呈現(xiàn)。另一方面,需要對語義實例分割進(jìn)行擴(kuò)展。目前,我們只為每個反射提供類別標(biāo)簽,而不了解該反射所屬的對象實例的概念。因此,我們不知道一個場景中存在多少不同的對象,而只知道屬于一個對象類別的反射量。類感知聚類算法是從反射中生成實例的一種可能性,但是結(jié)合實例學(xué)習(xí)和類關(guān)聯(lián)可能會產(chǎn)生更高的總體性能。
文章轉(zhuǎn)載自公眾號:智能汽車開發(fā)者平臺