《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > MEMS|傳感技術(shù) > 業(yè)界動態(tài) > 馬斯克剛罵了激光雷達,這篇用純視覺代替激光雷達的名校論文「力挺」了他

馬斯克剛罵了激光雷達,這篇用純視覺代替激光雷達的名校論文「力挺」了他

2019-04-24
關(guān)鍵詞: 自動駕駛 激光雷達 傳感器

昨天,第 N 次在公開場合 diss 激光雷達的馬斯克,再一次讓自動駕駛圈對無人車不同的傳感器應(yīng)用方案展開了熱議。


實際上,如果站在馬斯克的角度,我們其實不難理解他對激光雷達的「痛恨心理」。


畢竟特斯拉是一家面向普通消費者賣車的企業(yè),而不是一家賣自動駕駛技術(shù)和解決方案的公司。


在至少 3 年內(nèi),無論是從成本、技術(shù)可靠性、安全性、美觀性甚至是用戶對自動駕駛的信任度和品味來看,大多數(shù)車企的量產(chǎn)車型,都不會把激光雷達納入考慮范疇。


當然,根據(jù)馬斯克說話常常打臉的經(jīng)典表現(xiàn)來看,或許在幾年后他會自己站出來反駁自己堅持的觀點。


事實上,在「自動駕駛汽車究竟應(yīng)該用不用激光雷達」這個問題上長時間的爭論不休,衍生出了「激光雷達派」與「純計算機視覺派」。


目前,一個被激光雷達派以及大眾普遍接受的觀點是,考慮到純視覺算法在數(shù)據(jù)形式和精度上的不足,L3 級以上的自動駕駛乘用車必須要采用激光雷達。


當然,從谷歌 Waymo、通用 Cruise,再到百度阿波羅和國內(nèi)的 Pony.ai、文遠知行等自稱 L4 級自動駕駛乘用車解決方案的公司,車頂上的激光雷達一直都非常扎眼。


而「計算機視覺派」的重要組成部分則是自動駕駛技術(shù)解決方案初創(chuàng)公司,但這個解決方案到底是多高的級別,其實目前沒有確切的定論。


通常情況下,「昂貴的成本」和「技術(shù)能力」是眾多車企與計算機視覺技術(shù)公司反對采用激光雷達的主要理由。


譬如作為一家主打攝像頭方案的技術(shù)創(chuàng)業(yè)公司,2017 年 AutoX 的「炫技首秀」就是讓一輛只搭載 7 個攝像頭的林肯 MKZ 跑在普通公路的車道上。雖然后來受到了來自激光雷達派的「反擊」,其創(chuàng)始人兼 CEO 肖健雄也一直堅持以攝像頭為主的傳感器方案,


此外,部分高精地圖創(chuàng)業(yè)公司也強調(diào)從成本出發(fā),采用低成本的攝像頭方案采集高精數(shù)據(jù)。


綜合來看,截至目前自動駕駛?cè)?nèi)最主流的觀點雖然是「該有的,一個都不能少」,但不難看出,做車廠的生意,對于計算機視覺公司來說,暫時性拋開激光雷達是個還不錯的主意;


而另一層面,對于計算機視覺工程師來說,想要在高級別自動駕駛解決方案上擺脫激光雷達,就要持續(xù)研究和驗證純視覺技術(shù)方案替代激光雷達的可行性。


因此,當大家還在圍觀「馬斯克罵激光雷達」時,我們想從機器之心擅長的角度出發(fā),看看能否從技術(shù)上來「驗證」這個看似不太靠譜的觀點。


很湊巧,我們發(fā)現(xiàn)了一篇來自康奈爾大學(xué)的技術(shù)論文,作者中 Yan Wang 與 Wei-Lun Chao 均為華人。該論文提出了一種新方法來縮短純視覺技術(shù)架構(gòu)與激光雷達間的性能差距。


該論文提出的方法,改變了立體攝像機目標檢測系統(tǒng)的 3D 信息呈現(xiàn)形式,甚至將其稱之為——偽激光雷達數(shù)據(jù)(pseudo-LiDAR)。


研究者在擋風(fēng)玻璃兩側(cè)各使用一個相對廉價的攝像機,采用其新方法之后,該攝像機在目標檢測方面的性能接近激光雷達,且其成本僅為后者的一小部分。研究者發(fā)現(xiàn)以鳥瞰圖而不是正視圖來分析攝像機捕捉到的圖像可以將目標檢測準確率提升 2 倍,從而使立體攝像機成為激光雷達的可行替代方案,且其成本相比后者要低很多。


研究主題


可靠和穩(wěn)健的 3D 目標檢測是自動駕駛系統(tǒng)的基礎(chǔ)要求。要想避免與行人、騎自行車的人、汽車相撞,自動駕駛汽車必須第一時間檢測出它們。


現(xiàn)有的算法嚴重依賴激光雷達(LiDAR),它可以提供周邊環(huán)境的準確 3D 點云。盡管激光雷達的準確率很高,但出于以下原因,自動駕駛行業(yè)急需激光雷達的替代品:


首先,激光雷達非常昂貴,給自動駕駛硬件增加了大量費用;


其次,過度依賴單個傳感器會帶來安全風(fēng)險,在一個傳感器出現(xiàn)故障時利用備用傳感器是較優(yōu)的選擇。一個自然的選擇是來自立體攝像機或單目攝像機的圖像。光學(xué)相機性價比較高(比激光雷達便宜了多個數(shù)量級),且可以高幀率運行,能夠提供稠密深度圖,而激光雷達信號只有 64 個或 128 個稀疏旋轉(zhuǎn)激光束。


近期的多項研究探索了在 3D 目標檢測中使用單目攝像機和立體深度(視差)估計 [19, 13, 32]。但是,目前主要的成果仍然是激光雷達方法的補充。


例如,KITTI 基準上的一個頂尖算法 [17] 使用傳感器融合(sensor fusion)將汽車的 3D 平均精度(AP)從激光雷達的 66% 提升到了激光雷達+單目圖像的 73%。而在僅使用圖像的算法中,當前最優(yōu)算法的 AP 僅為 10% [30]。


對后者較差性能的一個直觀且流行的解釋是基于圖像的深度估計準確率較低。


與激光雷達相反,立體深度估計的誤差隨著深度增加而呈現(xiàn)二階增長。但是,對激光雷達和立體深度估計器生成的 3D 點云進行視覺對比后發(fā)現(xiàn),這兩種數(shù)據(jù)模態(tài)之間存在高質(zhì)量的匹配,甚至遠處的物體也是如此(詳見圖 1)。

微信圖片_20190424220356.jpg

圖 1:來自視覺深度估計的偽激光雷達(pseudo-LiDAR)信號。左上:KITTI 街景圖像,其中汽車周圍的紅色邊界框是通過激光雷達獲取的,而綠色邊界框是通過偽激光雷達獲取的。左下:估計到的視差圖。右:偽激光雷達(藍色)vs 激光雷達(黃色)。其中偽激光雷達點與激光雷達的點很好地對齊。


解決方案


這篇論文提供了另一種解釋——研究者假設(shè)立體攝像機和激光雷達之間性能差距的主要原因不在于深度準確率的差異,而是在于在立體攝像機上運行的 ConvNet 3D 目標檢測系統(tǒng)的 3D 信息表示。


具體來說,激光雷達信號通常被表示為 3D 點云或者「鳥瞰」視角圖,并據(jù)此進行處理。在這兩種情況下,目標的形狀和大小都不會隨著深度而發(fā)生變化。


而基于圖像的深度估計主要是針對每個像素,通常被表示為額外的圖像通道,使得遠處的對象很小,不易被檢測到。更糟糕的是,這種表示的像素近鄰將 3D 空間中較遠區(qū)域的點聚集在一起,這就使得在這些通道上執(zhí)行 2D 卷積的卷積網(wǎng)絡(luò)更難推理,以及準確地定位 3D 空間中的物體。


為了驗證這一論斷,該研究引入了一種適用于立體攝像機 3D 目標檢測的兩步法。首先將來自立體攝像機或單目攝像機的估計深度圖轉(zhuǎn)換為 3D 點云,即模擬激光雷達信號的偽激光雷達;然后利用現(xiàn)有的基于激光雷達的 3D 目標檢測流程 [23, 16],直接在偽激光雷達表示上進行訓(xùn)練。


通過改變偽激光雷達的 3D 深度表示,使基于圖像的 3D 目標檢測算法獲得前所未有的準確率提升。具體來說,在 KITTI 基準上獲得 0.7 交并比(IoU)的汽車實例在驗證集上獲得了 37.9% 的 3D AP,比之前最優(yōu)圖像方法的準確率提升了 2 倍。這樣就能把基于立體攝像機和基于激光雷達的系統(tǒng)之間的差距減半。

微信圖片_20190424220416.jpg

圖 2:用于 3D 目標檢測的兩步 pipeline。給定立體或單目攝像機圖像,研究者首先預(yù)測深度圖,然后將其轉(zhuǎn)換為激光雷達坐標系統(tǒng)中的 3D 點云,即偽激光雷達。然后像處理激光雷達一樣處理它,因此任何基于激光雷達的 3D 檢測算法都能在其上使用。


研究者對立體深度估計和 3D 目標檢測算法的多種組合進行了評估,并得到了非常一致的結(jié)果。這表明性能的提升是由于使用了偽激光雷達表示,它較少依賴于 3D 目標檢測架構(gòu)的創(chuàng)新或深度估計技術(shù)。


總之,該論文有以下貢獻:


首先,通過實驗證明,基于立體攝像機和基于激光雷達的 3D 目標檢測技術(shù)之間的性能差異不是因為估計深度的質(zhì)量,而是因為表示。

其次,研究者提出了一種新型 3D 目標檢測估計深度表示——偽激光雷達,將之前的最優(yōu)性能提升了 2 倍,達到了當前最佳水平。

這一研究結(jié)果表明,在自動駕駛汽車中使用立體攝像頭是可能的,這樣既能夠極大地降低成本,又能夠改進安全性能。


論文:Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving


微信圖片_20190424220439.jpg


論文鏈接:https://arxiv.org/abs/1812.07179


摘要:3D 目標檢測是自動駕駛的一項重要任務(wù)。如果 3D 輸入數(shù)據(jù)是通過精確但昂貴的激光雷達獲得的,那么目前的技術(shù)可以獲得高度精確的檢測率?;谳^便宜的單目攝像機或立體攝像機圖像數(shù)據(jù)的方法目前能夠達到的準確率較低,這種差距通常被歸因于基于圖像的深度估計技術(shù)缺陷。


然而,在本文中,研究者認為,數(shù)據(jù)表示(而非其質(zhì)量)是造成這種差距的主要原因。研究者將卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作原理考慮在內(nèi),提出將基于圖像的深度圖轉(zhuǎn)換為偽激光雷達表示——本質(zhì)上是模擬激光雷達信號。有了這種表示,我們就能應(yīng)用當下基于激光雷達的各種不同檢測算法。



在流行的 KITTI 基準上,該論文提出的方法在基于圖像的性能方面取得了令人印象深刻的改進,超越當前最佳方法,將 30 米范圍內(nèi)的目標檢測準確率從當前最佳的 22% 提高到了 74%。截至論文提交時,該論文提出的算法在基于立體圖像方法的 KITTI 3D 目標檢測排行榜上達到了當前最高水平。


實驗


研究者通過不同的深度估計和目標檢測算法,在不同的設(shè)置下評估了有/沒有偽激光雷達的情況下 3D 目標檢測的結(jié)果(如下表)。偽激光雷達得到的結(jié)果顯示為藍色,真實激光雷達的結(jié)果顯示為灰色。

微信圖片_20190424220501.jpg

表 1:3D 目標檢測結(jié)果。表中顯示了汽車分類的 AP_BEV / AP_3D 百分率、對應(yīng)于鳥瞰圖和 3D 目標框檢測的平均精度。

微信圖片_20190424220528.jpg

表 4:行人和騎車人類別的 3D 目標檢測結(jié)果。研究者報告了 IoU = 0.5(標準度量)時的 AP_BEV / AP_3D,并將 PSMNET(藍色)估計的偽激光雷達和激光雷達(灰色)進行比較,兩者都使用 F-POINTNET 算法。

微信圖片_20190424220546.jpg


圖 4:定性比較。研究者使用 AVOD 算法對激光雷達、偽激光雷達和正視圖(立體)進行了比較。紅色框中的是 Groundtruth,綠色框中的是預(yù)測框;偽激光雷達圖像(下面一行)中的觀測者在最左邊向右看。正視圖方法(右)甚至錯誤計算了附近目標的深度,并且完全忽視了遠處的目標。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。