原標(biāo)題 馬斯克:自動(dòng)駕駛依賴(lài)激光雷達(dá)注定失敗,專(zhuān)家表示不服
8月13日?qǐng)?bào)道 在眾多生產(chǎn)商著手研發(fā)自動(dòng)駕駛汽車(chē)的大環(huán)境下,幾乎所有的汽車(chē)都使用了激光雷達(dá),并用以打造一種傳感器。這種傳感器可以借助雷達(dá)展現(xiàn)三維地圖中車(chē)輛周?chē)那闆r。
然而特斯拉的首席執(zhí)行官埃隆·馬斯克卻表示,這樣的做法是錯(cuò)誤的。
先有特斯拉于今年4月份舉辦展示活動(dòng),介紹其自動(dòng)駕駛技術(shù)。馬斯克在這次展會(huì)中表示,這些生產(chǎn)商終將放棄激光雷達(dá),因?yàn)槿魏卫眉す饫走_(dá)研發(fā)自動(dòng)駕駛汽車(chē)的人都注定失敗。
后有特斯拉人工智能專(zhuān)家Andrej Karpathy表示,激光雷達(dá)確實(shí)為研發(fā)提供了一條捷徑,但是這種方法并沒(méi)有考慮到一個(gè)基本問(wèn)題,那就是視覺(jué)識(shí)別在這當(dāng)中的重要性。這個(gè)方法帶給他們一種進(jìn)步的錯(cuò)覺(jué)。
許多專(zhuān)家對(duì)該說(shuō)法發(fā)出了質(zhì)疑。
首先來(lái)自密歇根大學(xué)自動(dòng)駕駛汽車(chē)試驗(yàn)場(chǎng)MCity的研究員Greg McGuire就指出:從某種意義上來(lái)說(shuō),這些傳感器都是一種依賴(lài)。作為工程師,他們就是這么做的,即創(chuàng)造依賴(lài)性。
McGuire還表示,只有當(dāng)自動(dòng)駕駛汽車(chē)真的非常安全可靠時(shí),它才能被社會(huì)所接受。想要達(dá)到高度的可靠,就要堅(jiān)持一個(gè)重要的原則——冗余。任何傳感器最終都會(huì)失靈,但如果使用幾種不同類(lèi)型的傳感器,那就可以降低因?yàn)槟骋粋€(gè)傳感器發(fā)生故障導(dǎo)致事故發(fā)生的可能性。
其后,又有行業(yè)分析師(及前汽車(chē)工程師)Sam Abuelsamid表示,一旦你將這些理論技術(shù)用于現(xiàn)實(shí),有很多未知數(shù)你是無(wú)法避免的。理論上,你或許可以?xún)H憑相機(jī)來(lái)采集數(shù)據(jù),但若要百分百相信系統(tǒng)的判斷是正確的,最好是有其他正交傳感模式的輔助,例如像激光雷達(dá)這樣的傳感模式。
4月22日,就在特斯拉展示自動(dòng)駕駛技術(shù)的同一天,康奈爾大學(xué)的三位研究人員發(fā)表了一篇研究論文,部分支持了馬斯克關(guān)于激光雷達(dá)的說(shuō)法。計(jì)算機(jī)科學(xué)家們只用了立體相機(jī),最終在KITTI(一種熱門(mén)的自動(dòng)駕駛系統(tǒng)圖像識(shí)別基準(zhǔn))上取得了突破性的成果。該項(xiàng)新技術(shù)性能遠(yuǎn)遠(yuǎn)優(yōu)于之前的純相機(jī)技術(shù),并且和“相機(jī)+激光雷達(dá)”的搭配相比也相差無(wú)幾。
可惜,媒體對(duì)該論文的報(bào)道混淆了研究人員的實(shí)際發(fā)現(xiàn)。例如Gizmodo在報(bào)道中表示,這三名研究人員的論文是關(guān)于汽車(chē)上攝像頭的安裝位置的,但實(shí)際上該論文并沒(méi)有提到這一點(diǎn),而Gizmodo也在研究人員聯(lián)系他之后,修改了他這篇報(bào)道。
想要恰當(dāng)?shù)乩斫膺@篇論文,我們就需要了解軟件是如何將原始的相機(jī)圖像轉(zhuǎn)換成有標(biāo)識(shí)的三維模型,在地圖上生動(dòng)地展示汽車(chē)周邊情況。在KITTI的測(cè)試中,如果該算法能夠精準(zhǔn)地識(shí)別汽車(chē)周邊的每一個(gè)對(duì)象,并用三維的框框?qū)⑵錁?biāo)示出來(lái),那么該算法就被認(rèn)為是成功的。
通常軟件處理這種測(cè)試分為以下兩個(gè)步驟。首先,軟件通過(guò)某一算法運(yùn)行圖像,為圖像的每個(gè)像素定一個(gè)距離估計(jì)值。這可以通過(guò)一對(duì)相機(jī)和視差效應(yīng)的原理來(lái)實(shí)現(xiàn)。研究人員還研發(fā)了其他技術(shù),使用單個(gè)相機(jī)來(lái)估算像素間距。在這兩種情況下,第二步就是通過(guò)高度估計(jì)值將像素分組,組成不同的對(duì)象(比如汽車(chē)、行人或自行車(chē))。
康奈爾大學(xué)的研究人員將每個(gè)立體圖像對(duì)應(yīng)的像素轉(zhuǎn)換成由激光雷達(dá)傳感器生成的三維點(diǎn)云(點(diǎn)云數(shù)據(jù)指的是:掃描資料以點(diǎn)的形式記錄,每一個(gè)點(diǎn)包含有三維坐標(biāo),有些可能含有顏色信息或反射強(qiáng)度信息)。然后,研究人員將點(diǎn)云數(shù)據(jù)輸入到現(xiàn)有的目標(biāo)識(shí)別算法中。
三位研究人員在其論文中表示,他們的方法在圖像識(shí)別能力上取得了巨大進(jìn)步。例如,在KITTI測(cè)試的一個(gè)版本中,以前純相機(jī)采集數(shù)據(jù)的準(zhǔn)確率最高為30%,而現(xiàn)在借助他們的技術(shù),準(zhǔn)確率已經(jīng)提高到66%。
換句話(huà)說(shuō),“相機(jī)+激光雷達(dá)”的模式比純相機(jī)使用更加精準(zhǔn),這和激光雷達(dá)測(cè)量距離時(shí)精度更高無(wú)關(guān),其主要是因?yàn)榧す饫走_(dá)生成的“原生”數(shù)據(jù)格式恰好更容易讓機(jī)器學(xué)習(xí)算法使用。
這篇論文的作者之一Kilian Weinberger指出,他們的論文寫(xiě)的是通過(guò)將基于相機(jī)的數(shù)據(jù)轉(zhuǎn)換成激光雷達(dá)的點(diǎn)云數(shù)據(jù),顯著縮小兩者之間的差距。
不過(guò),Weinberger也明確表示,激光雷達(dá)和非激光雷達(dá)之間仍有相當(dāng)大的差距。在KITTI測(cè)試中,康奈爾大學(xué)的研究人員將數(shù)據(jù)的準(zhǔn)確率提高到了66%,但在使用相同算法的條件下,直接使用激光雷達(dá)生成的點(diǎn)云數(shù)據(jù)準(zhǔn)確率高達(dá)86%。
轉(zhuǎn)載請(qǐng)注明出處。