三级在线视频AV免费观看,久久er精品视频

靠一個攝像頭拍下的圖像做3D目標檢測，究竟有多難？目前最先進系統(tǒng)的成績也不及用激光雷達做出來的1/10。

一份來自劍橋的研究，用單攝像頭的數(shù)據(jù)做出了媲美激光雷達的成績。

還有好事網(wǎng)友在Twitter上驚呼：

這個能不能解決特斯拉不用激光雷達的問題？馬斯克你看見了沒？

靠“直覺”判斷

為何人單眼能做到3D識別，而相機卻做不到？

因為直覺。

人能夠根據(jù)遠小近大的透視關系，得出物體的大小和相對位置關系。

而機器識別拍攝的2D照片，是3D圖形在平面上的投影，已經(jīng)失去了景深信息。

為了識別物體遠近，無人車需要安裝激光雷達，通過回波獲得物體的距離信息。這一點是只能獲得2D信息的攝像頭難以做到的。

為了讓攝像頭也有3D世界的推理能力，這篇論文提出了一種“正投影特征轉換”（OFT）算法。

作者把這種算法和端到端的深度學習架構結合起來，在KITTI 3D目標檢測任務上實現(xiàn)了領先的成績。

這套算法包括5個部分：

這種方法通過將基于圖像的特征映射到一個正交3D空間中，打破了圖像的束縛。在這個3D空間里，各個物體比例一致、距離也是有意義的。

效果遠超Mono3D

作者用自動駕駛數(shù)據(jù)集KITTI中3712張訓練圖像，3769張圖像對訓練后的神經(jīng)網(wǎng)絡進行檢測。并使用裁剪、縮放和水平翻轉等操作，來增加圖像數(shù)據(jù)集的樣本數(shù)量。

作者提出了根據(jù)KITTI 3D物體檢測基準評估兩個任務的方法：最終要求每個預測的3D邊界框應與相應實際物體邊框相交，在汽車情況下至少為70％，對于行人和騎自行車者應為50％。

與前人的Mono3D方法對比，OFT在鳥瞰圖平均精確度、3D物體邊界識別上各項測試成績上均優(yōu)于對手。

尤其在探測遠處物體時要遠超Mono3D，遠處可識別出的汽車數(shù)量更多。甚至在嚴重遮擋、截斷的情況下仍能正確識別出物體。在某些場景下甚至達到了3DOP系統(tǒng)的水平。

不僅在遠距離上，正投影特征轉換（OFT-Net）在對不同距離物體進行評估時都都優(yōu)于Mono3D。

但是與Mono3D相比，這套系統(tǒng)性能也明顯降低得更慢，作者認為是由于系統(tǒng)考慮遠離相機的物體造成的。

在正交鳥瞰圖空間中的推理顯著提高了性能。為了驗證這一說法，論文中還進行了一項研究：逐步從自上而下的網(wǎng)絡中刪除圖層。

下圖顯示了兩種不同體系結構的平均精度與參數(shù)總數(shù)的關系圖。

趨勢很明顯，在自上而下網(wǎng)絡中刪除圖層會顯著降低性能。

這種性能下降的一部分原因可能是，減少自上而下網(wǎng)絡的規(guī)模會降低網(wǎng)絡的整體深度，從而降低其代表性能力。

從圖中可以看出，采用具有大型自上而下網(wǎng)絡的淺前端（ResNet-18），可以實現(xiàn)比沒有任何自上而下層的更深層網(wǎng)絡（ResNet-34）更好的性能，盡管有兩種架構具有大致相同數(shù)量的參數(shù)。

資源

論文：

Orthographic Feature Transform for Monocular 3D Object Detection

https://arxiv.org/abs/1811.08188

作者表示等論文正式發(fā)表后，就放出預訓練模型和完整的源代碼。

轉載請注明出處。

• 激光雷達在大氣探測、目標捕獲等領域具有較廣泛	• Innovusion 與福耀集團達成合作，共同致力于激
• 激光雷達投資風口，上游器件放量千億市場規(guī)模	• 激光教父攻克“卡脖子”35項關鍵技術之一的激光
• 中國科學家研發(fā)迄今像素最高的固態(tài)激光雷達，產(chǎn)	• 開啟量產(chǎn)元年的激光雷達，難逃堆料競爭？
• 馬斯克瘋狂噴的激光雷達，究竟有啥“功效”讓國	• 馬斯克diss過的激光雷達，正在爆發(fā)前夜
• 馬斯克diss激光雷達，日產(chǎn)無意間成特斯拉“盟友	• KTH研發(fā)小型激光雷達，更輕更省錢