亚洲精品无码不卡av,午夜无码免费福利一级,亚洲欧美精品中文在线观看

打造一臺全自動駕駛汽車，到底需要哪些核心技術(shù)？

現(xiàn)在來看，各家公司和研究人員似乎對這個問題有不小分歧。

有人相信單純的攝像頭與計算機視覺就能解決戰(zhàn)斗，但也有人認(rèn)為計算機視覺和先進(jìn)傳感器缺一不可。

特斯拉則是純視覺方案的堅定信徒。

在今年的 CVPR（計算視覺與模式識別大會）上，特斯拉首席 AI 科學(xué)家 Andrej Karpathy 道出了特斯拉如此「執(zhí)拗」的原因。

在這次的 CVPR 上，Karpathy 還詳細(xì)介紹了特斯拉是如何基于深度學(xué)習(xí)開發(fā)自動駕駛系統(tǒng)。

除此之外，他還解釋了為什么特斯拉基于視覺就能讓自動駕駛夢想成真。

就在 7 月 10 日，特斯拉開始在美國地區(qū)正式推送純視覺版的 FSD Beta V9 版本。

純視覺版的特斯拉，完全依靠車輛前端攝像頭來實現(xiàn)自動駕駛。

有海外車主在夜晚體驗了這一版本，還有車主在霧蒙蒙的街道上自由順暢穿行。總體而言，車輛的表現(xiàn)較之前擁有更平滑的加速和減速，轉(zhuǎn)彎時也顯得更加自信。

先是聲稱不用激光雷達(dá)，而后又宣布在量產(chǎn)車上移除毫米波雷達(dá)，特斯拉堅持純視覺自動駕駛的底氣來自哪里？

1、通用計算視覺系統(tǒng)

這一切要從深度神經(jīng)網(wǎng)絡(luò)說起。

深度神經(jīng)網(wǎng)絡(luò)是自動駕駛系統(tǒng)的主干技術(shù)之一。

神經(jīng)網(wǎng)絡(luò)會分析車載攝像頭采集到的數(shù)據(jù)，了解道路、標(biāo)牌、車輛、障礙以及行人的狀況。

不過，深度學(xué)習(xí)并非萬無一失，在檢測圖像中的物體時，這項技術(shù)也會犯錯。這也是大多數(shù)自動駕駛公司，包括領(lǐng)頭羊 Waymo 在內(nèi)，選擇用激光雷達(dá)來搭建三維地圖的原因。

激光雷達(dá)能為神經(jīng)網(wǎng)絡(luò)提供更豐富的信息，以便填補在神經(jīng)網(wǎng)絡(luò)上的數(shù)據(jù)空白。

然而，將激光雷達(dá)融入整個自動駕駛系統(tǒng)，也沒你想象的那么容易。

「你得用激光雷達(dá)提前對周邊環(huán)境進(jìn)行掃描，隨后生成高精地圖。在這之后還要插入所有車道、連接方式以及各種交通信號燈?！筀arpathy 說道?！冈跍y試時，你只需在高精地圖上進(jìn)行定位，就可以自動駕駛了?！?/p>

遺憾的是，用戶說走就走的愿望并沒有那么容易實現(xiàn)，為自動駕駛汽車打造無處不在的高精地圖非常困難。

「只要規(guī)模一大，采集、搭建和維護這些高精地圖就變成了不可能完成的任務(wù)，」Karpathy 說道?！父鼊e說高精地圖的實時更新了?！?/p>

在特斯拉的自動駕駛方案中，并沒有出現(xiàn)激光雷達(dá)和高精地圖。

Karpathy 指出，「所有發(fā)生的事情都會被車上的 8 顆攝像頭記錄下來。」

自動駕駛系統(tǒng)必須弄清楚車道在哪，信號燈在哪，它們狀態(tài)如何，與車輛間有何關(guān)系。

最重要的是，它必須在沒有任何導(dǎo)航信息的路況下完成這一切。

Karpathy 強調(diào)，基于視覺的自動駕駛，在技術(shù)角度更難實現(xiàn)，因為它要求神經(jīng)網(wǎng)絡(luò)僅僅基于視頻輸入就能達(dá)到超強性能的輸出?！覆贿^，一旦取得了突破，就能獲得通用視覺系統(tǒng)，方便部署在地球的任何地方?！?/p>

有了通用視覺系統(tǒng)，車輛就不再需要什么補充信息了。

Karpathy 認(rèn)為，特斯拉正在朝這個方向努力。在此之前，特斯拉自動駕駛依靠的是毫米波雷達(dá)與攝像頭雙重冗余，而現(xiàn)在的新車則直接砍掉了毫米波雷達(dá)。

「我們拋棄了毫米波雷達(dá)，車輛只靠視覺來行駛?！筀arpathy 表示。

在他看來，特斯拉的深度學(xué)習(xí)系統(tǒng)已經(jīng)比毫米波雷達(dá)強一百倍，現(xiàn)在的毫米波雷達(dá)已經(jīng)開始拖后腿了。

2、監(jiān)督學(xué)習(xí)

對于純計算視覺方案，行業(yè)里的主流聲音是，誰也說不清神經(jīng)網(wǎng)絡(luò)能否在沒有激光雷達(dá)深度地圖的情況下完成測距和深度估算。

「人類駕駛依靠的是視覺，所以我們的神經(jīng)網(wǎng)絡(luò)是可以處理視覺輸入，并以此理解周邊物體深度與速度的。」Karpathy 解釋道?！覆贿^最大問題在于，合成的神經(jīng)網(wǎng)絡(luò)能否做到這一點。我認(rèn)為，通過過去幾個月的工作，特斯拉內(nèi)部已經(jīng)達(dá)成明確共識，我們訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)能擔(dān)此大任。」

特斯拉工程師想打造的深度學(xué)習(xí)系統(tǒng)，除了要處理深度、速度和加速度信息，還要同時進(jìn)行目標(biāo)探測。

在他們看來，這是監(jiān)督學(xué)習(xí)的問題，即神經(jīng)網(wǎng)絡(luò)在對標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練后，學(xué)習(xí)目標(biāo)探測及其相關(guān)屬性。

為了訓(xùn)練深度學(xué)習(xí)架構(gòu)，特斯拉團隊需要一個由數(shù)以百萬計視頻組成的龐大數(shù)據(jù)集，并仔細(xì)標(biāo)記其中的目標(biāo)及其屬性。

當(dāng)然，為自動駕駛汽車創(chuàng)建數(shù)據(jù)集也頗為棘手，工程師們必須確保數(shù)據(jù)集有多樣化的道路設(shè)置和不經(jīng)常出現(xiàn)的邊緣情況。

Karpathy 表示：「以我的經(jīng)驗來看，如果你有一個干凈且多樣化的大型數(shù)據(jù)集，并以此為基礎(chǔ)訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)，成功是有保證的」。

3、會自動打標(biāo)簽的數(shù)據(jù)集

借助數(shù)百萬輛「全副武裝」的特斯拉電動車，特斯拉在視覺深度學(xué)習(xí)模型的訓(xùn)練上有著得天獨厚的數(shù)據(jù)優(yōu)勢。

目前，特斯拉的自動駕駛團隊已經(jīng)積累了 1.5PB 的海量數(shù)據(jù)，包括 100 萬個 10 秒的視頻和 60帶有包圍框與深度、速度標(biāo)簽的目標(biāo)。

不過，給這樣的數(shù)據(jù)集打標(biāo)簽是一個巨大的挑戰(zhàn)。

一種方法是通過數(shù)據(jù)標(biāo)簽公對其進(jìn)行人工標(biāo)注。這需要花費大量的人工與時間。

相反，特斯拉團隊使用了一種自動標(biāo)記的技術(shù)。

由于數(shù)據(jù)集是離線標(biāo)記的，因此神經(jīng)網(wǎng)絡(luò)可以來回觀看視頻，將它們的預(yù)測與事實進(jìn)行比較，并不斷調(diào)整參數(shù)。

這與測試時的推理就形成了鮮明對比。

在測試時一切都在實時發(fā)生，深度學(xué)習(xí)模型無法進(jìn)行追溯。

離線標(biāo)記還使工程師們能夠應(yīng)用非常強大且計算密集型的物體檢測網(wǎng)絡(luò)，這些網(wǎng)絡(luò)無法部署在汽車上，也不能用于實時、低延遲的應(yīng)用。

同時，他們還使用雷達(dá)傳感器數(shù)據(jù)來進(jìn)一步驗證神經(jīng)網(wǎng)絡(luò)的推斷，以上種種都提高了標(biāo)簽網(wǎng)絡(luò)的精度。

「離線有離線好處，在數(shù)據(jù)融合上你可以做得更好，」Karpathy 說道。「此外，你還能讓人類參與進(jìn)來，他們可以進(jìn)行更精準(zhǔn)的驗證、編輯等工作?！?/p>

Karpathy 在 CVPR 上展示的視頻顯示，目標(biāo)探測網(wǎng)絡(luò)在穿過障礙、灰塵和云雪時能維持較為一致的水準(zhǔn)。

不過，他并沒有明確解釋自動標(biāo)簽系統(tǒng)到底需要多少人力來進(jìn)行最終修正。但可以肯定的是，人類的參與，在引導(dǎo)自動標(biāo)簽系統(tǒng)向正確的方向發(fā)展上發(fā)揮了關(guān)鍵作用。

另外，在開發(fā)數(shù)據(jù)集時，特斯拉團隊還發(fā)現(xiàn)，有 200 多個觸發(fā)因素表明目標(biāo)探測需要不斷調(diào)整。

這些問題包括不同攝像頭探測結(jié)果的不一致，或者攝像頭和雷達(dá)之間探測結(jié)果不一致。他們還確定了可能需要特別注意的場景，如隧道進(jìn)出和頂部有物體的汽車。

特斯拉花了四個月的時間來開發(fā)和掌握這些觸發(fā)因素。

隨著標(biāo)簽網(wǎng)絡(luò)逐步迭代，「影子模式」中也多了新的功能。

這意味著標(biāo)簽網(wǎng)絡(luò)真正進(jìn)入了消費者的車輛中，而且是在不向汽車發(fā)出指令的情況下默默運行。

在后端，特斯拉工程師會拿這一網(wǎng)絡(luò)的輸出與傳統(tǒng)網(wǎng)絡(luò)、雷達(dá)和司機的行為進(jìn)行比較。

特斯拉團隊經(jīng)歷了七次數(shù)據(jù)工程迭代。

他們起先從一個初始數(shù)據(jù)集開始訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)。

隨后，他們又在真車的影子模式中整合了深度學(xué)習(xí)，并使用觸發(fā)因素來檢測不一致的地方、錯誤和特殊情況。

接著再對錯誤進(jìn)行修訂、糾正。

如果有必要，他們還會將新的數(shù)據(jù)添加到數(shù)據(jù)集中。

「我們一遍又一遍進(jìn)行這個循環(huán)，直到神經(jīng)網(wǎng)絡(luò)變得非常棒，」Karpathy 說道。

正因如此，我們可以將這一架構(gòu)描述為——一個具有巧妙分工的半自動標(biāo)簽系統(tǒng)，其中神經(jīng)網(wǎng)絡(luò)做重復(fù)性的工作，人類負(fù)責(zé)高層次的認(rèn)知問題和邊緣情況。

有趣的是，當(dāng)一位與會者問 Karpathy 觸發(fā)因素的生成是否可以自動化時，他回應(yīng)稱：

「觸發(fā)因素的自動化非常棘手，因為你可以有通用的觸發(fā)因素，但它們很難正確反饋所有情況。例如，對進(jìn)入和離開隧道進(jìn)行觸發(fā)，我們到底需要什么觸發(fā)因素。在這種問題上，人類靠的是直覺。」

4、分層的深度學(xué)習(xí)架構(gòu)

特斯拉自動駕駛團隊需要一個精心設(shè)計的高效神經(jīng)網(wǎng)絡(luò)，以充分利用他們收集到的高質(zhì)量數(shù)據(jù)集。

為此，他們創(chuàng)建了一個分層的深度學(xué)習(xí)架構(gòu)，由不同的神經(jīng)網(wǎng)絡(luò)組成，處理信息并將輸出信息反饋給下一組網(wǎng)絡(luò)。

深度學(xué)習(xí)模型使用卷積神經(jīng)網(wǎng)絡(luò)，從安裝在車身八個攝像頭采集的視頻中提取特征，并使用網(wǎng)絡(luò)將它們?nèi)诤显谝黄稹?/p>

隨后，它跨越時間線將各類特征融合在一起。

這對諸如軌跡預(yù)測和平滑推理不一致的任務(wù)很重要。

在這之后，空間和時間特征被送入神經(jīng)網(wǎng)絡(luò)的分支結(jié)構(gòu)中，Karpathy 將其描述為頭部、樹干和終端。

Karpathy 指出：「你想要這種分支結(jié)構(gòu)，是因為這樣能帶來大量高價值的輸出，但你不能為每個輸出都準(zhǔn)備一個神經(jīng)網(wǎng)絡(luò)」。

分層結(jié)構(gòu)讓特斯拉可以針對不同任務(wù)重復(fù)使用組件，并在不同的推理路徑之間完成特征共享。

神經(jīng)網(wǎng)絡(luò)模塊化結(jié)構(gòu)的另一個好處是可以進(jìn)行分布式開發(fā)。

特斯拉目前組建了一個大型的機器學(xué)習(xí)工程師團隊，專門從事自動駕駛神經(jīng)網(wǎng)絡(luò)的研究。

他們每個人都負(fù)責(zé)神經(jīng)網(wǎng)絡(luò)的一個小組件，并將自己的成果放到更大的網(wǎng)絡(luò)中。

「我們有一個大約 20 人的團隊，正在全職訓(xùn)練神經(jīng)網(wǎng)絡(luò)，他們都在為同一個神經(jīng)網(wǎng)絡(luò)添磚加瓦」。Karpathy 說道。

5、垂直整合

在 CVPR 的演講中，Karpathy 還分享了一些特斯拉訓(xùn)練和微調(diào)深度學(xué)習(xí)模型所用超級計算機的細(xì)節(jié)。

特斯拉的計算集群由 80 個節(jié)點組成，每個節(jié)點包含 8 個英偉達(dá) A100 GPU 和 80 GB 的顯存，相當(dāng)于 5760 個 GPU 和超過 450 TB 的 VRAM。

這個超級計算機還擁有 10 PB 的 NVME 超高速存儲和 640 tbps 的網(wǎng)絡(luò)能力，用來連接所有的節(jié)點，并支撐高效的神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練。

特斯拉還設(shè)計并自研了車載 AI 芯片。

「特斯拉的芯片轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)設(shè)計，用來支撐全自動駕駛應(yīng)用?！筀arpathy 說道。

特斯拉的最大優(yōu)勢在于其強大的垂直整合能力——不僅擁有完整的自動駕駛解決方案，同時還能制造電動汽車和自動駕駛硬件。

現(xiàn)在的特斯拉，處在一個獨特的位置，不但能從其售出的數(shù)百萬輛汽車中收集各種數(shù)據(jù)，借助強悍的計算集群，還可以在其獨有的數(shù)據(jù)集上創(chuàng)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)，并通過影子模式在其售出的電動車上驗證和微調(diào)這些神經(jīng)網(wǎng)絡(luò)。

當(dāng)然，特斯拉還擁有一支由機器學(xué)習(xí)工程師、研究人員和硬件設(shè)計師組成的強大團隊，能將所有的碎片信息進(jìn)行深度整合。

這種垂直整合外加創(chuàng)建數(shù)據(jù)、調(diào)整機器學(xué)習(xí)模型并將其部署在車輛上重復(fù)循環(huán)的方案，使特斯拉打造了業(yè)界獨一無二的純視覺自動駕駛解決方案。

在演講中，Karpathy 還展示了多個例子，比如新的神經(jīng)網(wǎng)絡(luò)，已經(jīng)超過了需要結(jié)合雷達(dá)信息的傳統(tǒng)機器學(xué)習(xí)模型。

Karpathy 也相信，如果這一系統(tǒng)繼續(xù)進(jìn)化，特斯拉可能會直接斷了激光雷達(dá)的活路。更可怕的是，沒有其他公司能夠復(fù)制特斯拉的成功之路。

6、未解決的問題

還有一個問題是，當(dāng)下的深度學(xué)習(xí)是否足以克服自動駕駛所有挑戰(zhàn)。

當(dāng)然，目標(biāo)探測、速度及距離估算也在駕駛中發(fā)揮了很大作用。

不過，人類視覺還執(zhí)行著許多其他復(fù)雜的功能，科學(xué)家稱之為視覺的 "暗物質(zhì)"。這些都是分析視覺輸入的重要組成部分。

深度學(xué)習(xí)模型在進(jìn)行因果推理時非常吃力，當(dāng)模型面對它以前沒有見過的新情況時，就會舉棋不定。

也就是說，雖然特斯拉已經(jīng)設(shè)法搭建了一個非常龐大且多樣化的數(shù)據(jù)集，但開放道路同樣非常復(fù)雜，各種無法預(yù)測的事情隨時可能發(fā)生。

當(dāng)下的 AI 界，在某些問題上依然存在分歧，比如是否需要明確將因果關(guān)系和推理整合到深度神經(jīng)網(wǎng)絡(luò)中，或者說，是否可以通過「直接擬合」來克服因果關(guān)系的障礙——即一個大型的、分布良好的數(shù)據(jù)集是否能支撐適用于萬事萬物的深度學(xué)習(xí)。

從目前來看，特斯拉基于視覺的自動駕駛團隊似乎更傾向于后者。

至于特斯拉的技術(shù)能否經(jīng)受住時間的考驗，我們拭目以待。

轉(zhuǎn)載請注明出處。

• 激光焊接技術(shù)在動力電池制造業(yè)中的應(yīng)用！	• 激光焊接技術(shù)在汽車制造業(yè)的應(yīng)用新趨勢
• 太陽能激光器未來或成為可能	• 激光技術(shù)在木材加工中的應(yīng)用
• 激光用于癌癥研究：研究團隊在質(zhì)子輻照方面取得	• 半導(dǎo)體激光器為汽車激光雷達(dá)發(fā)展注入“燃料”
• 動態(tài)光束激光器重塑材料加工應(yīng)用	• 激光聚變能源的商業(yè)驅(qū)動
• “新”增材制造，汽車行業(yè)如何獲益？	• 激光技術(shù)在動力電池加工上的應(yīng)用

毫米波、激光雷達(dá)統(tǒng)統(tǒng)不要，特斯拉堅持純視覺的底氣何在？

毫米波、激光雷達(dá)統(tǒng)統(tǒng)不要，特斯拉堅持純視覺的底氣何在？