
在蒙特利爾舉行的2019機器人和自動化國際會議上,關于此項研究的論文顯示,這種被稱為“變分端到端導航和定位”的技術使用最基本的地圖和攝像機來分析和導航一個新位置,也就是說,在程序里本來是沒有編寫這個新位置的詳細數據信息。
自動駕駛汽車的發展表明,提升自動駕駛能力的任務是多么困難,并揭示了人類和機器智能之間的巨大鴻溝——不僅在計算能力方面,而且在雙方如何解決問題方面也是如此。
舉例來說,只需要一張粗略的地圖和他們的眼睛,人類就能很容易地在陌生、復雜的地方找到路。
夸張一點來說,就像一個人可以從倫敦的特拉法加廣場走到利物浦街站,而他只需注意沿途的酒吧就能完成任務。
可以看到,人類可以利用非常基本的信息,然后將其應用于非常復雜的情況。
人們通過一張簡單的地圖就有可能將其與他們周圍所看到的事物聯系起來。看似無關的數據也可以根據情況被忽略或綜合到導航中。
而即使是在熟悉的區域,自動駕駛汽車也往往依賴非常復雜的傳感器陣列來生成詳細的地圖和數據庫,用于定位、繪制地圖、目標檢測、路徑規劃和轉向控制。
對于像舊金山這樣的大城市來說,需要生成的地圖容量可能有4TB那么大。
MIT研究小組表示,設計“變分端到端導航和定位”的目的是模仿人類方式,從人類司機那里學習,然后只用一個簡單的地圖和攝像機提供的信息來適應新的情況。
這個想法背后的依據,是機器能夠對模糊的地圖信息進行糾正,然后添加細節并確定車輛的位置,這樣系統就可以更新它到預期目的地的路線。
為了教會計算機,該研究小組讓一名人類駕駛員操控一輛自動駕駛版本的豐田普銳斯,同時用幾個攝像頭和一個GPS收集郊區街道、道路結構和障礙物的數據。
與更傳統的依賴非常復雜的機器推理和數據庫的方法不同,MIT的方法是從視覺線索中學習。這意味著當車輛進入一個新的區域時,除了一張基本的地圖,它不需要任何其他詳細的指導。
在計算機科學與人工智能實驗室(CSAIL)的丹妮拉•魯斯(Daniela Rus)領導下,MIT團隊開發的這種端到端導航系統的不同之處在于,就像人類一樣,它是專門為尋找目的地而設計的,而不是專注于沿著設計路線走。
它利用的是從人類駕駛員那里學到的知識,然后運用統計方法來預測一個完整的概率分布,這使得車輛在特定時間點所有可能的轉向命令都會被考慮到。
MIT表示,這一預測基于一種名為卷積神經網絡(CNN)的機器學習模型,一種讓車輛通過與人類司機培訓期間收集的圖像駕駛來學習的方法。
“一開始,在一個T型路口,汽車可以有多種轉向選擇。”魯斯解釋說,“這個模型也從考慮所有這些方向開始,但是當它看到越來越多人類司機的數據時,它看到的是左轉或右轉,但是沒有人直走。”
通過這種方式,自動駕駛汽車就能知道如何處理包括T型路口在內的不同類型的道路。
“變分端到端導航和定位”還允許汽車考慮其他可見的線索,如標志、道路線和其他標記,以確定它所處的道路類型并預測十字路口狀況,以及在特定情況下如何駕駛。
此外,它還可以分析街道模式,以幫助確定自己的位置。具體來說,當車輛“看”到的道路與地圖上的線路高概率匹配時,表明系統對位置進行了正確定位。
這樣,一個4TB大小的城市地圖就可以減少到40GB。
此外,當數據不匹配時,該系統的適應性也要高得多,能夠處理傳感器故障和噪聲輸入。
“我們的目標是實現車輛在新環境下的自主導航。”魯斯表示,“如果我們訓練一輛自動駕駛汽車在城市環境中行駛,比如在劍橋的街道上,系統也應該能夠在樹林中順利地行駛,即使這是一個它從未見過的環境。