自動(dòng)駕駛是人工智能時(shí)代里最令人興奮的科技之一。過(guò)去大約十年來(lái),自動(dòng)駕駛技術(shù)開始起步并得到一定程度發(fā)展,但目前仍然在等待里程碑式的突破,以期未來(lái)真正實(shí)現(xiàn)規(guī)?;瘧?yīng)用。 Holger Caesar是荷蘭代爾夫特理工大學(xué)智能車輛組助理教授,他的學(xué)術(shù)生涯幾乎和這一代自動(dòng)駕駛浪潮同步啟程,因此,他將過(guò)去約10年的時(shí)光專注在了這個(gè)領(lǐng)域的技術(shù)研究。其間,他在自動(dòng)駕駛明星公司Motional作為項(xiàng)目負(fù)責(zé)人主導(dǎo)開發(fā)了自動(dòng)駕駛數(shù)據(jù)集nuScenes和nuPlan,自2019年以來(lái),這兩個(gè)數(shù)據(jù)集也位居全球范圍內(nèi)最為使用廣泛的開源自動(dòng)駕駛數(shù)據(jù)集前列。 事實(shí)上,數(shù)據(jù)是算法、算力之外第三駕驅(qū)動(dòng)人工智能發(fā)展的馬車,不少行業(yè)人士都認(rèn)為,好的數(shù)據(jù)集十分難得,甚至是算力和算法發(fā)揮價(jià)值的前提條件。 在人工智能新一輪浪潮來(lái)臨時(shí),Holger Caesar正致力于將自動(dòng)駕駛數(shù)據(jù)集帶向第三代。他告訴南方財(cái)經(jīng)全媒體記者:“自動(dòng)駕駛數(shù)據(jù)集的標(biāo)注量可以縮小至目前水平的1/20至1/100,未來(lái)可能覆蓋全球場(chǎng)景?!逼渲?,基礎(chǔ)模型的迅速發(fā)展帶來(lái)了更便利的自動(dòng)化,但帶來(lái)的行業(yè)格局演變也正引起從業(yè)者的警惕。 數(shù)據(jù)標(biāo)注進(jìn)入自動(dòng)化的第三代“基于模型訓(xùn)練、減少人工標(biāo)注,數(shù)據(jù)集應(yīng)該是更加可拓展(scalable)、成本可負(fù)擔(dān)(affordable)的?!?月末在上海,Holger向南方財(cái)經(jīng)全媒體記者講述了他開發(fā)三代自動(dòng)駕駛數(shù)據(jù)集的經(jīng)歷。 在自動(dòng)駕駛數(shù)據(jù)集起步之初,數(shù)據(jù)采集的小時(shí)數(shù)、車輛行駛區(qū)域等均受到限制,而且所有的標(biāo)注全由人力操作。第一代數(shù)據(jù)集nuScenes正是如此,它采樣于波士頓和新加坡,總時(shí)長(zhǎng)僅有5.5小時(shí)。 盡管如此,這已經(jīng)包含大量信息。這短短數(shù)小時(shí)的素材獲取了1000個(gè)場(chǎng)景,同時(shí)涵蓋北美洲和亞洲城市不同的路況和天氣,也同時(shí)覆蓋了左行和右行交通規(guī)則,其中,多雨的新加坡給數(shù)據(jù)標(biāo)注帶來(lái)了相當(dāng)大的挑戰(zhàn)。 nuScenes也是全球首個(gè)全感應(yīng)的數(shù)據(jù)集,這意味著它并非僅依靠相機(jī)或激光雷達(dá)采集數(shù)據(jù),而是結(jié)合了二者以及雷達(dá)、GPS和IMU(慣性測(cè)量單元)數(shù)據(jù)。這個(gè)數(shù)據(jù)集最終包括140萬(wàn)張圖片,其中在4萬(wàn)張關(guān)鍵圖片中包含140萬(wàn)個(gè)標(biāo)注框。 從2016年到2019年,全球不同機(jī)構(gòu)采集均使用人工方法為自動(dòng)駕駛數(shù)據(jù)集進(jìn)行標(biāo)注,nuScenes的標(biāo)注量已經(jīng)足夠說(shuō)明,人工方法下的數(shù)據(jù)集建立有場(chǎng)景數(shù)量天花板(通常不超過(guò)1000個(gè)),而且開發(fā)時(shí)間長(zhǎng)、人工培訓(xùn)成本高。盡管如此,初代數(shù)據(jù)集的開發(fā)令自動(dòng)駕駛研發(fā)打開了局面。 第二代數(shù)據(jù)集nuPlan是全球第一個(gè)大規(guī)模的規(guī)劃型數(shù)據(jù)集,這一代數(shù)據(jù)加強(qiáng)了標(biāo)注階段的自動(dòng)化,將數(shù)據(jù)集的小時(shí)數(shù)從5小時(shí)水平提升到1000小時(shí)以上。數(shù)據(jù)最終采集自波士頓、匹茲堡、拉斯維加斯和新加坡,包含1282個(gè)小時(shí)的行車數(shù)據(jù)。使用如此大的訓(xùn)練量,將數(shù)據(jù)集能力從感知(perception)提升到了規(guī)劃(planning),也意味著將自動(dòng)駕駛技術(shù)從低等級(jí)的輔助駕駛進(jìn)一步提升到了自動(dòng)駕駛能力。 和上一代數(shù)據(jù)集不同的是,nuPlan將離線和實(shí)時(shí)數(shù)據(jù)進(jìn)行了結(jié)合,利用離線感知(offline perception)進(jìn)行了場(chǎng)景標(biāo)記和交通燈模擬,更適合用于自動(dòng)駕駛規(guī)劃(planning)和預(yù)測(cè)(Prediction)。 然而,底層離線感知系統(tǒng)仍然需要人力標(biāo)注,這仍然導(dǎo)致數(shù)據(jù)集昂貴且耗時(shí)。 目前,Holger設(shè)想第三代數(shù)據(jù)集將幾乎不需要人類標(biāo)注工作,這樣可以極大降低數(shù)據(jù)集開發(fā)成本,并進(jìn)一步提升可拓展性?!澳壳埃騼H有少數(shù)超大公司可以負(fù)擔(dān)自動(dòng)駕駛數(shù)據(jù)集開發(fā),我希望能將AI開發(fā)進(jìn)一步普及化,激發(fā)小公司和創(chuàng)新公司利用AI的能力?!盚olger稱。 第三代數(shù)據(jù)集利用主動(dòng)學(xué)習(xí)(active learning)、自監(jiān)督學(xué)習(xí)(self supervised learning)、基礎(chǔ)模型(foundation model)和語(yǔ)言模型(language model)等技術(shù),這些方法可以將人力標(biāo)注工作降低數(shù)個(gè)數(shù)量級(jí),大約是上一代技術(shù)標(biāo)注量的1/20至1/100。它還能靈活地適應(yīng)新車輛、新城市等變量,未來(lái)可以開發(fā)有關(guān)自行車、火車和船只的新數(shù)據(jù)集。 “未來(lái),數(shù)據(jù)集開發(fā)方法還可以進(jìn)一步應(yīng)用到機(jī)器人、無(wú)人機(jī)、衛(wèi)星、安防等領(lǐng)域?!盚olger表示,這意味著自動(dòng)駕駛領(lǐng)域的又一新技術(shù)將帶來(lái)新的行業(yè)革命。 人工智能令從業(yè)者興奮人工智能為自動(dòng)駕駛解決了一個(gè)又一個(gè)難題,令后者不再只是一個(gè)封閉場(chǎng)景里的幻想,而更可能在未來(lái)于廣闊世界里成為現(xiàn)實(shí)。作為從業(yè)者,從2022年下半年開始的人工智能浪潮令他感到興奮,同時(shí)新格局變化也令他產(chǎn)生了一些警惕。 首先是基礎(chǔ)模型經(jīng)由“轉(zhuǎn)換器(transformer)”改造以來(lái),變得更加強(qiáng)大,適應(yīng)大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型建立,并產(chǎn)生了不少震撼市場(chǎng)的大語(yǔ)言模型和多模態(tài)模型。“Transformer的到來(lái)讓人驚嘆,它把數(shù)據(jù)集提升到了一個(gè)高得多的量級(jí),分析能力也更強(qiáng)勁了。”Holger指出。 Transformer是一種新型神經(jīng)網(wǎng)絡(luò),大眾熟知的ChatGPT、GPT系列模型、BERT模型等正是基于transformer開發(fā)的。 目前,全球基礎(chǔ)模型仍在不斷開發(fā),而這給數(shù)據(jù)標(biāo)注帶來(lái)了更多便利。Holger表示,這是因?yàn)榛A(chǔ)模型能讓圖片訓(xùn)練適用于所有條件,也就是說(shuō),當(dāng)天氣、城市、攝像頭等條件變化時(shí),模型仍能自動(dòng)訓(xùn)練。 隨著大語(yǔ)言模型在全球范圍的流行,Holger認(rèn)為這也可以給數(shù)據(jù)標(biāo)注行業(yè)帶來(lái)更多便利?!霸O(shè)想使用自然語(yǔ)言進(jìn)行數(shù)據(jù)標(biāo)注,例如對(duì)一張圖片進(jìn)行所有車輛標(biāo)注,還能進(jìn)一步修改標(biāo)注目標(biāo),例如將圖片中的卡車排除標(biāo)注,這會(huì)令數(shù)據(jù)標(biāo)注更加方便。”Holger稱。 除此以外,數(shù)據(jù)集訓(xùn)練也在更趨人道、環(huán)保和節(jié)能。由于在第三代數(shù)據(jù)集中使用自監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí),標(biāo)注量成倍縮小?!皬乃懔Φ慕嵌?,這更加高效,也意味著更節(jié)能環(huán)保?!盚olger稱,另外,數(shù)據(jù)標(biāo)注行業(yè)從前幾乎等同于“低薪高壓”工作的代名詞,未來(lái)也可能縮小這種工作量,轉(zhuǎn)而增強(qiáng)職業(yè)訓(xùn)練技能。 此外,新的模型訓(xùn)練也將覆蓋更多的“邊界情況(corner case)”,即那些不常見(jiàn)但對(duì)自動(dòng)駕駛安全至關(guān)重要的場(chǎng)景,令自動(dòng)駕駛真正從實(shí)驗(yàn)室里走到現(xiàn)實(shí)道路中?!霸诘谌夹g(shù)中,我們正試圖通過(guò)結(jié)合無(wú)監(jiān)督學(xué)習(xí)去抓捕混合的車輛等,從而覆蓋更多的‘邊界’?!盚olger稱。 不過(guò),部分人工智能科技的發(fā)展正在悄然改變行業(yè)格局,這給從業(yè)者帶來(lái)了一些關(guān)于未來(lái)的隱憂。 算力硬件設(shè)備明顯變得更加昂貴、供不應(yīng)求,這是因?yàn)槌笮腿斯ぶ悄芄菊诙诜e算力芯片,而部分公司擁有供應(yīng)相關(guān)芯片的壟斷地位?!拔磥?lái)的算力市場(chǎng)上,應(yīng)該有更多公司供應(yīng)算力芯片,而非只有一兩家?!盚olger表示。 此外,“盡管基礎(chǔ)模型的通用性非常強(qiáng)大,但這可能導(dǎo)致技術(shù)掌握在個(gè)別超大公司手中,這對(duì)于其他也在開發(fā)基礎(chǔ)模型的創(chuàng)新機(jī)構(gòu)不利?!盚olger稱。 不過(guò),Holger對(duì)大學(xué)和創(chuàng)新型研究機(jī)構(gòu)在人工智能中的角色保持信心?!按笮蜕虡I(yè)機(jī)構(gòu)并不總是關(guān)心人工智能技術(shù)發(fā)展,因此這是我們(大學(xué))發(fā)揮創(chuàng)新之處,我們也將把現(xiàn)有商用人工智能變得更加高效節(jié)能?!盚olger稱。 商用AI可能會(huì)追逐周期浪潮,資金總是在行業(yè)高峰期進(jìn)行堆積,但在行業(yè)低谷期撤退。Holger認(rèn)為,人工智能發(fā)展也應(yīng)該更加理性,一些熱潮還需要時(shí)間驗(yàn)證。 更多內(nèi)容請(qǐng)下載21財(cái)經(jīng)APP |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽