應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

AI賽車手狂虐人類登Nature!1000臺(tái)PS4訓(xùn)練,極限超車獨(dú)霸賽道

2022-02-11 10:39 51cto

導(dǎo)讀:今日,AI賽車手再次戰(zhàn)勝人類玩家,登上Nature封面!

高能力的AI在各種游戲中打敗人類,這些消息近年來(lái)頻頻出現(xiàn)。

不管是早年的國(guó)際象棋、問(wèn)答比賽,還是近年的圍棋、星際爭(zhēng)霸、刀塔2。

在AI選手面前,人類的專業(yè)選手簡(jiǎn)直被打到要哭。

今日,AI賽車手再次戰(zhàn)勝人類玩家,登上Nature封面!

索尼公司親自下場(chǎng)開(kāi)發(fā)的AI「GT Sophy」,讓電子賽車游戲加入了上述名單:不管是日本的還是其他國(guó)家的頭挑電競(jìng)選手,在GT賽車中都比不過(guò)索尼拿1000臺(tái)PS4主機(jī)訓(xùn)練出的AI。

GT Sophy,或者可以親切地稱為「蘇菲」,是索尼內(nèi)部的AI事業(yè)部、PDI工作室、互動(dòng)娛樂(lè)子公司聯(lián)合研發(fā)的項(xiàng)目,耗時(shí)逾5年。

AI事業(yè)部提供深度學(xué)習(xí)算法、負(fù)責(zé)訓(xùn)練模型;PDI工作室出的游戲作為AI訓(xùn)練和驗(yàn)證的環(huán)境;互動(dòng)娛樂(lè)公司的云計(jì)算架構(gòu)將千臺(tái)PS4主機(jī)串聯(lián)起來(lái)作為大規(guī)模訓(xùn)練架構(gòu)和平臺(tái)。

作為一種神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)程序,GT Sophy在遵守賽車規(guī)則的同時(shí),展現(xiàn)出了超凡的行駛速度、操控能力和駕駛戰(zhàn)術(shù)。

斯坦福大學(xué)教授Christian Gerdes在Nature的一篇文章寫道: 「在這場(chǎng)面對(duì)面的競(jìng)爭(zhēng)中,AI車手如此嫻熟地超越人類玩家,代表著人工智能的一項(xiàng)里程碑式的成就?!?/p>

龍之徑上演「速度與激情」

這有什么厲害的???

說(shuō)來(lái),賽車比賽的目的很簡(jiǎn)單,就是用更短時(shí)間超越競(jìng)爭(zhēng)對(duì)手,你就贏了。

《速度與激情》中的硬核碰撞讓人熱血沸騰,而真正賽場(chǎng)上的終極對(duì)決可是需要實(shí)打?qū)嵉膽?zhàn)術(shù)。

索尼PDI工作室在東京提供場(chǎng)地,請(qǐng)GT賽車游戲世界范圍內(nèi)的一流電競(jìng)選手來(lái)與「GT Sophy」及其變體比賽。

比賽節(jié)選

在GT Sophy與人類選手的第一場(chǎng)比賽中,選址Dragon Trail龍之徑展開(kāi)精彩對(duì)決。

整條跑道全長(zhǎng)5209米,劃分出S1,S2,S3三個(gè)區(qū)間,以及17處彎道。

比賽的始發(fā)位置是以AI、真人交錯(cuò)的順序排列,共8名車手。

不過(guò),比賽一開(kāi)始,名叫薇奧拉(Violette)的GT Sophy人工智能變體就完成了對(duì)人類車手的超越,排到第二位。

AI隊(duì)友波爾多(Bordeaux)則一直保持著第一的位置。

到T2/3轉(zhuǎn)彎處,AI選手維特(Verte)嗖地一下沖到了人類選手山中智瑛前面。

比賽中途,排在第一,第二的Sophy AI在沒(méi)有阻擋情況下,選擇了最優(yōu)路線。

比賽進(jìn)行到最后一區(qū)S3,賽車手們需要繞過(guò)T17大彎道后就能迅速?zèng)_向終點(diǎn)。

比賽結(jié)果顯示,排在前三的賽車選手,GT Sophy占據(jù)兩席,只有人類選手國(guó)分涼太沖進(jìn)了前三。

國(guó)分涼太一直是一個(gè)冷靜沉著的賽車手,在2019年摘得國(guó)際汽車聯(lián)合會(huì)跑車錦標(biāo)賽第五輪?wèn)|京國(guó)家杯冠軍,2020年FIA GT Championship國(guó)家杯第三名。

這個(gè)結(jié)果的產(chǎn)生,其實(shí)從資格賽中就可以看出一些端倪。

畫面右邊的AI選手在過(guò)彎時(shí)不僅更穩(wěn)定,而且選擇的路線要明顯優(yōu)于人類玩家。

在游戲中的馬焦雷湖賽道上另一場(chǎng)比賽中,四款A(yù)I擊敗了四個(gè)人類對(duì)手。

該次比賽中AI軍團(tuán)中的最杰出者「GT羅格」在比賽的三個(gè)計(jì)分圈中都處于第一位置,領(lǐng)先最快的人類選手超過(guò)5秒。不過(guò)馬焦雷湖賽道上,也有AI車手失誤,過(guò)彎時(shí)轉(zhuǎn)向不足,一頭撞墻。

GT Sophy在2021年7月的實(shí)驗(yàn)中,還只能在沒(méi)有其他車的虛擬空賽道上,跑出超過(guò)人類選手的單純競(jìng)速成績(jī)。訓(xùn)練到2021年10月,就可以在真正的游戲賽車環(huán)節(jié)擊敗一群人類對(duì)手了。

2020年GT賽車世界杯上的明星選手宮園拓真說(shuō):「AI的駕駛方式,我們想都想不出?!沟渤姓J(rèn)「GT Sophy」的戰(zhàn)術(shù)決策很有用。

被AI擊敗的宮園拓真一臉不服

可以看到,賽車不僅僅是速度和反應(yīng)時(shí)間的問(wèn)題,駕駛賽車極其考驗(yàn)一個(gè)人的極限戰(zhàn)略,因此讓機(jī)器掌握并非易事。

正如Nature一文所指出的那樣,若想實(shí)現(xiàn)這一目標(biāo)需要戰(zhàn)勝極其復(fù)雜的物理挑戰(zhàn),因?yàn)樵谫惖郎像Y騁需謹(jǐn)慎利用輪胎與地面之間「有限的摩擦力」。

比如,用摩擦力來(lái)制動(dòng),就會(huì)減少繞過(guò)拐彎的力量。

更具體地說(shuō),每個(gè)接地輪胎可以產(chǎn)生一個(gè)與垂直力成比例的摩擦力,或荷載。當(dāng)汽車加速時(shí),荷載轉(zhuǎn)移到后胎,前胎的摩擦力減小。

這可能會(huì)導(dǎo)致轉(zhuǎn)向不足,在這種情況下,方向盤不能產(chǎn)生更多的過(guò)彎力,會(huì)在沖出彎道時(shí)保持事實(shí)上的手剎狀態(tài)。

相反的,當(dāng)汽車剎車時(shí),負(fù)載轉(zhuǎn)移到汽車的前部。這可能會(huì)導(dǎo)致轉(zhuǎn)向過(guò)度,也就是說(shuō)后胎會(huì)失去牽引力,汽車會(huì)激烈打轉(zhuǎn)。

再加上復(fù)雜的賽道地形,以及調(diào)整負(fù)荷轉(zhuǎn)移的復(fù)雜性與懸掛車輛,以及賽車的挑戰(zhàn)變得明顯。

為了贏得比賽,車手必須選擇讓賽車盡可能保持在摩擦限制范圍內(nèi)的軌跡。

如果轉(zhuǎn)彎時(shí)剎車太早,你的車就會(huì)慢下來(lái),浪費(fèi)時(shí)間。剎車太晚,就不會(huì)有足夠的轉(zhuǎn)彎力來(lái)保持你想要的賽車線。再加上,剎車太用力可能會(huì)引起車體旋轉(zhuǎn)。

盡管賽車的操縱極限非常復(fù)雜,但物理學(xué)已經(jīng)很好地解釋了這些極限。因此,它們可以被計(jì)算或?qū)W習(xí)也是理所當(dāng)然的。

在一場(chǎng)面對(duì)面的比賽中,GT Sophy非但沒(méi)有利用單圈時(shí)間優(yōu)勢(shì)戰(zhàn)勝對(duì)手,反而在最后輕而易舉超過(guò)競(jìng)爭(zhēng)對(duì)手。

就比如,在第一比賽最后沖刺節(jié)點(diǎn)上,2個(gè)人類賽車手試圖阻斷2個(gè)AI賽車手的路徑。

但GT Sophy成功地找到了兩條不同的路線,最后一舉超越人類玩家沖向終點(diǎn)。

通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練后,GT Sophy學(xué)會(huì)了在不同的情況下通過(guò)角落走不同的路線。

那么,這個(gè)AI超人賽車手究竟是如何煉成的呢?

AI賽車手如何煉成?

與其它規(guī)則、玩法較固定的游戲不同,GT賽車游戲的玩家戰(zhàn)術(shù)選項(xiàng)是很開(kāi)放的。而且GT賽車游戲的特色在于較好地模擬了真實(shí)世界的物理定律。

所以兼具虛擬與真實(shí)世界雙重難度的GT賽車游戲,要讓AI玩好還真不容易。

首先,我們需要一個(gè)超真實(shí)的模擬器作為訓(xùn)練環(huán)境。

Gran Turismo? Sport(GT Sport)是由Polyphony Digital與FIA(國(guó)際汽車聯(lián)合會(huì))合作設(shè)計(jì)制作的PlayStation 4的駕駛模擬器。

GT Sport有明確規(guī)則和判斷標(biāo)準(zhǔn),不用「獵豹」也能保證公平的競(jìng)賽環(huán)境。(doge)

此外,GT Sport盡可能真實(shí)地再現(xiàn)了現(xiàn)實(shí)世界的賽車環(huán)境,包括其賽車、賽道,甚至空氣阻力和輪胎摩擦等物理現(xiàn)象。

在汽車制造商的指導(dǎo)下,汽車的細(xì)節(jié)被準(zhǔn)確地再現(xiàn),從車體的曲線,到車身面板之間的縫隙寬度以及轉(zhuǎn)向燈和大燈的形狀。

游戲環(huán)境有了之后,就需要對(duì)訓(xùn)練環(huán)境的配置了。

DART是索尼AI為此量身定制的網(wǎng)絡(luò)架構(gòu),讓研究者能用互動(dòng)娛樂(lè)公司的云計(jì)算游戲平臺(tái)串聯(lián)起1000臺(tái)PS4游戲主機(jī)來(lái)長(zhǎng)時(shí)間訓(xùn)練GT Sophy。

千臺(tái)PS4主機(jī)陣列,游戲宅的豪華夢(mèng)想

在如此的架構(gòu)上,各個(gè)異地?cái)?shù)據(jù)中心間的所有計(jì)算資源被有效整合。研究者可以輕松確定實(shí)驗(yàn)參數(shù)、設(shè)定當(dāng)云資源可用時(shí)實(shí)驗(yàn)自動(dòng)進(jìn)行、并且搜集能在瀏覽器中觀察的數(shù)據(jù)。

研究者以此平臺(tái)順暢執(zhí)行了數(shù)百次模擬實(shí)驗(yàn),將AI的技戰(zhàn)術(shù)提高到之前未及的高度。


最后,就是對(duì)AI車手GT Sophy的訓(xùn)練了。

與那些在游戲中戰(zhàn)勝人類的AI前輩相同,為了避免一開(kāi)始將游戲行為人工編碼成復(fù)雜龐大的行為規(guī)則數(shù)據(jù)集,GT Sophy也采用深度強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行訓(xùn)練。

當(dāng)智能體,也就是GT Sophy在訓(xùn)練環(huán)境中采取行動(dòng)時(shí),算法根據(jù)其導(dǎo)致的結(jié)果給予獎(jiǎng)勵(lì)或懲罰。在得到了獎(jiǎng)勵(lì)(或懲罰)之后,GT Sophy會(huì)更新其對(duì)世界的認(rèn)知,以確定其下一步行動(dòng)。

索尼人工智能研究人員和工程師開(kāi)發(fā)了創(chuàng)新的強(qiáng)化學(xué)習(xí)技術(shù),包括一種新的訓(xùn)練算法QR-SAC,給AI的各種高速駕駛決策做出規(guī)則和物理限制內(nèi)的合理性后果分析。并用智能體可理解的賽車規(guī)則編碼,以及獲得一種促進(jìn)細(xì)微賽車技能的訓(xùn)練方案。

在強(qiáng)化學(xué)習(xí)中,AI賽車手需要考慮其行為的長(zhǎng)期后果,并能在學(xué)習(xí)過(guò)程中獨(dú)立收集自己的數(shù)據(jù),避免了對(duì)復(fù)雜的手工編碼行為規(guī)則的需求。

當(dāng)然,處理像Gran Turismo這樣的復(fù)雜領(lǐng)域,依然需要同樣復(fù)雜和細(xì)微的算法、獎(jiǎng)勵(lì)和訓(xùn)練場(chǎng)景。

在訓(xùn)練的后期,研究人員更是加入了不同數(shù)量的對(duì)手,鍛煉GT Sophy在和人類車手對(duì)抗時(shí)的

從結(jié)果上看,索尼開(kāi)發(fā)的算法可謂是效果拔群。

經(jīng)過(guò)短短數(shù)個(gè)小時(shí)的訓(xùn)練,GT Sophy就已經(jīng)能上賽道了,而且「一兩天內(nèi)」的速度比其訓(xùn)練數(shù)據(jù)集中95%的駕駛員都要快。

當(dāng)然,95%是遠(yuǎn)遠(yuǎn)不夠的。

又繼續(xù)訓(xùn)練了大約45,000小時(shí)之后,GT Sophy終于在三條賽道(克羅地亞海邊龍徑賽道、意大利馬焦雷湖大獎(jiǎng)賽道和法國(guó)薩爾特賽道)上完全戰(zhàn)勝人類車手。

然而,在和人類的比賽匯總,AI具有著很多先天優(yōu)勢(shì),比如完美的記憶力和快速的反應(yīng)時(shí)間。

尤其是GT Sophy有著一張精確的賽道地圖,上面標(biāo)注著賽道邊界的坐標(biāo),以及「關(guān)于每個(gè)輪胎載荷、每個(gè)輪胎的滑動(dòng)角度和其他車輛狀態(tài)的精確信息」。

不過(guò),依然可以對(duì)另外兩個(gè)要素進(jìn)行限制:作用頻率和反應(yīng)時(shí)間。

GT Sophy的輸入信號(hào)被限制在10赫茲,理論上人類的最大輸入信號(hào)為60赫茲,而這有時(shí)會(huì)讓人類車手在高速行駛時(shí)表現(xiàn)出「更平穩(wěn)的動(dòng)作」。

在反應(yīng)時(shí)間方面,GT Sophy能夠在23-30毫秒內(nèi)對(duì)比賽環(huán)境中的事件做出反應(yīng),這比專業(yè)運(yùn)動(dòng)員估計(jì)的最高反應(yīng)時(shí)間200-250毫秒要快得多。為了彌補(bǔ)這一缺陷,研究人員增加了人為延遲,訓(xùn)練GT Sophy的反應(yīng)時(shí)間分別為100毫秒、200毫秒和250毫秒。

即便如此,GT Sophy還是在「所有這三項(xiàng)測(cè)試都達(dá)到了超人圈速?!?/p>

索尼AI事業(yè)部的負(fù)責(zé)人承認(rèn),讓AI學(xué)會(huì)文明比賽不卑不亢還蠻困難的,在面對(duì)對(duì)手時(shí)做到戰(zhàn)術(shù)決策既不太過(guò)暴躁又不太過(guò)謹(jǐn)慎,任務(wù)量還是很大的。

首先要讓AI在理解游戲環(huán)境中虛擬賽車位置、虛擬氣動(dòng)模型、賽道圖形、基本駕駛動(dòng)作的基礎(chǔ)上學(xué)會(huì)開(kāi)車;然后是各種GT賽車游戲戰(zhàn)術(shù),例如滑流設(shè)障、插線超車、各種阻擋卡位;最后還要讓AI學(xué)會(huì)必要的賽道禮儀規(guī)則,例如避免惡意犯規(guī)碰撞、尊重對(duì)手的車道安全等等。

賽車控制

QR-SAC算法可以明確地推理出GT Sophy高速行動(dòng)的各種可能結(jié)果。對(duì)駕駛行為的后果和其中的不確定性進(jìn)行核算,幫助GT蘇菲在物理極限下過(guò)彎,并在與不同種類的對(duì)手比賽時(shí)考慮復(fù)雜的可能性?!?/p>

賽車戰(zhàn)術(shù)

通過(guò)加入混合場(chǎng)景的訓(xùn)練,使用人工制作的、可能在每個(gè)賽道都很關(guān)鍵的比賽情況,以及幫助智能體學(xué)習(xí)這些技能的專門對(duì)戰(zhàn)對(duì)手。

這些技能培養(yǎng)方案幫助GT Sophy獲得了專業(yè)的賽車技術(shù),包括處理?yè)頂D的起跑、用彈射式超車反制滑流設(shè)障,以及防御性的機(jī)動(dòng)動(dòng)作。

賽車禮儀

為了幫助GT Sophy學(xué)習(xí)賽道禮儀,索尼AI研究人員找到了將賽車的書面和非書面規(guī)則編碼到復(fù)雜的獎(jiǎng)勵(lì)函數(shù)中的方法。

研究小組還發(fā)現(xiàn)有必要平衡對(duì)手的數(shù)量,以確保GT Sophy在訓(xùn)練賽表現(xiàn)出程度恰好的競(jìng)爭(zhēng)性,與人比賽時(shí)不會(huì)變得過(guò)于激進(jìn)或膽小。