首頁 > 資訊 > 要聞 > 正文

騰訊機器狗再進化 通過深度學(xué)習(xí)掌握自主決策能力

2023-06-15 19:10:09來源:深圳商報

讀創(chuàng) 深圳商報記者陳姝6月14日,騰訊RoboticsX機器人實驗室公布了智能

讀創(chuàng)/深圳商報記者 陳姝


【資料圖】

6月14日,騰訊Robotics X機器人實驗室公布了智能體研究的最新進展,通過將前沿的預(yù)訓(xùn)練AI模型和強化學(xué)習(xí)技術(shù)應(yīng)用到機器人控制領(lǐng)域,讓機器狗 Max 的靈活性和自主決策能力得到大幅提升。

讓機器狗像人和動物一樣靈活且穩(wěn)定的運動,是機器人研究領(lǐng)域長期追求的目標,深度學(xué)習(xí)技術(shù)的不斷進步,使得讓機器通過“學(xué)習(xí)”來掌握相關(guān)能力,學(xué)會應(yīng)對復(fù)雜多變的環(huán)境變得可行。

引入預(yù)訓(xùn)練和強化學(xué)習(xí):讓機器狗更加靈動

騰訊Robotics X機器人實驗室通過引入預(yù)訓(xùn)練模型和強化學(xué)習(xí)技術(shù),可以讓機器狗分階段進行學(xué)習(xí),有效的將不同階段的技能、知識積累并存儲下來,讓機器人在解決新的復(fù)雜任務(wù)時,不必重新學(xué)習(xí),而是可以復(fù)用已經(jīng)學(xué)會的姿態(tài)、環(huán)境感知、策略規(guī)劃多個層面的知識,進行“舉一反三”,靈活應(yīng)對復(fù)雜環(huán)境。

這一系列的學(xué)習(xí)分為三個階段:

第一階段通過游戲技術(shù)中常使用動作捕捉系統(tǒng),研究員收集真狗的運動姿態(tài)數(shù)據(jù),包括走、跑、跳、站立等動作,并利用這些數(shù)據(jù),在仿真器中構(gòu)建了一個模仿學(xué)習(xí)任務(wù),再將這些數(shù)據(jù)中的信息抽象并壓縮到深度神經(jīng)網(wǎng)絡(luò)模型中。這些模型能夠非常準確地涵蓋收集的動物運動姿態(tài)信息,且具有一定的可解釋性。

騰訊Robotics X機器人實驗室和騰訊游戲合作,用游戲技術(shù)提升了仿真引擎的準確和高效,同時游戲制作和研發(fā)過程中積累了多元的動捕素材。這些技術(shù)以及數(shù)據(jù)對基于物理仿真的智能體訓(xùn)練以及真實世界機器人策略部署起到了一定的輔助作用。

在模仿學(xué)習(xí)的過程中,神經(jīng)網(wǎng)絡(luò)模型僅接收機器狗本體感知信息作為輸入,例如機器狗身上電機狀態(tài)等。再下一步,模型引入周邊環(huán)境的感知數(shù)據(jù),例如可以通過其他傳感器“看到“腳下的障礙物。

第二階段,通過額外的網(wǎng)絡(luò)參數(shù)來將第一階段掌握的機器狗靈動姿態(tài)與外界感知聯(lián)系在一起,使得機器狗能夠通過已經(jīng)學(xué)會的靈動姿態(tài)來應(yīng)對外界環(huán)境。當機器狗適應(yīng)了多種復(fù)雜的環(huán)境后,這些將靈動姿態(tài)與外界感知聯(lián)系在一起的知識也會被固化下來,存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。

第三階段,利用上述兩個預(yù)訓(xùn)練階段獲取的神經(jīng)網(wǎng)絡(luò),機器狗才有前提和機會來聚焦解決最上層的策略學(xué)習(xí)問題,最終具備端到端解決復(fù)雜的任務(wù)的能力。第三階段附加的網(wǎng)絡(luò)會獲取與復(fù)雜任務(wù)有關(guān)的信息,例如在游戲中,獲取對手的信息、旗子的信息。此外,通過綜合分析所有信息,負責(zé)策略學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)出針對任務(wù)的高階策略,例如往哪個方向跑動,預(yù)判對手的行為來決定是否繼續(xù)追逐等等。

上述每一階段學(xué)習(xí)到的知識都可以擴充和調(diào)整,不需要重新學(xué)習(xí),因此可以不斷積累,持續(xù)學(xué)習(xí)。

機器狗障礙追逐比賽 :擁有自主決策和控制能力

為了測試Max所掌握的這些新技能,研究員受到障礙追逐比賽“World Chase Tag“的啟發(fā),設(shè)計了一個雙狗障礙追逐的游戲。World Chase Tag是一個競技性障礙追逐賽組織,2014年創(chuàng)立于英國,由民間兒童追逐游戲標準化而來。一般來說,障礙追逐比賽每輪次由兩名互為對手的運動員參加,一名是追擊者(稱為攻方),一名是躲避者(稱為守方),當一名運動員在整個追逐回合中(即20秒)成功躲避對手(即未發(fā)生觸碰)時,團隊將獲得一分。 在預(yù)定的追逐回合數(shù)中得分最多的戰(zhàn)隊贏得比賽。

在機器狗障礙追逐比賽中,游戲場地大小為4.5米 x 4.5米,其中散落著一些障礙物。游戲起始,兩個MAX機器狗會被放置在場地中的隨機位置,且隨機一個機器狗被賦予追擊者的角色,另一個為躲避者,同時,場地中會在隨機位置擺放一個旗子。

追擊者的任務(wù)是抓住躲避者,躲避者的目的則是在保證不被抓到的前提下去接近旗子。如果躲避者在被抓到之前成功觸碰到旗子,則兩個機器狗的角色會瞬間發(fā)生互換,同時旗子會重新出現(xiàn)在另一個隨機的位置。游戲最終的結(jié)束條件為當前的追擊者抓住了躲避者,且當前為追擊者角色的機器狗獲勝。所有游戲過程中,兩個機器狗的平均前向速度被約束在0.5m/s。

從這個游戲看來,在基于預(yù)訓(xùn)練好的模型下,機器狗通過深度強化學(xué)習(xí),已經(jīng)具備一定的推理和決策能力:

比如,當追擊者意識到自己在躲避者碰到旗子之前已經(jīng)無法追上它的時候,追擊者就會放棄追擊,而是在遠離躲避者的位置徘徊,目的是為了等待下一個重置的旗子出現(xiàn)。

另外,當追擊者即將抓到躲避者的最后時刻,它喜歡跳起來向著躲避者做出一個”撲”的動作,非常類似動物捕捉獵物時候的行為,或者躲避者在快要接觸旗子的時候也會表現(xiàn)出同樣的行為。這些都是機器狗為了確保自己的勝利采取的主動加速措施。

據(jù)介紹,游戲中機器狗的所有控制策略都是神經(jīng)網(wǎng)絡(luò)策略,在仿真中進行學(xué)習(xí)并通過zero-shot transfer(零調(diào)整遷移),讓神經(jīng)網(wǎng)絡(luò)模擬人類的推理方式,來識別從未見過的新事物,并把這些知識部署到真實機器狗上。例如下圖所示,機器狗在預(yù)訓(xùn)練模型中學(xué)會的躲避障礙物的知識,被用在游戲中,即使帶有障礙物的場景并未在Chase Tag Game的虛擬世界進行訓(xùn)練(虛擬世界中僅訓(xùn)練了平地下的游戲場景),機器狗也能順利完成任務(wù)。

騰訊Robotics X機器人實驗室長期致力于機器人前沿技術(shù)的研究,以此前在機器人本體、運動、控制領(lǐng)域等領(lǐng)先技術(shù)和積累為基礎(chǔ),研究員們也在嘗試將前沿的預(yù)訓(xùn)練模型和深度強化學(xué)習(xí)技術(shù)引入到機器人領(lǐng)域,提升機器人的控制能力,讓其更具靈活性,這也為機器人走入現(xiàn)實生活,服務(wù)人類打下了堅實的基礎(chǔ)。

關(guān)鍵詞:

責(zé)任編輯:hnmd004

最新資訊