騰訊機器狗再進化通過深度學(xué)習(xí)掌握自主決策能力

2023-06-15 19:10:09來源：深圳商報

讀創(chuàng) 深圳商報記者陳姝6月14日，騰訊RoboticsX機器人實驗室公布了智能

讀創(chuàng)/深圳商報記者陳姝

【資料圖】

6月14日，騰訊Robotics X機器人實驗室公布了智能體研究的最新進展，通過將前沿的預(yù)訓(xùn)練AI模型和強化學(xué)習(xí)技術(shù)應(yīng)用到機器人控制領(lǐng)域，讓機器狗 Max 的靈活性和自主決策能力得到大幅提升。

讓機器狗像人和動物一樣靈活且穩(wěn)定的運動，是機器人研究領(lǐng)域長期追求的目標，深度學(xué)習(xí)技術(shù)的不斷進步，使得讓機器通過“學(xué)習(xí)”來掌握相關(guān)能力，學(xué)會應(yīng)對復(fù)雜多變的環(huán)境變得可行。

引入預(yù)訓(xùn)練和強化學(xué)習(xí)：讓機器狗更加靈動

騰訊Robotics X機器人實驗室通過引入預(yù)訓(xùn)練模型和強化學(xué)習(xí)技術(shù)，可以讓機器狗分階段進行學(xué)習(xí)，有效的將不同階段的技能、知識積累并存儲下來，讓機器人在解決新的復(fù)雜任務(wù)時，不必重新學(xué)習(xí)，而是可以復(fù)用已經(jīng)學(xué)會的姿態(tài)、環(huán)境感知、策略規(guī)劃多個層面的知識，進行“舉一反三”，靈活應(yīng)對復(fù)雜環(huán)境。

這一系列的學(xué)習(xí)分為三個階段：

第一階段通過游戲技術(shù)中常使用動作捕捉系統(tǒng)，研究員收集真狗的運動姿態(tài)數(shù)據(jù)，包括走、跑、跳、站立等動作，并利用這些數(shù)據(jù)，在仿真器中構(gòu)建了一個模仿學(xué)習(xí)任務(wù)，再將這些數(shù)據(jù)中的信息抽象并壓縮到深度神經(jīng)網(wǎng)絡(luò)模型中。這些模型能夠非常準確地涵蓋收集的動物運動姿態(tài)信息，且具有一定的可解釋性。

騰訊Robotics X機器人實驗室和騰訊游戲合作，用游戲技術(shù)提升了仿真引擎的準確和高效，同時游戲制作和研發(fā)過程中積累了多元的動捕素材。這些技術(shù)以及數(shù)據(jù)對基于物理仿真的智能體訓(xùn)練以及真實世界機器人策略部署起到了一定的輔助作用。

在模仿學(xué)習(xí)的過程中，神經(jīng)網(wǎng)絡(luò)模型僅接收機器狗本體感知信息作為輸入，例如機器狗身上電機狀態(tài)等。再下一步，模型引入周邊環(huán)境的感知數(shù)據(jù)，例如可以通過其他傳感器“看到“腳下的障礙物。

第二階段，通過額外的網(wǎng)絡(luò)參數(shù)來將第一階段掌握的機器狗靈動姿態(tài)與外界感知聯(lián)系在一起，使得機器狗能夠通過已經(jīng)學(xué)會的靈動姿態(tài)來應(yīng)對外界環(huán)境。當機器狗適應(yīng)了多種復(fù)雜的環(huán)境后，這些將靈動姿態(tài)與外界感知聯(lián)系在一起的知識也會被固化下來，存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。

第三階段，利用上述兩個預(yù)訓(xùn)練階段獲取的神經(jīng)網(wǎng)絡(luò)，機器狗才有前提和機會來聚焦解決最上層的策略學(xué)習(xí)問題，最終具備端到端解決復(fù)雜的任務(wù)的能力。第三階段附加的網(wǎng)絡(luò)會獲取與復(fù)雜任務(wù)有關(guān)的信息，例如在游戲中，獲取對手的信息、旗子的信息。此外，通過綜合分析所有信息，負責(zé)策略學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)出針對任務(wù)的高階策略，例如往哪個方向跑動，預(yù)判對手的行為來決定是否繼續(xù)追逐等等。

上述每一階段學(xué)習(xí)到的知識都可以擴充和調(diào)整，不需要重新學(xué)習(xí)，因此可以不斷積累，持續(xù)學(xué)習(xí)。

機器狗障礙追逐比賽：擁有自主決策和控制能力

為了測試Max所掌握的這些新技能，研究員受到障礙追逐比賽“World Chase Tag“的啟發(fā)，設(shè)計了一個雙狗障礙追逐的游戲。World Chase Tag是一個競技性障礙追逐賽組織，2014年創(chuàng)立于英國，由民間兒童追逐游戲標準化而來。一般來說，障礙追逐比賽每輪次由兩名互為對手的運動員參加，一名是追擊者（稱為攻方），一名是躲避者（稱為守方），當一名運動員在整個追逐回合中（即20秒）成功躲避對手（即未發(fā)生觸碰）時，團隊將獲得一分。在預(yù)定的追逐回合數(shù)中得分最多的戰(zhàn)隊贏得比賽。

在機器狗障礙追逐比賽中，游戲場地大小為4.5米 x 4.5米，其中散落著一些障礙物。游戲起始，兩個MAX機器狗會被放置在場地中的隨機位置，且隨機一個機器狗被賦予追擊者的角色，另一個為躲避者，同時，場地中會在隨機位置擺放一個旗子。

追擊者的任務(wù)是抓住躲避者，躲避者的目的則是在保證不被抓到的前提下去接近旗子。如果躲避者在被抓到之前成功觸碰到旗子，則兩個機器狗的角色會瞬間發(fā)生互換，同時旗子會重新出現(xiàn)在另一個隨機的位置。游戲最終的結(jié)束條件為當前的追擊者抓住了躲避者，且當前為追擊者角色的機器狗獲勝。所有游戲過程中，兩個機器狗的平均前向速度被約束在0.5m/s。

從這個游戲看來，在基于預(yù)訓(xùn)練好的模型下，機器狗通過深度強化學(xué)習(xí)，已經(jīng)具備一定的推理和決策能力：

比如，當追擊者意識到自己在躲避者碰到旗子之前已經(jīng)無法追上它的時候，追擊者就會放棄追擊，而是在遠離躲避者的位置徘徊，目的是為了等待下一個重置的旗子出現(xiàn)。

另外，當追擊者即將抓到躲避者的最后時刻，它喜歡跳起來向著躲避者做出一個”撲”的動作，非常類似動物捕捉獵物時候的行為，或者躲避者在快要接觸旗子的時候也會表現(xiàn)出同樣的行為。這些都是機器狗為了確保自己的勝利采取的主動加速措施。

據(jù)介紹，游戲中機器狗的所有控制策略都是神經(jīng)網(wǎng)絡(luò)策略，在仿真中進行學(xué)習(xí)并通過zero-shot transfer(零調(diào)整遷移），讓神經(jīng)網(wǎng)絡(luò)模擬人類的推理方式，來識別從未見過的新事物，并把這些知識部署到真實機器狗上。例如下圖所示，機器狗在預(yù)訓(xùn)練模型中學(xué)會的躲避障礙物的知識，被用在游戲中，即使帶有障礙物的場景并未在Chase Tag Game的虛擬世界進行訓(xùn)練（虛擬世界中僅訓(xùn)練了平地下的游戲場景），機器狗也能順利完成任務(wù)。

騰訊Robotics X機器人實驗室長期致力于機器人前沿技術(shù)的研究，以此前在機器人本體、運動、控制領(lǐng)域等領(lǐng)先技術(shù)和積累為基礎(chǔ)，研究員們也在嘗試將前沿的預(yù)訓(xùn)練模型和深度強化學(xué)習(xí)技術(shù)引入到機器人領(lǐng)域，提升機器人的控制能力，讓其更具靈活性，這也為機器人走入現(xiàn)實生活，服務(wù)人類打下了堅實的基礎(chǔ)。

關(guān)鍵詞：

責(zé)任編輯：hnmd004

顯卡風(fēng)扇不轉(zhuǎn)了影響大嗎？顯卡風(fēng)扇轉(zhuǎn)好還是不轉(zhuǎn)好？

顯卡風(fēng)扇不轉(zhuǎn)了影響大嗎?1、風(fēng)扇轉(zhuǎn)動主要是使顯卡散熱,如果在顯卡工作是達到一定的溫度,風(fēng)扇會自動轉(zhuǎn)起,控制顯卡溫度,保護顯卡。當?shù)陀谶@一

2023-07-07 15:57:38
word文件損壞打不開怎么修復(fù)？word文件損壞亂碼怎么修復(fù)？

word文件損壞打不開怎么修復(fù)?1 打開Microsoft Word軟件，點擊文件菜單，選擇打開命令。2 找到損壞的Word文件，選中文件后點擊打開按鈕

2023-07-07 10:51:03
0xc0000005錯誤代碼怎么解決？應(yīng)用程序0xc0000005是什么錯誤？

0xc0000005錯誤代碼怎么解決?1、首先按下win+r打開運行，輸入regedit按下回車。2、隨后依次定位到：HKEY_LOCAL_MACHINE SOFTWARE Microsoft

2023-07-07 10:47:09
java環(huán)境變量配置后不生效什么原因？怎樣看java環(huán)境變量是否配置成功？

java環(huán)境變量配置后不生效什么原因?1 檢查系統(tǒng)是否支持java，即查看java的版本。如果沒有安裝，需要安裝java環(huán)境。2 檢查配置文件是否正確

2023-07-07 10:43:40
ios17什么時候可以更新正式版？ios17什么時候正式推送更新？

ios17什么時候可以更新正式版?ios17正式版預(yù)計9月可以更新使用,屆時和iPhone15系列新機一起到來。目前,ios17 Beta版在WWDC23發(fā)布會結(jié)束后

2023-07-07 10:40:52
Win11打游戲FPS低怎么辦？手機玩游戲幀數(shù)低怎么辦？

Win11打游戲FPS低怎么辦?1、進入Win11系統(tǒng)桌面上，點擊開始選擇設(shè)置進入。2、進入設(shè)置界面，點擊游戲進入。3、在游戲頁面，點擊游戲模式進

2023-07-07 10:38:03
電腦開不了機怎么辦按哪個鍵？電腦開不了機怎么強制開機？

電腦開不了機怎么辦按哪個鍵?F8：進入 Windows 安全模式。F10：進入 BIOS 設(shè)置界面。F11：進入系統(tǒng)恢復(fù)界面。Del：進入 BIOS 設(shè)置界

2023-07-06 11:14:10
顯卡風(fēng)扇不轉(zhuǎn)正常嗎？顯卡風(fēng)扇不轉(zhuǎn)怎么解決？

顯卡風(fēng)扇不轉(zhuǎn)正常嗎?顯卡風(fēng)扇不轉(zhuǎn)是不正常的。1、灰塵過多可能是顯卡上的灰塵太多了，導(dǎo)致堵塞，如果長時間不清理的話，顯卡的風(fēng)扇就會因為

2023-07-06 11:02:33
windowshello突然不能用怎么辦？windows hello在哪里設(shè)置？

windowshello突然不能用怎么辦?1、首先按下WIN+R，輸入 services msc 回車2、在服務(wù)列表中查找 Windows Biometric Service 看這個服

2023-07-06 10:53:30
不支持已連接的usb設(shè)備怎么解決？無法識別的usb設(shè)備是什么意思？

不支持已連接的usb設(shè)備怎么解決?需要格式化。USB不支持已連接的設(shè)備,是因為U盤文件系統(tǒng)要FAT32格式,需要重新設(shè)置U盤格式,先格式化U盤,將U盤

2023-07-06 08:45:03
打開dwg格式的軟件有哪些？dwg格式文件是什么文件？

打開dwg格式的軟件有哪些?1、看圖紙DwgSeePlus，一款dwg文件瀏覽器;2、CAD迷你看圖，一款小巧的DWG文件瀏覽小工具;3、CAD迷你畫圖，一款CAD

2023-07-06 08:42:40
電腦突然沒聲音了是什么原因？電腦突然沒聲音了怎么解決？

電腦突然沒聲音了是什么原因?一起跟著小編來看看吧。電腦沒有聲音的原因是計算機硬件問題和軟件問題，硬件問題主要是聲卡壞了，或者輸出聲

2023-07-05 10:24:15
amd是哪個國家的品牌？英特爾和amd哪個厲害？

amd是哪個國家的品牌?amd處理器是美國生產(chǎn)的;美國AMD半導(dǎo)體公司專門為計算機、通信和消費電子行業(yè)設(shè)計和制造各種創(chuàng)新的微處理器，以及提供

2023-07-05 10:21:36
tmp文件可以隨便刪嗎？tmp文件刪不掉怎么辦？

tmp文件可以隨便刪嗎?是的，可以刪除。 tmp文件是一種臨時文件，它們通常由操作系統(tǒng)或應(yīng)用程序創(chuàng)建，以存儲暫時數(shù)據(jù)。一旦完成，它們就會被

2023-07-05 10:19:30
mkv格式手機可以看嗎？蘋果不支持mkv視頻嗎？

mkv格式手機可以看嗎?可以的。 MKV并不是一種壓縮格式,而是Matroska的一種媒體文件,是一種多媒體封裝格式,或叫多媒體容器。它可將多種不

2023-07-05 10:16:45
電腦開機慢特別卡怎么解決？電腦開機慢系統(tǒng)啟動慢什么原因？

電腦開機慢特別卡怎么解決?好多小伙伴不知道如何解決的，那小編就把操作方法分享給大家吧，感興趣的小伙伴可以參考看看哈。方法一：減少

2023-07-05 10:11:39
zip壓縮文件怎么繞過密碼？已有的壓縮包如何添加密碼？

zip壓縮文件怎么繞過密碼?好多小伙伴不知道的，那小編就來給大家解答一下吧，希望可以幫助到大家吧。1、首先在電腦中，啟用英文版nsis，2、

2023-07-05 10:07:06
文件后綴隱藏了怎么顯示出來？怎么讓文件顯示擴展名？

文件后綴隱藏了怎么顯示出來?一起來看看吧。1、首先，雙擊打開【計算機】，打開計算機磁盤目錄，2、打開后，正常菜單欄是沒有顯示出來，打

2023-07-04 10:01:15
php文件的擴展名是什么？怎么修改php上傳文件的大?。?/a>

php文件的擴展名是什么?php文件后綴名就是 php文件擴展名和標簽為了讓服務(wù)器來確定我們的PHP文件和腳本,我們必須保存的文件以 php結(jié)尾。怎

2023-07-04 09:56:02

電腦的文件恢復(fù)區(qū)在哪里找？恢復(fù)文件已損壞怎么辦？

電腦的文件恢復(fù)區(qū)在哪里找?1、1 360文件恢復(fù)區(qū)打開【360安全衛(wèi)士】→【木馬查殺】，找到并單擊左下角的【恢復(fù)區(qū)】，就可以找到360文件

2023-07-04 09:52:57
ipad游戲沒有聲音怎么回事？ipad打游戲沒有聲音怎么辦？

ipad游戲沒有聲音怎么回事?1、ipad游戲沒有聲音可能是忘記開聲音或者設(shè)置了靜音，打開聲音或者關(guān)閉靜音。2、ipad上的游戲設(shè)置沒有啟用聲音

2023-07-04 09:42:32
電腦快捷方式存在問題是什么原因？快捷方式存在問題怎么解決？

電腦快捷方式存在問題是什么原因?Win11電腦快捷方式可能會出現(xiàn)問題，主要是由于系統(tǒng)更新、病毒感染或者其他原因?qū)е碌摹？旖莘绞酱嬖趩栴}怎

2023-07-04 09:34:09
DAT是什么文件擴展名？bmp是什么文件擴展名？

DAT是什么文件擴展名? dat文件有兩種類型：1、VCD的媒體文件，是數(shù)據(jù)流格式，可以用一般的視頻播放器打開，該類型文件也是MPG格式的，是VCD

2023-07-03 09:48:00
mp3文件格式不支持怎么辦？mp3格式是什么格式？

mp3文件格式不支持怎么辦?是不是好多小伙伴遇到這樣的問題不知道如何解決的，那小編就把方法分享給大家吧，感興趣的小伙伴可以參考看看哈。

2023-07-03 09:44:46
任務(wù)管理器被禁用怎么解除？任務(wù)管理器中沒有菜單欄如何解決？

任務(wù)管理器被禁用怎么解除?好多小伙伴不知道如何解決的，那小編就把方法給大家解答一下吧，希望可以幫助到大家吧。1、開始運行 gpedit msc

2023-07-03 09:40:26