基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取

機(jī)械設(shè)計(jì)師

2022年3月18日 15:45

瀏覽：3347 收藏：1

1. 問題描述

隨著當(dāng)前對(duì)機(jī)器人智能化和通用性需求的不斷提高，越來越多的需要機(jī)器人能夠快速方便的獲取生產(chǎn)、生活技能，并在動(dòng)態(tài)不確定環(huán)境下結(jié)合經(jīng)驗(yàn)記憶獲取新技能。制約機(jī)器人在更多領(lǐng)域和場景發(fā)展的因素主要體現(xiàn)在以下幾個(gè)方面：

1）對(duì)環(huán)境和任務(wù)的適應(yīng)性差，機(jī)器人技能泛化能力弱；

2）學(xué)習(xí)技能需要大量樣本數(shù)據(jù)，訓(xùn)練時(shí)間長，新任務(wù)往往需要重新學(xué)習(xí)；

3）不能回憶和利用所學(xué)知識(shí)和經(jīng)驗(yàn)。

故需要研究使機(jī)械臂具有人類學(xué)習(xí)的技巧的方法，在不確定條件下，無人為干預(yù)，結(jié)合經(jīng)驗(yàn)以優(yōu)化方式產(chǎn)生主動(dòng)行為完成任務(wù)。

2、研究方法

此文結(jié)合模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，對(duì)機(jī)器人在自主學(xué)習(xí)掌握新運(yùn)動(dòng)技能這一科學(xué)問題開展探索研究。首先，基于 RGB-D 圖像能夠映射三維空間信息的屬性，提出了一種與 RGB-D 圖像交互的機(jī)械臂示教方法，其結(jié)合智能交互思想并面向任務(wù)級(jí)示教。Kinect V2 作為視覺傳感器實(shí)現(xiàn)物體識(shí)別和定位，基于 MoveIt!運(yùn)動(dòng)規(guī)劃軟件實(shí)現(xiàn)高層動(dòng)作規(guī)劃。將 RGB-D 圖像作為示教平臺(tái)，在圖像中與一個(gè)物體交互并選擇一個(gè)高階動(dòng)作，引導(dǎo)機(jī)械臂在實(shí)際工作空間操作對(duì)應(yīng)的物體，多步的交互組成了一項(xiàng)運(yùn)動(dòng)技能的示教軌跡。

基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取的圖1

圖1 RGB-D圖像交互示教

然后，開展了從示教中學(xué)習(xí)技能的研究。根據(jù)人類技能獲取行為和 RGBD-ID 方法每一步與一個(gè)物體和一個(gè)動(dòng)作交互的特點(diǎn)，提出一種由目標(biāo)物推理網(wǎng)絡(luò)（Objects list network, OLN）和策略學(xué)習(xí)網(wǎng)絡(luò)（Policy learning network, PLN）組成的模仿學(xué)習(xí)架構(gòu)OPLN。OLN和 PLN 均由 LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建，其中OLN 學(xué)習(xí)了物體的操作順序關(guān)系，PLN 學(xué)習(xí)了物體的狀態(tài)屬性，從而機(jī)器人能夠在較高的認(rèn)知水平上實(shí)現(xiàn)自主推理和技能獲取。在無人為干預(yù)的情況下完成從示教中學(xué)習(xí)到策略。

再次，進(jìn)行了基于強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取研究，通過與環(huán)境交互自主學(xué)習(xí)策略。針對(duì)機(jī)器人操作任務(wù)，提出一種基于物體構(gòu)形匹配（Objects configurationmatching）的通用的獎(jiǎng)賞函數(shù)設(shè)計(jì)方法，根據(jù)向量相似性度量方法計(jì)算物體目標(biāo)構(gòu)形和當(dāng)前構(gòu)形的相似性，構(gòu)建即時(shí)獎(jiǎng)賞為關(guān)于該相似性的函數(shù)。以 Actor-Critic 算法為主體結(jié)構(gòu)搭建了機(jī)械臂強(qiáng)化學(xué)習(xí)模型，結(jié)合設(shè)計(jì)的獎(jiǎng)賞函數(shù)學(xué)習(xí)優(yōu)化技能策略。

基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取的圖2

圖2 強(qiáng)化學(xué)習(xí)部分訓(xùn)練過程

最后，針對(duì)上述方法搭建了相應(yīng)的實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)平臺(tái)的硬件系統(tǒng)包括 UR5 機(jī)械臂、氣動(dòng)二指手抓、Kinect V2 深度攝像頭等；軟件系統(tǒng)由ROS 機(jī)器人操作系統(tǒng)、MoveIt!運(yùn)動(dòng)規(guī)劃庫、Matlab、pytorch神經(jīng)網(wǎng)絡(luò)框架等組成。設(shè)置了堆疊積木任務(wù)和 Pick and Place任務(wù)，驗(yàn)證了本文RGBD-ID 方法、模仿學(xué)習(xí)模型和強(qiáng)化學(xué)習(xí)模型用于機(jī)械臂獲取運(yùn)動(dòng)技能的有效性和可行性。

基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取的圖3

圖3 機(jī)器人堆積木模仿學(xué)習(xí)過程

3、研究結(jié)論

針對(duì)機(jī)器人智能化的需求，進(jìn)行了基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取的研究。提出了一種人-圖像交互式示教方法，一種基于 LSTM 神經(jīng)網(wǎng)絡(luò)的模仿學(xué)習(xí)框架，開展了機(jī)械臂強(qiáng)化學(xué)習(xí)獲取技能的工作。針對(duì)工作過程中出現(xiàn)的問題，不斷遞進(jìn)的提出解決方案。最終，通過堆疊積木任務(wù)和 Pick and Place 任務(wù)驗(yàn)證了方法的有效性，提高了機(jī)械臂的學(xué)習(xí)能力。

登錄后免費(fèi)查看全文

立即登錄