基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取
關(guān)注 2022年3月18日 15:45 瀏覽:3347 收藏:1
1. 問題描述
隨著當(dāng)前對(duì)機(jī)器人智能化和通用性需求的不斷提高,越來越多的需要機(jī)器人能夠快速方便的獲取生產(chǎn)、生活技能,并在動(dòng)態(tài)不確定環(huán)境下結(jié)合經(jīng)驗(yàn)記憶獲取新技能。制約機(jī)器人在更多領(lǐng)域和場景發(fā)展的因素主要體現(xiàn)在以下幾個(gè)方面:
1)對(duì)環(huán)境和任務(wù)的適應(yīng)性差,機(jī)器人技能泛化能力弱;
2)學(xué)習(xí)技能需要大量樣本數(shù)據(jù),訓(xùn)練時(shí)間長,新任務(wù)往往需要重新學(xué)習(xí);
3)不能回憶和利用所學(xué)知識(shí)和經(jīng)驗(yàn)。
故需要研究使機(jī)械臂具有人類學(xué)習(xí)的技巧的方法,在不確定條件下,無人為干預(yù),結(jié)合經(jīng)驗(yàn)以優(yōu)化方式產(chǎn)生主動(dòng)行為完成任務(wù)。
此文結(jié)合模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),對(duì)機(jī)器人在自主學(xué)習(xí)掌握新運(yùn)動(dòng)技能這一科學(xué)問題開展探索研究。首先,基于 RGB-D 圖像能夠映射三維空間信息的屬性,提出了一種與 RGB-D 圖像交互的機(jī)械臂示教方法,其結(jié)合智能交互思想并面向任務(wù)級(jí)示教。Kinect V2 作為視覺傳感器實(shí)現(xiàn)物體識(shí)別和定位,基于 MoveIt!運(yùn)動(dòng)規(guī)劃軟件實(shí)現(xiàn)高層動(dòng)作規(guī)劃。將 RGB-D 圖像作為示教平臺(tái),在圖像中與一個(gè)物體交互并選擇一個(gè)高階動(dòng)作,引導(dǎo)機(jī)械臂在實(shí)際工作空間操作對(duì)應(yīng)的物體,多步的交互組成了一項(xiàng)運(yùn)動(dòng)技能的示教軌跡。
然后,開展了從示教中學(xué)習(xí)技能的研究。根據(jù)人類技能獲取行為和 RGBD-ID 方法每一步與一個(gè)物體和一個(gè)動(dòng)作交互的特點(diǎn),提出一種由目標(biāo)物推理網(wǎng)絡(luò)(Objects list network, OLN)和策略學(xué)習(xí)網(wǎng)絡(luò)(Policy learning network, PLN)組成的模仿學(xué)習(xí)架構(gòu)OPLN。OLN和 PLN 均由 LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建,其中OLN 學(xué)習(xí)了物體的操作順序關(guān)系,PLN 學(xué)習(xí)了物體的狀態(tài)屬性,從而機(jī)器人能夠在較高的認(rèn)知水平上實(shí)現(xiàn)自主推理和技能獲取。在無人為干預(yù)的情況下完成從示教中學(xué)習(xí)到策略。
再次,進(jìn)行了基于強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取研究,通過與環(huán)境交互自主學(xué)習(xí)策略。針對(duì)機(jī)器人操作任務(wù),提出一種基于物體構(gòu)形匹配(Objects configurationmatching)的通用的獎(jiǎng)賞函數(shù)設(shè)計(jì)方法,根據(jù)向量相似性度量方法計(jì)算物體目標(biāo)構(gòu)形和當(dāng)前構(gòu)形的相似性,構(gòu)建即時(shí)獎(jiǎng)賞為關(guān)于該相似性的函數(shù)。以 Actor-Critic 算法為主體結(jié)構(gòu)搭建了機(jī)械臂強(qiáng)化學(xué)習(xí)模型,結(jié)合設(shè)計(jì)的獎(jiǎng)賞函數(shù)學(xué)習(xí)優(yōu)化技能策略。
圖2 強(qiáng)化學(xué)習(xí)部分訓(xùn)練過程
最后,針對(duì)上述方法搭建了相應(yīng)的實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)平臺(tái)的硬件系統(tǒng)包括 UR5 機(jī)械臂、氣動(dòng)二指手抓、Kinect V2 深度攝像頭等;軟件系統(tǒng)由ROS 機(jī)器人操作系統(tǒng)、MoveIt!運(yùn)動(dòng)規(guī)劃庫、Matlab、pytorch神經(jīng)網(wǎng)絡(luò)框架等組成。設(shè)置了堆疊積木任務(wù)和 Pick and Place任務(wù),驗(yàn)證了本文RGBD-ID 方法、模仿學(xué)習(xí)模型和強(qiáng)化學(xué)習(xí)模型用于機(jī)械臂獲取運(yùn)動(dòng)技能的有效性和可行性。
圖3 機(jī)器人堆積木模仿學(xué)習(xí)過程
針對(duì)機(jī)器人智能化的需求,進(jìn)行了基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)技能獲取的研究。提出了一種人-圖像交互式示教方法,一種基于 LSTM 神經(jīng)網(wǎng)絡(luò)的模仿學(xué)習(xí)框架,開展了機(jī)械臂強(qiáng)化學(xué)習(xí)獲取技能的工作。針對(duì)工作過程中出現(xiàn)的問題,不斷遞進(jìn)的提出解決方案。最終,通過堆疊積木任務(wù)和 Pick and Place 任務(wù)驗(yàn)證了方法的有效性,提高了機(jī)械臂的學(xué)習(xí)能力。
技術(shù)鄰APP工程師 必備
項(xiàng)目客服
培訓(xùn)客服
平臺(tái)客服