基于超像素及多平面的位姿估計(jì)和平面重建




編者按: SLAM技術(shù)廣泛應(yīng)用于室內(nèi)或室外、城市或野外等不同的無人駕駛應(yīng)用場景。稀疏SLAM方法依賴于像素級信息的光度誤差最小化或提取的關(guān)鍵點(diǎn)和類似的低水平圖像特征上的重投影誤差最小化。視覺SLAM可以利用平面等更高級的幾何特征提高魯棒性,因?yàn)槠矫嫣峁┝素S富的語義信息且涉及的參數(shù)少,但是平面的識別與單應(yīng)性分解的歧義限制平面特征的使用。本文提供了基于超像素的多平面環(huán)境下位姿估計(jì)和平面重建的SLAM系統(tǒng),提高了系統(tǒng)魯棒性和精度。

摘要: 本文提出了一種基于兩個RGB圖像的場景相對相機(jī)位姿估計(jì)和平面重建的新方法。首先從兩幅圖像中提取和匹配超像素信息,然后利用一種新的多模型RANSAC方法估計(jì)多個超像素的單應(yīng)性并識別匹配平面。通過提出一個投票系統(tǒng)來更可靠地估計(jì)相對相機(jī)位姿和平面參數(shù),解決了單應(yīng)性矩陣分解時(shí)的模糊問題。本文還提出了一種利用單應(yīng)性的聯(lián)合表示并適用于圖像對和圖像全序列的非線性優(yōu)化過程來進(jìn)行BA。因此,本文提供了一種僅由兩幅RGB圖像進(jìn)行稠密三維平面重建而不依賴RGB-D輸入或強(qiáng)先驗(yàn)(如曼哈頓假設(shè))的方法,并且可以擴(kuò)展到圖像序列的處理。我們的結(jié)果可以與基于關(guān)鍵點(diǎn)的技術(shù)如ORB-SLAM相比較,同時(shí)完成稠密建圖,并比LSD-SLAM或DPPTAM中使用的直接和半直接姿態(tài)估計(jì)技術(shù)更精確。

關(guān)鍵詞: 超像素,平面特征,RANSAC
1 引言

目前,視覺追蹤、位姿估計(jì)和SLAM (同時(shí)定位和建圖)算法在室內(nèi)和室外[1],[2],[3]等場景中競爭以獲得更好的預(yù)測、精度和計(jì)算時(shí)間。一些算法依賴于圖像間亮度的直接對齊,以生成一個密集的像素級建圖[2],而另一些算法利用關(guān)鍵點(diǎn)或類似的低層次圖像特征(如線條、模式),以實(shí)現(xiàn)更精確和更魯棒的相機(jī)位姿[1]。似乎稀疏方法(如基于關(guān)鍵點(diǎn)的方法)與稠密方法(通過對齊像素亮度計(jì)算相機(jī)位姿)間的權(quán)衡是不可避免的:前者在不同的環(huán)境下更魯棒,更兼容BA優(yōu)化,后者生成更適用的帶有稠密信息的地圖。雖然已經(jīng)有人提出了一些混合系統(tǒng)來平衡兩種系統(tǒng)[4]的優(yōu)勢,但這一話題一直吸引著研究人員的關(guān)注,需要進(jìn)一步的探索。

也可以利用從圖像或低級特征中提取的中間特征。通常情況下,平面是人工環(huán)境和對象中普遍存在的幾何特征,并在諸如姿態(tài)估計(jì)和視覺追蹤等任務(wù)中表現(xiàn)出良好的特性:平面被廣泛研究,參數(shù)化過程輕便,環(huán)境變化時(shí)對空間中孤立的特征點(diǎn)具有魯棒性,最重要的是,平面容易通過單應(yīng)性約束從圖像對中計(jì)算出來。許多研究也在各種基于視覺的機(jī)器人應(yīng)用[5],[6]中利用平面假設(shè)。場景有一個主要的平面時(shí),如地面或天花板,單應(yīng)性估計(jì)實(shí)際上是方便且簡單的。然而,在現(xiàn)實(shí)世界中,主導(dǎo)平面假設(shè)并不總是成立,因?yàn)樗赡鼙徽趽?,或者場景可能由多個平面結(jié)構(gòu)組成,如室內(nèi)環(huán)境或室外城市景觀等。

本文提出了一種基于多單應(yīng)性的超像素RANSAC位姿估計(jì)方法,該方法同時(shí)實(shí)現(xiàn)了一對彩色圖像的相機(jī)位姿估計(jì)和稠密平面建圖。我們還展示了這種方法可以集成在視覺SLAM系統(tǒng)中。我們的貢獻(xiàn)包括:1)一種結(jié)合超像素和關(guān)鍵點(diǎn)信息的檢測多單應(yīng)性的RANSAC新技術(shù)。2)一種用于位姿估計(jì)的基于投票的無歧義多單應(yīng)性分解算法。3)一種圖像對和圖像序列的非線性位姿優(yōu)化算法。 

基于超像素及多平面的位姿估計(jì)和平面重建的圖1
圖1 從單目相機(jī)的兩張RGB圖像(左上),我們提出了一種超像素技術(shù)來同時(shí)估計(jì)相機(jī)位姿和三維多平面地圖(下),而不依賴于曼哈頓假設(shè)。 在右上圖中,不同的顏色代表從圖像中估計(jì)出的不同3D平面,我們使用了一種稱為“勝者全得”RANSAC的新方法。

2 相關(guān)工作
對于單個主導(dǎo)平面的場景[7],[8]發(fā)展了視覺追蹤理論和應(yīng)用。例如,Pirchheim等人的工作[5]是在單平面單應(yīng)性假設(shè)下的一個移動AR應(yīng)用。然而,單應(yīng)性矩陣分解的歧義似乎很難用幾何方法[9]解決。許多工作利用諸如已知幾何形狀的先驗(yàn)信息或結(jié)合慣性測量單元IMU的信息,不僅可以消除單應(yīng)性中的歧義,而且可以提高位姿估計(jì)的精度[10]、[11]。

通常,曼哈頓假設(shè)在平面視覺任務(wù)[11]、[12]、[13]中得到了廣泛的應(yīng)用。主要假設(shè)環(huán)境中的所有平面在三維上都是垂直的,例如典型的建筑物或標(biāo)準(zhǔn)房間。

許多平面SLAM和視覺追蹤應(yīng)用都采用RGB-D相機(jī),它非常適合室內(nèi)環(huán)境。通過結(jié)合深度信息,Kaess[14]提出了一種三維平面的四元數(shù)公式,加快了RGB-D環(huán)境下優(yōu)化的收斂,然后[15]將其擴(kuò)展為基于關(guān)鍵幀的密集平面SLAM,其帶有使用增量濾波和建圖(iSAM)的因子圖地圖。Le和Ko secka[16]也將RGB-D相機(jī)與曼哈頓假設(shè)結(jié)合起來。

關(guān)于圖像中平面分割的許多貢獻(xiàn)與超像素技術(shù)密切相關(guān)。一個超像素被定義為一組具有一致顏色或亮度信息的連接像素。超像素通常用分割方法產(chǎn)生,典型的工作包括SLIC[17]、SEEDS[18]和圖形分割超像素[19]。

Concha和Civera[20]最早提出在SLAM系統(tǒng)中利用超像素技術(shù)。他們使用蒙特卡羅排序來實(shí)現(xiàn)超像素的響應(yīng)和三維位姿初始化。然后基于PTAM系統(tǒng)中已知的相機(jī)位姿估計(jì),執(zhí)行優(yōu)化以改進(jìn)平面位姿。最近的一項(xiàng)工作(DPPTAM)[21]將超像素集成在半稠密追蹤系統(tǒng)中,利用RANSAC和SVD對半稠密追蹤的三維點(diǎn)進(jìn)行平面估計(jì),利用超像素信息進(jìn)行稠密建圖。

受[20]、[21]的啟發(fā),我們提出利用超像素信息從兩幅圖像中同時(shí)估計(jì)相機(jī)位姿和多平面結(jié)構(gòu)(如圖1所示)。該系統(tǒng)要求1)從兩幅圖像中提取多個平面的能力;2)單應(yīng)性分解中消除歧義的能力;3)將單應(yīng)性表示與位姿估計(jì)優(yōu)化框架相結(jié)合以獲得更好的性能。

3 概述
我們提出的方法由以下模塊組成(如圖二所示):1)圖像超像素化和超像素追蹤過程:提取并匹配由一對圖像獲得的對應(yīng)的超像素信息;2)基于超像素的RANSAC:以魯棒的方式檢測多平面結(jié)構(gòu);3)多個單應(yīng)性分解:計(jì)算相機(jī)姿態(tài)并消除單應(yīng)性中的歧義;4)非線性優(yōu)化:應(yīng)用類似于BA的方式在圖像對和圖像序列中優(yōu)化相機(jī)和平面。下一節(jié)將分別詳細(xì)介紹所有模塊。

4 超像素的提取和追蹤
我們的工作基于超像素是圖像中平面區(qū)域的良好初步猜測,因?yàn)樗鼈兺ǔT谙袼丶墑e上表現(xiàn)出強(qiáng)烈的顏色一致性和空間一致性。我們利用超像素空間關(guān)系(鄰接)和局部關(guān)鍵點(diǎn)描述子在兩個不同幀間進(jìn)行超像素的匹配。

具體來說,首先用SLIC[17]對兩幀圖像Ii,Ii+1進(jìn)行超像素化處理,得到兩組區(qū)域,分別記為 基于超像素及多平面的位姿估計(jì)和平面重建的圖2 ,k = 1...K, K為從第i幅圖像中提取的超像素總數(shù)。然后,利用圖結(jié)構(gòu)來保存超像素之間的鄰接信息。我們提出了一種單向的未加權(quán)圖:Gi=(Vi,Ei),其中Vi是Ii中超像素的集合,E表示它們的鄰接關(guān)系(當(dāng)兩個超像素區(qū)域相鄰時(shí)值為1)。

一旦分割完成,就需要一個超像素跟蹤系統(tǒng)來匹配兩幀之間的超像素區(qū)域。我們通過匹配從每個超像素區(qū)域提取的關(guān)鍵點(diǎn)描述子(例如ORB[22])來進(jìn)行這一步。在此過程中采用了交叉檢查的貪婪匹配策略。

與常見的超像素跟蹤任務(wù)[23]主要側(cè)重于從靜態(tài)背景中重新識別運(yùn)動目標(biāo)不同,SLAM和相機(jī)位姿估計(jì)工作通常都假定是靜態(tài)環(huán)境?;谶@樣的假設(shè),我們提出兩個圖像間的超像素跟蹤方法:在兩個超像素區(qū)域及圖結(jié)構(gòu)中超像素的鄰域中尋找關(guān)鍵點(diǎn)匹配數(shù)量的最大值,因?yàn)樵陟o態(tài)環(huán)境中,每個超像素應(yīng)保持相對剛性的局部結(jié)構(gòu),而鄰域dG的深度由用于控制相鄰區(qū)域范圍的圖上距離(最短路徑)表示。 我們將頂點(diǎn)Vk周圍的這些鄰域表示為NdG(Vk)
基于超像素及多平面的位姿估計(jì)和平面重建的圖3
如圖2和全文所示,圖像對間匹配的超像素由同一顏色突出顯示。

基于超像素及多平面的位姿估計(jì)和平面重建的圖4
圖2 系統(tǒng)從一對彩色圖像生成一個相對的相機(jī)姿態(tài)和三維多平面地圖的流程。
5 多單應(yīng)性估計(jì)

(一) 單應(yīng)性和RANSAC

在一個平面環(huán)境中,可以用單應(yīng)性矩陣2H1∈SL(3)描述兩幀圖像I1和I2中同一平面的變換。當(dāng)相機(jī)的內(nèi)參校正矩陣K已知時(shí),從提取的所有像素可以反向投影為歸一化的三維坐標(biāo),用P1和P2∈R3表示。因此可以用下式的單應(yīng)性矩陣施加約束:
基于超像素及多平面的位姿估計(jì)和平面重建的圖5
單應(yīng)性矩陣由旋轉(zhuǎn)矩陣2R1∈SO(3)、平移向量2t1∈R3和的法向量n1=(a,b,c)T∈R3組成。由此可以描述平面為PTn1=d,其中,P∈R3是平面上的三維點(diǎn),d是平面到原點(diǎn)的垂直距離:
基于超像素及多平面的位姿估計(jì)和平面重建的圖6
有多種方法可以從圖像對中計(jì)算單應(yīng)性矩陣2H1∈SL(3)。隨機(jī)樣本一致性(RANSAC)方法[24]依賴于兩幀中兩個匹配的關(guān)鍵點(diǎn)集{P1}、{P2}和直接線性變換(DLT)技術(shù)[25]。它的目標(biāo)是將數(shù)據(jù)分為兩組:內(nèi)點(diǎn)集(即共識集(CS))和外點(diǎn)集(假數(shù)據(jù))。

首先介紹RANSAC中使用的一些符號。我們用D = {X1,…,XN}表示I1和I2中所有匹配的關(guān)鍵點(diǎn)集:X = {P1,P2}。將單應(yīng)性H作為估計(jì)模型。然后定義:

(1)最小采樣集:M:估計(jì)單應(yīng)性所需點(diǎn)對的最小數(shù)量,單個單應(yīng)性估計(jì)M值為4。
(2)采樣過程: 基于超像素及多平面的位姿估計(jì)和平面重建的圖7 ,它在D中對所有子集進(jìn)行采樣,基數(shù)等于M。采樣通常是通過隨機(jī)選擇4個點(diǎn)來計(jì)算H。
(3)模型估計(jì)函數(shù): 基于超像素及多平面的位姿估計(jì)和平面重建的圖8 ,DLT從四個未退化的點(diǎn)中估計(jì)H。
(4)內(nèi)點(diǎn)閾值:我們采用點(diǎn)和它的配對點(diǎn)投影的距離(P2-2H1P1)2表示判斷內(nèi)點(diǎn)的閾值。

使用這些定義,可以將RANSAC過程重新定義為一種算法,它通過隨機(jī)采樣M來搜索最大共識集,并通過一個帶有閾值的度量函數(shù)來評估其共識集。

(二) 多模型PANSAC

雖然在提取場景中的主平面時(shí)RANSAC是有效的,但許多應(yīng)用是在主平面被遮擋、可見到多個具有相似表面的平面的情形下。由于同一模型的多個實(shí)例出現(xiàn)在一個數(shù)據(jù)集中(如多個平面),RANSAC不僅遭受惡劣的外點(diǎn)(純噪聲,如關(guān)鍵點(diǎn)的錯誤匹配),而且還遭受偽外點(diǎn)[26]:外點(diǎn)在感興趣的結(jié)構(gòu)內(nèi),但內(nèi)點(diǎn)在不同結(jié)構(gòu)中。為了解決這類多模型估計(jì)問題(即搜索多個平面),已有許多RANSAC類算法被提出,如順序RANSAC[27]、[28]和[29]。

順序RANSAC包括以迭代的方式將RANSAC應(yīng)用于多模型數(shù)據(jù)集。對于RANSAC的每次迭代,將發(fā)現(xiàn)的內(nèi)點(diǎn) (共識集)從數(shù)據(jù)集中剔除。雖然序列的性質(zhì)往往受到偽外點(diǎn)[29]的影響,但對前一次迭代的錯誤估計(jì)可能導(dǎo)致在接下來的迭代中出現(xiàn)錯誤。為了減輕這個錯誤估計(jì),Kanazawa的抽樣技術(shù)[27]被廣泛應(yīng)用且被證明有效,它可以在先前選擇的數(shù)據(jù)點(diǎn)(例如,通過高斯分布)附近進(jìn)行局部采樣,而不是在所有數(shù)據(jù)集中隨機(jī)選擇: 基于超像素及多平面的位姿估計(jì)和平面重建的圖9 描述了在先前選擇的點(diǎn)為P0且采樣范圍由Σ控制情況下選擇點(diǎn)P的概率。

另一個多模型估計(jì)問題是估計(jì)冗余。相同的模型可能會被多次估計(jì),因?yàn)橐瞥齼?nèi)點(diǎn)的過程無法完全清除先前檢測到的模型的偽異常值(通常是因?yàn)殚撝颠x擇不當(dāng)或數(shù)據(jù)經(jīng)歷了嚴(yán)重的不平衡),因此其余的先前模型的偽異常值仍然可以形成一個相似的模型,其共識集數(shù)量要比其他模型多。此外,其余的偽異常值隱含地增加了順序過程迭代的外點(diǎn)比率,并使估計(jì)值惡化。

(三) 基于超像素的“勝者全得”RANSAC

為了解決這些問題,我們提出了一種“勝者全得”的RANSAC,該RANSAC受[27]的啟發(fā),利用超像素信息的同時(shí)解決了誤檢測和冗余估計(jì)問題。我們利用超像素來實(shí)現(xiàn)它們的相對共面性:假設(shè)一個超像素內(nèi)的所有信息應(yīng)該是相對共面的,因?yàn)樗鼈児蚕砭植苦徑院皖伾嗨菩浴_@些共面區(qū)域在Kawazana采樣中起采樣范圍Σ的作用。與以往對所有數(shù)據(jù)集憑經(jīng)驗(yàn)確定的各向同性Σ不同,我們直接使用超像素區(qū)域作為自適應(yīng)采樣范圍,甚至避免計(jì)算條件概率:例如,只選擇一個超像素或它的鄰近圖上距離NdG(Vk)(見等式(1))的點(diǎn)。

清晰起見,我們提出了一些記號。

1. 超像素聚類地圖:C:從圖像中的像素返回超像素標(biāo)簽。
2. 超像素鄰域采樣::用以下方式選擇M(單應(yīng)性為四)對點(diǎn)的采樣方法:
(1)在所有數(shù)據(jù)集中統(tǒng)一采樣第一個關(guān)鍵點(diǎn)P1。
(2)通過聚類圖C找到P1的超像素V1。
(3)僅對特定距離dG的子圖中的數(shù)據(jù)采樣其他M-1點(diǎn),而不是V1:{P2,...,Pm}=S(D(NdG(V1)))
3. 內(nèi)點(diǎn)比ρ:本文定義了兩個比率,即所有內(nèi)點(diǎn)的比率和每個超像素區(qū)域中內(nèi)點(diǎn)的比率 基于超像素及多平面的位姿估計(jì)和平面重建的圖10 ,分別定義為所有數(shù)據(jù)(例如提取的關(guān)鍵點(diǎn))和一個超像素區(qū)域中的內(nèi)點(diǎn)數(shù)目。

WTA-RANSAC算法主要思想類似于順序RANSAC。但是,在每次估算迭代之后,我們都采取了“贏者通吃”的策略,而不是僅從數(shù)據(jù)集中刪除共識集:如果超像素區(qū)域中有顯著更高的內(nèi)點(diǎn)比率(由q操縱),則該超像素區(qū)域的所有點(diǎn)失效,表明該超像素由平面主導(dǎo)。由于一個超像素主要由一個平面組成,因此這可以消除被檢測平面的偽外點(diǎn)及其共識集,從而提高了對虛假和冗余估計(jì)問題的魯棒性。停止條件被設(shè)計(jì)為已分配給關(guān)鍵平面的關(guān)鍵點(diǎn)的比率閾值。

6 單應(yīng)性描述和消除歧義

一旦計(jì)算出單應(yīng)性矩陣,有許多方法將矩陣2H1分解為2R1,2t1/d和n1(平移達(dá)到一個尺度)。從分析上講,線性分解方法能夠做到這一點(diǎn),但仍會產(chǎn)生一些歧義。即使在應(yīng)用所有點(diǎn)對相機(jī)可見的條件之后,仍然存在兩個歧義。如果先驗(yàn)地知道R,t,n中的至少一個元素,則可以解決歧義,例如:已知地面的法線方向垂直向上,或者IMU能夠指出運(yùn)動方向或者篩選歧義結(jié)果的其他度量方法。

不能區(qū)分兩個歧義的主要原因是,它們在幾何上都具有單應(yīng)性約束。不可能區(qū)分兩個歧義的主要原因是,它們在幾何上都具有單應(yīng)性約束。 在[9]的工作中,這兩個歧義{Ra,ta,na}和{Rb,tb,nb}間的平移矢量的關(guān)系顯示如下(為簡單起見,在不混淆的情況下,我們在本節(jié)中使用Ra描述歧義2R1a,這與所有其他表示法相似):
基于超像素及多平面的位姿估計(jì)和平面重建的圖11
基于超像素及多平面的位姿估計(jì)和平面重建的圖12
等式(3)和(4)表明ta和tb之間的差異實(shí)際上受Ra和na的影響。 對于單一單應(yīng)性的情況,不能利用這種關(guān)系來選擇兩個圖像之間的真實(shí)變換。 然而,在多重單應(yīng)性的條件下,方程(3)有額外的約束。實(shí)際上,由于相機(jī)在移動時(shí)場景是靜態(tài)的,因此所有的單應(yīng)性實(shí)際上在不同平面上共享相同的平移和旋轉(zhuǎn)。我們的直覺是依靠此共享信息來消除分解的歧義。

對于多重單應(yīng)性場景{Hi}中的每個Hi,可以將兩個可能的歧義表示為地面真值集{Rti,tti,nti}及其歧義集{Rfi,tfi,nfi}。 由于所有單應(yīng)性均具有唯一的tt和Rt:
基于超像素及多平面的位姿估計(jì)和平面重建的圖13
這意味真實(shí)平移tt和模糊的tfi之間的關(guān)系僅受平面的法向矢量nti影響。 假設(shè)至少兩個平面具有不同的法向矢量(這是常見的多重平面場景),則可以通過簡單地選擇公共平移矢量來找到真實(shí)變換{Rt,tt},從而消除了歧義解。通過在所有平移向量的方向上實(shí)施相當(dāng)簡單的投票系統(tǒng)來執(zhí)行此過程。 通過考慮角度閾值(在我們的實(shí)現(xiàn)中為15°)來收集矢量,我們選擇投票最多的平移矢量,從而消除了每個平面的歧義。

7 非線性多平面優(yōu)化

(一)圖像對非線性優(yōu)化

在傳統(tǒng)的SLAM系統(tǒng)中,通過最小化地標(biāo)(例如關(guān)鍵點(diǎn),線條或其他特征)在圖像空間上的重新投影誤差,引入了捆綁調(diào)整技術(shù)來優(yōu)化相機(jī)的位姿和地標(biāo)。同樣,對于兩個圖像之間的單應(yīng)變換,先前的工作(例如,基于圖像的視覺伺服系統(tǒng)[30])已經(jīng)顯示出,利用先前已知的平面,相機(jī)姿態(tài)的估計(jì)(變換{R,t}的最小表示)可以通過最小二乘高斯-牛頓優(yōu)化過程來實(shí)現(xiàn),方法類似于最小化重投影誤差,n = 1...Np為關(guān)鍵點(diǎn)的數(shù)目。通過將平面參數(shù)π1= {n1,d}添加到系統(tǒng)中,對于單個單應(yīng)性而言,優(yōu)化框架具有以下形式:
基于超像素及多平面的位姿估計(jì)和平面重建的圖14
稠密形式的雅可比行列式 (6)可以改寫為:
基于超像素及多平面的位姿估計(jì)和平面重建的圖15
相機(jī)位姿的雅可比J(q)定義為:
基于超像素及多平面的位姿估計(jì)和平面重建的圖16
其中,(x,y)是對應(yīng)于P,的2D點(diǎn)坐標(biāo),1 / Z是深度倒數(shù),并使用第2幀中的P2關(guān)鍵點(diǎn)如下計(jì)算(請參見[30]):
基于超像素及多平面的位姿估計(jì)和平面重建的圖17
與平面的雅克比相似,四列代表
基于超像素及多平面的位姿估計(jì)和平面重建的圖18
tx是 基于超像素及多平面的位姿估計(jì)和平面重建的圖19 中的x軸值。
然而,由于多單應(yīng)性是在靜態(tài)環(huán)境下,圖像中檢測到的一系列單應(yīng)性關(guān)系{2H1i}包括共享的變換分解為2R1,2t1,其中i=1...Nπ為平面數(shù)目:
基于超像素及多平面的位姿估計(jì)和平面重建的圖20
通過這個特性,我們提出了多單應(yīng)性下相機(jī)位姿和平面的優(yōu)化。
基于超像素及多平面的位姿估計(jì)和平面重建的圖21
雅克比矩陣是稀疏形式,比如計(jì)算平面i∈1...Nπ所有關(guān)鍵點(diǎn)的雅克比塊可以被定義為:
基于超像素及多平面的位姿估計(jì)和平面重建的圖22
因此,單個圖像的所有平面的雅克比為:
基于超像素及多平面的位姿估計(jì)和平面重建的圖23
參考Ⅷ節(jié)圖像對間的估計(jì)可視化。
(二)類似于BA的優(yōu)化

(1)平面關(guān)聯(lián): 不像[1]和[31]中廣泛使用的基于特征點(diǎn)的BA技術(shù),我們的3D平面地圖類似于二維結(jié)構(gòu):提取的特征點(diǎn)屬于不同的平面。因此,對于接下來的BA環(huán)節(jié),平面關(guān)聯(lián)是必須的。問題可以重新定義如下:我們從兩個幀{πc}和{πc+1}中尋找匹配兩組平面的方法。

與直接比較這些平面參數(shù){n,d}而不考慮圖像信息的相關(guān)工作[14]或僅考慮圖像重疊信息但不考慮幾何約束的其他工作相比,我們提出了一種考慮幾何信息和圖像信息的混合平面關(guān)聯(lián)策略:

① 由于距離d受尺度模糊的嚴(yán)重影響,我們首先比較兩個法向矢量d(nc,nc+1)間的角度。但是,此方法無法區(qū)分環(huán)境中的兩個平行平面。
② 超像素追蹤結(jié)果也被考慮在內(nèi)。它不僅有助于避免平行平面不匹配,而且在圖像之間的平移太小且所有平面成為一個單應(yīng)性時(shí)拒絕相機(jī)位姿 。
③ 最后檢查平面之間匹配的描述子的數(shù)量。通過單應(yīng)性重新投影后的搜索也可以用于更魯棒的匹配結(jié)果:例如,為了比較幀Pc+n和幀Pc之間的關(guān)鍵點(diǎn),因?yàn)闆]有從圖像計(jì)算出直接的c+nHc,可以通過乘單應(yīng)性矩陣c+nHc+n-1。。。c+1HcPc來確定幀i中的關(guān)鍵點(diǎn)并通過搜索方法將它們與Pc+n比較。

(2)平面地圖優(yōu)化:平面地圖優(yōu)化包含一個優(yōu)化框架,該框架可優(yōu)化所有關(guān)鍵幀的位姿及其通過平面匹配過程找到的公共平面。每個關(guān)鍵幀包含多個平面和每個平面中的關(guān)鍵點(diǎn)。一旦在不同的關(guān)鍵幀(例如基于點(diǎn)的SLAM的全局BA)上獲得了聯(lián)合平面信息,此過程就消除了漂移問題,解決了尺度的歧義,并確定了整個過程的相機(jī)軌跡。我們建議采用類似BA的優(yōu)化方法,說明所有不同關(guān)鍵幀中的所有單應(yīng)性:
基于超像素及多平面的位姿估計(jì)和平面重建的圖24
其中c和i是幀數(shù)和平面數(shù)的索引,Nc和Nπ分別代表幀和平面的總數(shù)。

(3)關(guān)鍵幀選取: 我們建議的關(guān)鍵幀選擇是一種直接的啟發(fā)式方法,可與[1],[2]之類的系統(tǒng)相提并論。我們依靠視差指標(biāo)(定義為圖像間所有匹配的關(guān)鍵點(diǎn)的平均變換)和匹配質(zhì)量來選擇關(guān)鍵幀。檢查兩個條件:① 在至少給定數(shù)量的像素上具有視差;這是從一個數(shù)據(jù)集到另一個數(shù)據(jù)集的超參數(shù),根據(jù)經(jīng)驗(yàn)可在20到40個像素之間找到。② 至少一定數(shù)量的平面完全匹配。此參數(shù)也是可調(diào)整的,因?yàn)槟承┉h(huán)境包含許多小平面,而某些環(huán)境包含較少的平面。

8 實(shí)驗(yàn)

我們的實(shí)驗(yàn)包括三部分:圖像對、室內(nèi)實(shí)驗(yàn)和室外實(shí)驗(yàn)。

我們在不同的環(huán)境和相機(jī)類型下測試不同的圖像對,包括Kinect相機(jī)的RGB圖像[32],手持手機(jī)[33]和微型飛行器圖像[34]。結(jié)果如圖3所示,包括平面估計(jì)、相應(yīng)的深度圖像以及帶有相機(jī)位姿的三維平面地圖。另一個對比的例子如圖4所示,估計(jì)的深度圖像與Kinect相機(jī)估計(jì)的地面真值很好對應(yīng),能夠保持非常稠密的形式,這對于稀疏甚至半密集的RGB單目地圖系統(tǒng)來說是很難做到的。

對全序列圖像進(jìn)行室內(nèi)環(huán)境測試采用的是[21]、[35]中使用的TUM RGB-D數(shù)據(jù)集[32]。場景構(gòu)建為一個純粹的平面環(huán)境,但是墻上的均勻顏色分布對于超像素提取來說是一個相對的挑戰(zhàn):很多超像素都是在兩個平面的邊界生成的,因?yàn)樗鼈兊念伾雌饋矸浅O嗨?。結(jié)果與ORB-SLAM[1], LSD-SLAM[2], 多級建圖[35]和DPPTAM[21]的對比如表一所示。就絕對位姿誤差而言,我們的方法優(yōu)于所有稠密和半稠密的方法,并且相對于當(dāng)前最新的基于關(guān)鍵點(diǎn)的單目稀疏SLAM[1](僅提供稀疏點(diǎn)云建圖)達(dá)到了一個良好的精度等級。相對于[1]更低的性能原因可能是我們的原始關(guān)鍵幀選取策略,因?yàn)樵陉P(guān)鍵幀手動選擇的同時(shí),結(jié)果得到了顯著的改善。

基于超像素及多平面的位姿估計(jì)和平面重建的圖25
圖3 從圖像對中估計(jì)的結(jié)果包括深度圖和3D平面圖,顯示了我們的方法在多平面環(huán)境下的估計(jì)效果很好。結(jié)果(c)表明,我們的方法在不依賴于曼哈頓假設(shè)的情況下很好地保留了平面之間的正交性。
 
基于超像素及多平面的位姿估計(jì)和平面重建的圖26
圖4 TUM數(shù)據(jù)集[32]的圖像對和真實(shí)場景的深度圖的估計(jì)結(jié)果比較。帶有小數(shù)目的參數(shù)(3平面),我們提出的方法能夠生成稠密地圖。
 
基于超像素及多平面的位姿估計(jì)和平面重建的圖27
圖5 我們的方法生成的TUM數(shù)據(jù)集[32]的三維平面地圖和相機(jī)軌跡。
 
表1 TUM的RGB-D數(shù)據(jù)集[32]的ATE評估
基于超像素及多平面的位姿估計(jì)和平面重建的圖28

提出的方法優(yōu)于DPPTAM、LSD-SLAM和多級建圖,盡管性能落后于ORB-SLAM(不帶有平面假設(shè)的基于關(guān)鍵點(diǎn)的單目稀疏SLAM),但是我們的方法提供了稠密的地圖表達(dá)。


基于超像素及多平面的位姿估計(jì)和平面重建的圖29
圖6 由不同方式生成的軌跡的比較:相對于LSD-SLAM和DPP-SLAM,我們的方法展示了更穩(wěn)定和相似的軌跡結(jié)果,由于全局平面表示和非線性BA,我們的結(jié)果達(dá)到了當(dāng)前最新的稀疏SLAM方法ORB-SLAM的水平。

最后,我們在室外和類似走廊的環(huán)境下,對來自手持式單目灰度相機(jī)數(shù)據(jù)集的圖像序列進(jìn)行測試[36]。圖7顯示,我們的系統(tǒng)成功地從序列中恢復(fù)了多個平面的結(jié)構(gòu)以及相機(jī)的軌跡。

基于超像素及多平面的位姿估計(jì)和平面重建的圖30
圖7 室外數(shù)據(jù)集[36]的實(shí)驗(yàn),坐標(biāo)表示關(guān)鍵幀的相機(jī)姿態(tài)。在類似廊道的環(huán)境下,該多平面結(jié)構(gòu)無需任何假設(shè)即可得到很好的保留。

9 結(jié)論與展望

我們提出了一種從稀疏關(guān)鍵點(diǎn)估計(jì)攝像機(jī)位姿的新方法,并通過多重單應(yīng)性重建稠密的平面地圖表示。采用基于超像素的RANSAC方法對平面進(jìn)行多單應(yīng)性提取,并利用投票系統(tǒng)解決單應(yīng)性歧義問題。我們還引入相機(jī)和平面地圖的優(yōu)化,以執(zhí)行更精確的地圖和跟蹤結(jié)果。與現(xiàn)有的貢獻(xiàn)相比,結(jié)果表明該方法有益。
未來的工作將集中于改進(jìn)平面匹配技術(shù)和長時(shí)間的性能,以匹配稀疏SLAM技術(shù)的精度,并產(chǎn)生比稠密SLAM技術(shù)更輕量級的地圖。


本文譯自:
Relative Pose Estimation and Planar Reconstruction via
Superpixel-Driven Multiple Homographies
文章來源:
2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
作者:
Xi Wang, Marc Christie, Eric Marchand
原文鏈接:
http://ras.papercept.net/images/temp/IROS/files/1630.pdf
登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺客服

TOP