三維重建與自動駕駛的契合點在哪里？盤一盤近幾年SOTA方法！

駕駛哥

2023年2月23日 11:30

瀏覽：4285 收藏：1

由于3D重建在許多領域的廣泛應用，例如自動駕駛、機器人和虛擬現實，其最近引起了越來越多的關注。作為人工智能中的一項關鍵技術，深度學習已被成功應用于解決各種計算機視覺問題。然而，由于獨特的挑戰和變化的機制，基于深度學習的3D重建仍處于起步階段。MVS被認為是基于圖像的3D重建的關鍵任務，本文綜述了基于深度學習的多視圖立體(MVS)方法的發展情況。

1、MVSNet(ECCV2018)

MVSNet: Depth Inference for Unstructured Multi-view Stereo.

MVSNet是第一個基于深度學習的MVS重建架構。提出一種端到端的多視圖重建深度學習架構，參考基于2張圖片的代價體的雙目立體匹配深度估計方法，擴展到多張圖片中進行深度估計。MVSNet的核心不是直接把3D模型建出來，而是端到端的學習深度圖，它的目標是預測圖片上每個像素的深度信息。在該架構中，首先提取深層的視覺圖像特征，然后通過可微分的單應變換，基于參考視圖的相機視錐體構建3D代價體。然后使用3D卷積對初始深度圖進行正則化和回歸得到初始的深度圖，初始的深度圖通過參考圖像改進得到最后的深度圖。MVSNet框架可以靈活地處理任意數量視圖，因為基于方差的代價指標可將多個特征映射為一個代價特征。MVSNet在大規模室內數據集DTU上進行驗證不僅顯著優于以前的先進技術，而且運行時速度快了幾倍。在復雜的戶外Tanks and Temples數據集上評估MVSNet，無需任何微調，MVSNet在排行榜上位列第一，證明了網絡具有很強的泛化能力。但MVSNet在正則化時將整個代價體作為輸入，其內存消耗隨尺度增加且是立方級增加，限制了模型在高分辨率應用場景的可擴展性。

網絡結構如下：

MVSNet的概述如上圖所示，網絡的輸入是一張參考圖像（reference image）和一系列的源圖像（source image），每次計算一個參考圖像的深度圖，而不是立即計算整個三維場景，這樣的思路保證了大規模三維重建的可行性。通過使用可微的單應性矩陣變換，將2D的圖像特征轉換到基于相機視錐的特征體，并將基于方差的N個特征體合并成一個代價體，實現了將相機的幾何信息編碼到網絡中，并能適應不同數目的多視角圖像輸入，保證了深度學習中端到端的訓練。網絡過程包括特征提取、特征體構建、生成代價體、代價體正則化、深度圖初始估計、深度圖優化、損失計算。特征提取目標是提取每幅輸入圖像的特征，輸入1個參考圖像+N個原圖像，輸出N+1個1/4原尺寸32通道的特征圖。特征體構建目標是將所有特征圖變換到參考相機的視錐體體空間，形成N+1個特征體Vi。生成代價體目標是將N+1個特征體聚合為一個統一的代價空間C(D，W，H，F)，其中D、W、H、F為深度采樣數、輸入圖像的寬度，高度的1/4和特征圖的通道數。代價體正則化目標是根據代價空間C得到概率空間P，使用類似于3D-UNet的編碼器-解碼器結構，以相對較低的內存和計算成本，從一個大的感受野聚集相鄰的信息。深度圖初始估計目標是從概率空間P中獲取深度圖。深度圖優化是利用參考圖像的邊界信息優化深度圖。損失計算過程使用L1損失，分別對初始深度圖和優化深度圖進行損失計算，再以權重系數λ相加，λ一般設置為1.0。

2、R-MVSNet(CVPR2019)

R-MVSNet:Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference.

R-MVSNet是對MVSNet對改進，其要解決的問題是代價體正則化過程中內存過大問題。主要創新點有

在代價體正則化過程，把3D卷積換成GRU時序模型來降低模型大小
將原始的回歸問題換成多分類問題計算交叉熵損失
為產生具有亞像素精度的深度估計，對初始網絡得到的深度圖進行變分深度圖細化。

優缺點：降低了模型的內存消耗，增強了模型的可擴展性，但增加了模型的訓練時間。R-MVSNet核心思想是利用GRU，將普通正則化一次性在多個深度上進行的過程，轉為逐個深度進行、并利用了上一個深度的輸出，即將深度尺度看作循環神經網絡的時間尺度，從而將原來D個深度樣本時需要的內存T減小到了T/D。

網絡結構如下：

R-MVSNet的概述如上圖所示，特征提取與MVSNet一致，圖中圓圈M表示特征圖到特征體過程，N張源圖像和參考圖通過特征提取網絡得到的N個特征圖，通過深度D0對應的單應矩陣H進行變換得到N個特征體，并對這N個特征體的每個特征通道上的每個特征點計算方差值，最終得到由方差值組成代價體，即圖中C(0)。正則化部分首先是一個橙色的卷積網絡將通道數由32變為16，隨后通過3層疊加的GRU分別將通道數變為16，4，1，最終輸出一張正則化后的代價圖。損失計算過程，直接將各個深度正則化后的代價圖聚合成一個概率體P，并在這當中沿P的深度方向使用了Softmax，即此時各點的值沿P深度方向和為1的概率。將概率體P與真實圖像所得的真實概率體Q計算交叉熵損失，將求概率期望的回歸問題變成了一個多分類的問題。

3、IterMVS(CVPR2022)

IterMVS: Iterative Probability Estimation for Efficient Multi-View Stereo.

本文提出一種用于高分辨率多視圖立體的新的數據數據驅動方法IterMVS，IterMVS使用一種新的基于GRU的估計器，該估計器在隱藏狀態下編碼深度的像素級概率分布。模型聚合了多尺度匹配信息，在多次迭代中細化這些分布，并推斷深度和置信度。IterMVS以一種新的方式結合傳統的分類和回歸去提取深度圖。在DTU, Tanks&Temples 、 ETH3D數據集上驗證了IterMVS的效率和有效性。IterMVS模型在內存和運行時間上都是最有效的方法，且還能實現最優性能，在Tanks&Temples、ETH3D數據上具有很好的泛化性。IterMVS的限制：其網絡結構允許通過調整推理期間的迭代次數來權衡速度和準確性，但需要確定概率分布所包含的樣本數量。該數字D2隨后由網絡結構確定，不能針對不同場景進行調整。

網絡結構如下：

IterMVS的概述如上圖所示，由一個多尺度特征提取器、一個基于迭代GRU的概率估計器，模擬每個像素的深度概率分布和一個空間上采樣模塊組成。利用從特征提取器中提取的多尺度特征，基于GRU的概率估計器計算深度假設在不同尺度水平上的匹配相似性。GRU以匹配信息為輸入迭代更新隱藏狀態，對深度的逐像素概率分布進行編碼。從隱藏狀態估計深度圖和置信度。空間上采樣模塊將GRU輸出的四分之一分辨率深度和置信度提高到全分辨率。在多尺度特征提取器模塊，輸入是N個大小為W×H的輸入圖像，分別用I0和Ii表示參考圖像和源圖像，利用特征金字塔網絡(FPN)從圖像中提取多尺度特征。網絡共有三個層級，各層輸出分辨率分別是原始圖像的1/2、1/4、1/8，通道數為16、32、64。隨后是基于迭代GRU的概率估計器，基于GRU的概率估計器用32維的隱藏狀態對深度的逐像素概率分布建模。GRU在1/4分辨率下運行，輸出深度圖D∈W/4×H/4，并進行K次迭代。迭代k次的深度圖由隱藏狀態h預測。在深度范圍內D2位置周圍均勻采樣的深度，通過在隱藏狀態上應用2D CNN，然后沿著深度維度進行softmax，提取概率P∈W/4×H/4×D2。這種采樣分布中預測深度值的通常策略是使用argmax或soft argmax。前者對應于測量真實值的one-hot編碼和P之間的Kullback-Leibler散度，但不能提供超出離散化級別的解決方案(例如“亞像素”解決方案)。后者對應于測量P的期望到真實深度的距離。而期望可以取任意連續值，測度不能處理P中的多模態，這種方式偏好單模態分布。因此，本文提出了一個新的混合策略，結合分類和回歸。從概率P中找到概率最高的像素p的索引。最后，對GRU概率估計器輸出的深度圖DK進行上采樣，分辨率從1/4到全分辨率。

內存消耗和運行時長對比：所有方法內存消耗和運行時長都是隨著輸入分辨率的增加而增加，IterMVS增長最慢，且實現了最低消耗。

4、TransMVSNet(CVPR2022)

TransMVSNet: Global Context-aware Multi-view Stereo Network with Transformer.

本文提出使用Transformer進行全局上下文感知的多視圖立體網絡TransMVSNet。考慮MVS特征匹配任務的本質，提出一個強大的特征匹配轉換器 (FMT)，使用內部和外部注意力來聚合圖像內和圖像之間的上下文信息。為了更好地適應FMT，本文利用自適應接收場（ARF）模塊確保特征范圍內的平穩過渡，并通過特征路徑跨越不同尺度傳遞轉換后的特征和梯度，從而跨越不同階段。此外，本文應用成對特征相關性來度量特征之間的相似性，并采用模糊性減少焦距損失來加強監督。TransMVSNet是利用Transformer完成MVS任務的第一次嘗試。在DTU數據集、Tanks and Temples基準以及BlendedMVS數據集上實現了最先進的性能。盡管TransMVSNet降低了推理速度，但與其他從粗到細的MVS網絡類似，本文方法對推理超參數敏感，例如深度假設的數量、深度間隔和深度間隔的衰減因子。

網絡結構如下：

TransMVSNet的概述如上圖所示，首先使用特征金字塔網絡（FPN），在三個粗略到精細的分辨率上提取多尺度深度圖像特征；在將這些特性輸入給Transformer之前，本文使用自適應接收場（ARF）模塊來細化局部特征提取，并確保平穩過渡到Transformer。為了利用參考圖像和源圖像之間的全局上下文信息，本文采用特征匹配Transformer（FMT）進行內部和外部注意力。為了有效和高效地將變換后的特征從低分辨率傳播到更高分辨率，并使FMT使用所有尺度的梯度進行訓練，本文用一個特征路徑連接所有的分辨率。對于FMT處理的N×H′×W′×F的特征圖，構建H′×W′×D′×1的相關體用于3D CNN的正則化。H′、W′和F表示當前階段特征圖的高度、寬度和通道，N表示視圖數，D′表示相應的深度假設數。在獲得正則化的概率體之后，模型采取贏者通吃的策略來確定最終預測。在模糊區域使用焦距損失來強化懲罰，以端到端訓練TransMVSNet。

5、MVSTER(ECCV2022)

MVSTER: Epipolar Transformer for Efficient Multi-View Stereo.

基于學習的多視圖立體（MVS）方法將源圖像投影到參考相機視錐體中，以形成3D體，這些體被融合為代價體，由后續網絡進行正則化。融合步驟在連接2D語義和3D空間關聯方面起著至關重要的作用。然而，先前的方法利用額外的網絡來學習2D信息作為融合線索，未充分利用3D空間相關性，這帶來了額外的計算成本。因此，本文提出了MVSTER，它利用所提出的epipolar Transformer來有效地學習2D語義和3D空間關聯。epipolar Transformer利用可分離的單目深度估計來增強2D語義，并使用交叉注意力沿著極線構建數據依賴的3D關聯。此外，MVSTER在級聯結構構建中，利用熵正則化的最優傳輸在每個階段傳播更精細的深度估計。大量實驗表明，MVSTER以更高的效率實現了最先進的重建性能：與MVSNet和CasMVSNet相比，MVSTER在DTU基準上實現了34%和14%的相對改進，運行時間分別減少了80%和51%。

本文的主要貢獻有：

提出了一種新穎的基于 Transformer 的端到端多視圖立體MVSTER，利用提出的極線Transformer來有效地學習沿極線的 3D 關聯。
利用輔助單目深度估計器來指導查詢特征在訓練期間學習深度辨別信息，這增強了特征語義，但不會帶來效率損失。
將深度估計公式化為一個深度感知分類問題，并使用熵正則化最優轉換來解決，這產生在級聯結構中傳播的更精細的深度估計。
在 DTU、Tanks&Temples、BlendedMVS 和 ETH3D 上進行的大量實驗表明，本文方法比現有方法實現了卓越的性能和更高的效率。

網絡結構如下：

MVSTER首先通過FPN提取特征，然后通過極線Transformer聚合多視圖特征，其中輔助分支進行單目深度估計以增強上下文。隨后，使用3D CNN對聚集的特征體進行正則化，產生深度估計。最后，利用最優轉換來優化預測的深度。給定參考圖像I0( H×W×3)及其相鄰源圖像Ii( H×W×3)，第一步是提取這些輸入的多尺度2D特征，使用類似FPN的網絡，其中圖像被縮小M倍以構建深度特征F。接下來是極線Transformer，從不同的視圖聚合源體。Transformer中的原始注意力函數可以描述為將查詢和一組鍵值對映射到輸出。類似地，在所提出的極線Transformer中，參考特征被用作用戶查詢以匹配沿極線的源特征（鍵），從而增強相應的深度值。具體來說，通過單目深度估計的輔助任務來豐富參考查詢。隨后，交叉注意力在極線約束下計算查詢和源體之間的關聯，生成注意力引導以聚合來自不同視圖的特征體。聚集的特征然后通過輕量級3D CNN進行規則化。

6、MVSFormer(TMLR2023)

MVSFormer: Multi-View Stereo by Learning Robust Image Features and Temperature-based Depth.

特征表示學習是基于學習的多視圖立體（MVS）的關鍵組成。作為基于學習的MVS的常見特征提取器，FPN網絡受到反射和無紋理區域的不好的特征表示的影響，這限制了MVS的泛化，即使是使用預先訓練的卷積神經網絡（CNN）的FPN也無法解決這些問題。本文提出了一種預訓練的ViT增強MVS網絡，稱為MVSFormer，它可以從ViT的信息先驗中學習更可靠的特征表示，基于attention機制的分層ViT的微調MVSFormer可以在FPN的基礎上實現顯著的改進。此外，還提出了凍結ViT權重的替代MVSFormer，通過預訓練的注意力增強性能，極大減少訓練成本。MVSFormer通過梯度累積增強的有效多尺度訓練可以泛化到各種輸入分辨率。MVSFormer在DTU數據集上實現了state-of-the-art的表現，在Tanks-and-Temples競賽中排名第一。

網絡結構如下：

MVSFormer的概述如上圖所示，包括1、分層ViT和普通ViT特征提取器，ViT的輸入被下采樣到1/2分辨率。2、多尺度代價體計算和正則化。為了在各種分辨率下微調MVSFormer，使用Twins作為MVSFormer的backbone，因為Twins具備有效的注意力機制和針對不同尺度的魯棒位置編碼。得益于高效的注意力設計，可以用在各種分辨率下相對較低的學習率在訓練階段對預訓練的Twins進行微調。