雙目立體視覺技術涉及到的基本概念

Garyice

2018年7月17日 16:56

1. 什么是視覺

視覺是一個古老的研究課題，同時又是人類觀察世界、認知世界的重要功能和手段。人類從外界獲得的信息約有75%來自視覺系統，用機器模擬人類的視覺功能是人們多年的夢想。視覺神經生理學，視覺心里學，特別是計算機技術、數字圖像處理、計算機圖形學、人工智能等學科的發展，為利用計算機實現模擬人類的視覺成為可能。在現代工業自動化生產過程中，計算機視覺正成為一種提高生產效率和檢驗產品質量的關鍵技術之一，如機器零件的自動檢測、智能機器人控制、生產線的自動監控等;在國防和航天等領域，計算機視覺也具有較重要的意義，如運動目標的自動跟蹤與識別、自主車導航及空間機器人的視覺控制等。

人類視覺過程可以看作是一個從感覺到知覺的復雜過程，從狹義上來說視覺的最終目的是要對場景作出對觀察者有意義的解釋和描述；從廣義上說，是根據周圍的環境和觀察者的意愿，在解釋和描述的基礎上做出行為規劃或行為決策。計算機視覺研究的目的使計算機具有通過二維圖像信息來認知三維環境信息的能力，這種能力不僅使機器能感知三維環境中物體的幾何信息(如形狀、位置、姿態運動等)，而且能進一步對它們進行描述、存儲、識別與理解，計算機視覺己經發展起一套獨立的計算理論與算法。

2. 什么是計算機雙目立體視覺

雙目立體視覺(Binocular StereoVision)是機器視覺的一種重要形式，它是基于視差原理并利用成像設備從不同的位置獲取被測物體的兩幅圖像，通過計算圖像對應點間的位置偏差，來獲取物體三維幾何信息的方法。融合兩只眼睛獲得的圖像并觀察它們之間的差別，使我們可以獲得明顯的深度感，建立特征間的對應關系，將同一空間物理點在不同圖像中的映像點對應起來，這個差別，我們稱作視差(Disparity)圖像，如圖一。

雙目立體視覺技術涉及到的基本概念的圖1

雙目立體視覺測量方法具有效率高、精度合適、系統結構簡單、成本低等優點，非常適合于制造現場的在線、非接觸產品檢測和質量控制。對運動物體（包括動物和人體形體）測量中，由于圖像獲取是在瞬間完成的，因此立體視覺方法是一種更有效的測量方法。

雙目立體視覺系統是計算機視覺的關鍵技術之一，獲取空間三維場景的距離信息也是計算機視覺研究中最基礎的內容。

雙目立體視覺的開創性工作始于上世紀的60年代中期。美國MIT的Roberts通過從數字圖像中提取立方體、楔形體和棱柱體等簡單規則多面體的三維結構，并對物體的形狀和空間關系進行描述，把過去的簡單二維圖像分析推廣到了復雜的三維場景，標志著立體視覺技術的誕生。隨著研究的深入，研究的范圍從邊緣、角點等特征的提取，線條、平面、曲面等幾何要素的分析，直到對圖像明暗、紋理、運動和成像幾何等進行分析，并建立起各種數據結構和推理規則。特別是上世紀80年代初，Marr首次將圖像處理、心理物理學、神經生理學和臨床精神病學的研究成果從信息處理的角度進行概括，創立了視覺計算理論框架。這一基本理論對立體視覺技術的發展產生了極大的推動作用，在這一領域已形成了從圖像的獲取到最終的三維場景可視表面重構的完整體系，使得立體視覺已成為計算機視覺中一個非常重要的分支。

經過幾十年來的發展，立體視覺在機器人視覺、航空測繪、反求工程、軍事運用、醫學成像和工業檢測等領域中的運用越來越廣。

3. 雙目立體視覺系統

立體視覺系統由左右兩部攝像機組成。如圖二所示，圖中分別以下標l和r標注左、右攝像機的相應參數。世界空間中一點A(X，Y，Z)在左右攝像機的成像面Cl和Cr上的像點分別為al(ul，vl)和ar(ur，vr)。這兩個像點是世界空間中同一個對象點A的像，稱為“共軛點”。知道了這兩個共軛像點，分別作它們與各自相機的光心Ol和Or的連線，即投影線alOl和arOr，它們的交點即為世界空間中的對象點A(X，Y，Z)。這就是立體視覺的基本原理。

雙目立體視覺技術涉及到的基本概念的圖2

4. 博安盈雙目立體視覺系統：平行光軸的系統結構

在平行光軸的立體視覺系統中（圖三），左右兩臺攝像機的焦距及其它內部參數均相等，光軸與攝像機的成像平面垂直，兩臺攝像機的x軸重合，y軸相互平行，因此將左攝像機沿著其x軸方向平移一段距離b（稱為基線baseline）后與右攝像機重合。

由空間點A及左右兩攝像機的光心Ol、Or確定的極平面（Epipolar plane）分別與左右成像平面Cl、Cr的交線pl、pr為共軛極線對，它們分別與各自成像平面的坐標軸ul、ur平行且共線。在這種理想的結構形式中，左右攝像機配置的幾何關系最為簡單，極線已具有很好的性質，為尋找對象點A在左右成像平面上的投影點al和ar之間的匹配關系提供了非常便利的條件。

雙目立體視覺技術涉及到的基本概念的圖3

5. 雙目立體視覺智能視頻分析技術

恢復場景的3D信息是立體視覺研究中最基本的目標，為實現這一目標，一個完整的立體視覺系統通常包含六個模塊：圖像獲取、攝像機標定、特征提取、立體匹配、三維恢復和視頻分析（運動檢測、運動跟蹤、規則判斷、報警處理）。

5.1. 圖像獲取（ImageAcquisition）

數字圖像的獲取是立體視覺的信息來源。常用的立體視覺圖像一般為雙目圖像，有的采用多目圖像。圖像獲取的方式有多種，主要由具體運用的場合和目的決定。立體圖像的獲取不僅要滿足應用要求，而且要考慮視點差異、光照條件、攝像機性能和場景特點等方面的影響。

5.2. 攝像機標定（CameraCalibration）

立體視覺系統攝像機標定是指對三維場景中對象點在左右攝像機圖像平面上的坐標位置al(ul，vl)、ar(ur，vr)與其世界空間坐標A(X，Y，Z)之間的映射關系的確立，是實現立體視覺三維模型重構中基本且關鍵的一步。

雙目立體視覺技術涉及到的基本概念的圖4

5.3. 特征提取（FeatureAcquisition）

特征提取的目的是要獲取匹配賴以進行的圖像特征，圖像特征的性質與圖像匹配的方法選擇有著密切的聯系。目前，還沒有建立起一種普遍適用的獲取圖像特征的理論，因此導致了立體視覺研究領域中匹配特征的多樣化。特征可以是像素相位匹配是近二十年才發展起來的一類匹配算法。相位作為匹配基元，本身反映信號的結構信息，對圖像的高頻噪聲有很好的抑制作用，適于并行處理，能獲得亞像素級精度的致密視差。但存在相位奇點和相位卷繞的問題，需加入自適應濾波器解決。或者是像素的集合，也可以是它們的抽象表達，如圖像結構、圖像目標和關系結構等。常用的匹配特征主要有點狀特征、線狀特征和區域特征等幾種情形。

一般而言，尺度較大的圖像特征蘊含較多的圖像信息，且特征本身的數目較少，匹配效率高；但特征的提取和描述過程存在較大的困難，定位精度也較差。而對于尺度較小的圖像特征來說，對其進行表達和描述相對簡單，定位精度較高；但由于其本身數目較多，所包含的圖像信息少，在匹配時需要采用較嚴格的約束條件和匹配策略，以盡可能地減少匹配歧義和提高匹配效率。總的來說，好的匹配特征應該具有要可區分性、不變性、唯一性以及有效解決匹配歧義的能力。

5.4. 圖像匹配（ImageMatching）

在立體視覺中（圖二、圖三），圖像匹配是指將三維空間中一點A(X，Y，Z)在左右攝像機的成像面Cl和Cr上的像點al(ul，vl)和ar(ur，vr)對應起來。圖像匹配是立體視覺中最重要也是最困難的問題，一直是立體視覺研究的焦點。當空間三維場景經過透視投影（PerspectiveProjection）變換為二維圖像時，同一景物在不同視點的攝像機圖像平面上的成像會發生不同程度的扭曲和變形，而且場景中的光照條件、被測對象的幾何形狀和表面特性、噪聲干擾和畸變、攝像機特性等諸多因素的影響都被集中體現在單一的圖像灰度值中。顯然，要對包含了如此之多不利因素的圖像進行準確匹配是很不容易的。

5.5. 三維恢復（3DReconstruction）

在完成立體視覺系統的攝像機標定和圖像匹配工作以后，就可以進行被測對象表面點的三維信息恢復。影響三維測量精度的因素主要有攝像機標定誤差、CCD成像設備的數字量化效應、特征提取和匹配定位精度等。

5.6. 視頻分析（運動檢測、運動跟蹤、規則判斷、報警處理）

通過視差計算，得到全屏幕的視差圖像后，采用背景建模的方式，得到運動前景物體的視差圖像，再進行膨脹和腐蝕算法進行圖像預處理，得到完整的可供分析的前景運動物體視差圖。采用運動跟蹤算法，全屏實時檢測物體的大小、運動軌跡，并與事先設置的規則進行對比，如果有人進入或離開設置報警區域，系統則實時報警。

5.7. 視差效果圖：

雙目立體視覺技術涉及到的基本概念的圖5