多特征融合的多目標跟蹤網絡

駕駛哥

2021年11月8日 09:32

來源 | 人工智能感知信息處理算法研究院

受到閾值分割方法的啟發，在早期圖像分割常用傳統的閾值分割方法結合具體的使用場景手動設計特征并調參進行場景分割，基于閾值的二值分割的算法得到廣泛應用。楊等人基于直方圖提出了一種改進的閾值分割方法并將其應用在足球機器人上。王等人利用閾值提取邊緣并基于邊緣信息對圖像進行分割。趙等人利用 Otsu閾值及炭疽孢子的連通特性及形狀特征實現對炭疽孢子的分割。林等人基于閾值分割方法在 YUV 空間實現了番茄分割識別。這一系列基于傳統圖像處理技術的分割方法有著較大的局限性，適用的分割場景也較為簡單，容易受到光照環境變化干擾，泛化能力不足。因此閾值分割算法逐漸被基于聚類的方法取代。

Tao 等人結合 Mean-shift和 Ncut 方法，減少了計算量和噪聲的干擾，使分割速度大幅提升。雷等人使用 Mean-shift 算法同時結合深度信息實現了復雜度較高的場景分割。以上基于聚類的無監督方法可以獲得一定的場景泛化能力來應對光線變化，但僅使用二維圖像對復雜場景分割的精度依舊有限且難以進行場景感知，亦存在較多局限性。

針對室內場景目標多種多樣，各目標之間差異較大，比如有靠椅、有凳子等，傳統圖像算法難以完整的分割出目標，且難以獲得類別標簽等更多的信息。近年來，隨著GPU 算力的增長以及數據集的完善，基于深度學習的語義分割算法飛速發展，圖像分割技術水平大幅提高，可以實現圖像像素級分類，目標分割完整度得到大大提升，進而分割精度得到大大提升Long等人于 2014 年提出了全卷積網絡（Fully Convolutional Network，FCN）進行語義分割，該網絡實現了端到端的逐像素分類，是深度學習語義分割方法的基石。該算法以 VGG-16 網絡為主干網絡，去除了網絡后的全連接層（Fully Connected Layer，FC）。由于 VGG-16 中只有全連接層要求輸入尺寸為固定大小，去除全連接層后，輸入網絡的圖像尺寸便可以是動態大小，去除了固定輸入尺寸的限制。同時 FCN 根據不同的下采樣倍率，將下采樣時得到的特征圖與上采樣進行轉置卷積計算時的特征圖進行融合得到了精細的像素級分割結果，為后續語義分割網絡設計奠定了基礎框架。所以后續分割算法大都以其為基礎進行改進。SegNet在解碼器部分使用上池化操作進行上采樣保留了高頻細節的完整性，實現了更精細的分割。之后的Unet在編解碼器間加入了若干跳躍連接，融合了編解碼器不同層次的特征，減小了信息丟失來提升精度，由于 Unet 設計了簡單高效的特征融合方式，在醫學圖像上作細胞分割效果較好，之后醫學圖像分割領域出現了很多基于 Unet 改進的分割網絡。2014年，Chen 等人在FCN 的特征提取網絡輸出端添加了條件隨機（Conditional Random Fields，CRF）模塊，進而提出了 Deeplab 方法，顯著提高了分割的精度。上述算法雖然提升了精度，但是特征提取網絡的感受野是固定的，沒有獲得圖像全局的一些特征，并且條件隨機場計算復雜，也并未起到什么顯著的作用。后續 Chen 等人持續改進提出了 DeeplabV2 網絡，提出空洞空間卷積池化金字塔（Atrous Spatial Pyramid Pooling，ASPP）模塊增加了感受野，在卷積過程中感受野越大網絡學習到的全局特征就越多，此方法在不增加參數量的情況下提高了網絡的感受野，也提高了小目標的分割精度。2017年，Chen 等人對 DeeplabV2 中的 ASPP 模塊進行改進，并刪除了條件隨機場模塊提出了 DeeplabV3+網絡。該網絡融合了更多尺度特征，大幅提升細節分割準確率。同樣是為了更大的感受野，Pspnet 網絡[則選擇用大量的池化金字塔獲得更多的全局信息。Zhao 等人考慮到樣本不均衡因素設計了焦點約束損失（Constrained Focal Loss，CFL）函數，大幅提升了樣本量不均衡時的模型的分割精度。后續的高準確度的分割算法，大都致力于增加模型參數量和復雜度，例如 HRNet，該網絡在特征提取時，特征圖尺寸不壓縮，用巨大的模型參數量和計算量換來了很大的圖像感受野，并且充分融合了多尺度特征，在多項任務上都能達到領先的精度。

但對于實際工程應用來說，部署算法不僅要考慮精度，也要考慮算力成本，自動駕駛無人車與服務機器人上的移動嵌入式計算設備，價格不高、功耗低、體積小，所以參數量大且計算復雜度高的分割算法在這類設備上幾乎沒有部署可能性。因此隨著人工智能行業的迅速發展，越來越多的人們開始致力于能解決實際應用落地的低計算成本語義分割網絡。Enet 是首個采用非對稱編解碼結構以低參數量實現快速語義分割的網絡，通過小且淺的瓶頸結構Enet 獲得了極低的參數量，使其在速度上大幅領先其他語義分割算法，但參數量極小的特征提取網絡在下采樣的過程中也丟失了大量的語義特征，導致其雖然在速度上有絕對優勢，但精度上并不理想。不過該算法也啟發了更多的人構建輕量化的高效分割網絡。如 CGNet 使用了通道分離卷積降低參數量結合其設計的 CG 模塊增強網絡語義特征提取能力，在分割速度與精度上較Enet 都有較大提升。

除了具體的語義分割網絡，為了實現深度學習的算法應用落地，許多針對嵌入式平臺、手機這類邊緣計算設備的輕量化基礎網絡也被設計出來，將原始分割算法的骨干網絡替換為輕量化的骨干網絡，也可得到較大的速度提升。MobileNet率先采用了深度可分離卷積殘差結構對常規卷積計算進行了改進，通過將常規卷積計算拆分為通道卷積與點卷積兩部分后，卷積計算量得到了大大的降低。之后的 MobileNetv2在此基礎上設計了反殘差結構在降低參數的同時提取高維度特征，效果顯著。目前很多移動端的算法都有使用 MobileNet 網絡作為主干網絡的應用落地。如檢測效果與速度均在頂尖水平的 RetinaFace人臉檢測網絡。除了使用輕量化網絡改進分割算法外，ICNet則使用了使用模型壓縮技術如量化、蒸餾、模型剪枝等技術針對訓練后的模型進行壓縮優化，并且在網絡中設計了低分辨率分割分支能夠使網絡快速獲得一個粗略的語義信息，再融合更高分辨率分支的結果補充細節，最終得到一個比較不錯的精度與分割速度的平衡。

在深度學習落地這一強大驅動力下，越來越多的研究人員不再熱衷于構造復雜又冗余的網絡結構針對分割準確率進行刷榜。伴隨著移動設備越來越強大的計算能力，很多語義分割應用都在移動平臺實現了落地，如手機端的人物換臉、自動摳圖、智能換背景等應用都使用了語義分割方法對主體與背景進行了精細的分割。

只是這類應用通常只需處理一張圖像，對實時性要求不高。而自動駕駛或服務機器人的使用場景則對實時性有很高的要求。