TPAMI2021|深度學習行人重識別綜述與展望

駕駛哥

2021年1月20日 15:17

摘要：行人重識別（Person Re-Identification，簡稱Re-ID），是一種利用計算機視覺技術來檢索圖像或者視頻序列中是否存在特定行人的AI技術，在智慧城市等監控場景中具有重要的應用意義和前景。本文介紹我們最新的IEEE TPAMI綜述論文《Deep Learning for Person Re-identification: A Survey and Outlook》，該文作者來自武漢大學、起源人工智能研究院（IIAI）、北理工、英國薩里大學、Salesforce亞洲研究院。

首先非常感謝領域內的前輩和各位大佬，為該綜述提供了非常充實的素材和基礎。

這里先總結該綜述的幾個主要貢獻點：

綜述：全面調研了近年來深度學習在Re-ID領域的進展，囊括了近幾年三大視覺頂會上的大部分文章（如有遺漏，請諒解）。主要包括Closed-world Re-ID與Open-world Re-ID的研究進展，常用數據集和評價指標的概述，并分析了現有方法的不足和改進點。
展望：1) 一個新的評價指標mINP，用來評價找到最困難匹配行人所需要的代價；2) 一個強有力的AGW方法，在四種不同類型的Re-ID任務，包括12個數據集中取得了較好的效果；3) 從五個不同的方面討論了未來Re-ID研究的重點和難點，僅供大家參考。

前言

根據個人理解，本文總結Re-ID技術的五大步驟： 1）數據采集，一般來源于監控攝像機的原始視頻數據；2）行人框生成，從視頻數據中，通過人工方式或者行人檢測或跟蹤方式將行人從圖中裁切出來，圖像中行人將會占據大部分面積；3）訓練數據標注，包含相機標簽和行人標簽等其他信息；4）重識別模型訓練，設計模型（主要指深度學習模型），讓它從訓練數據中盡可能挖掘“如何識別不同行人的隱藏特征表達模式”；5）行人檢索，將訓練好的模型應用到測試場景中，檢驗該模型的實際效果。如下圖所示：

全文的綜述和展望都是圍繞這五個步驟來展開和討論的。針對以上五個步驟的一些約束條件，本文將ReID技術分為 Closed-world 和Open-world 兩大子集。Closed-world概括為大家常見的標注完整的有監督的行人重識別方法，Open-world概括為多模態數據，端到端的行人檢索，無監督或半監督學習，噪聲標注和一些Open-set的其他場景。

Closed-world Re-ID

這一章節主要介紹大家常用的封閉世界（Closed-world）Re-ID設置，一般包含以下假設：（1）通過圖像或視頻，可見光（RGB）攝像機捕捉行人；（2）行人由bounding boxes框出；（3）有足夠多的被標注訓練數據；（4）標注的數據標簽通常都是正確的；（5）query person必須出現在gallery set 中。根據方法設計流程，將其分為特征學習，度量學習和排序優化三個部分。研究人員的方法通常針對這三方面進行改進，側重點不同。有的是提出了新穎的特征學習方法，有的提出有效的度量損失函數，也有的是在測試檢索階段進行優化。在本章節末尾，還概括了現有的常用數據集和評價指標，以及現有SOTA的優缺點分析。

2.1 特征學習方法

圖 2. 四種主要的Re-ID特征學習方法

全局特征學習，利用全身的全局圖像來進行特征學習，常見的改進思路有Attention機制，多尺度融合等；
局部特征學習，利用局部圖像區域（行人部件或者簡單的垂直區域劃分）來進行特征學習，并聚合生成最后的行人特征表示；
輔助特征學習，利用一些輔助信息來增強特征學習的效果，如語義信息（比如行人屬性等）、視角信息（行人在圖像中呈現的不同方位信息）、域信息（比如每一個攝像頭下的數據表示一類域）、GAN生成的信息（比如生成行人圖像）、數據增強等；
視頻特征學習：利用一些視頻數據提提取時序特征，并且融合多幀圖像信息來構建行人特征表達
特定的網絡設計：利用Re-ID任務的特性，設計一些細粒度，多尺度等相關的網絡結構，使其更適用于Re-ID的場景。

2.2 度量學習方法

圖 3. 三種常見的Re-ID度量學習（損失函數）方式

早期的度量學習主要是設計不同類型的距離/相似度度量矩陣。深度學習時代，主要包括不同類型的損失函數的設計及采樣策略的改進：

Identity Loss: 將Re-ID的訓練過程當成圖像分類問題，同一個行人的不同圖片當成一個類別，常見的有Softmax交叉熵損失函數；
Verification Loss：將Re-ID的訓練當成圖像匹配問題，是否屬于同一個行人來進行二分類學習，常見的有對比損失函數，二分類損失函數；
Triplet Loss：將Re-ID的訓練當成圖像檢索問題，同一個行人圖片的特征距離要小于不同行人的特征距離，以及其各種改進；
訓練策略的改進：自適應的采樣方式（樣本不均衡，難易程度）以及不同的權重分配策略

2.3 排序優化

用學習好的Re-ID特征得到初始的檢索排序結果后，利用圖片之間的相似性關系來進行初始的檢索結果優化，主要包括重排序（re-ranking）和排序融合（rank fusion）等。

圖 4. 重排序示例

2.4 數據集和評價

主要包括現有的一些常用圖像和視頻數據集的概括，以及現有方法SOTA的一些總結和分析，希望綜述里面的一些分析能夠在大家進行模型設計時提供一些思路和幫助。具體分析詳見原文。

Open-World Re-ID

由于常規的 Closed-world Re-ID 在有監督的實驗場景中已經達到或接近瓶頸了，現在很多的研究都更偏向于 Open-World Re-ID 場景，也是當前Re-ID研究的熱點。根據Re-ID系統設計的五個步驟，本章節也從以下五個方面介紹：1）多模態數據，所采集的數據不是單一的可見光模態；2）端到端的行人檢索（End-to-end Person Search）,沒有預先檢測或跟蹤好的行人圖片/視頻；3）無監督和半監督學習，標注數據有限或者無標注的新場景；4）噪聲標注的數據，即使有標注，但是數據采集和標注過程中存在噪聲或錯誤；5）一些其他Open-set場景，查詢行人找不到，群體重識別，動態的多攝像頭網絡等。

3.1 多模態（異構）數據

基于深度圖像Re-ID：旨在利用深度圖信息的匹配（融合或跨模態匹配），在很多人機交互的室內場景應用中非常重要；
文本到圖像Re-ID；旨在利用文字語言描述來搜索特定的行人圖像，解決實際場景中查詢行人圖像缺失等問題；
可見光到紅外Re-ID：旨在跨模態匹配白天的可見光圖像到夜晚的紅外行人圖像，也有一些方法直接解決低照度的重識別任務；
跨分辨率Re-ID；不同高低分辨率行人圖像匹配，旨在解決不同距離攝像頭下行人分辨率差異巨大等問題

總體而言，異構的行人重識別問題需要解決的一大難題是不同模態數據之間的差異性問題

3.2 端到端Re-ID（End-to-end Person Search）

純圖像/視頻的Re-ID；從原始raw 圖像或者視頻中直接檢索出行人；
多攝像頭跟蹤的Re-ID；跨攝像頭跟蹤，也是很多產業化應用的重點。

3.3 半監督和無監督的Re-ID

為了緩解對標注數據的依賴，半監督和無監督/自監督現在成為了當前研究的熱點，在CV頂會上呈爆炸之勢。本文也主要分成兩個部分：無監督Re-ID（不需要標注的源域）和無監督域自適應Re-ID（需要標注的源域數據或模型）：

無監督Re-ID：主要包括一些跨攝像頭標簽估計（聚類或圖匹配等）的方法，以及一些其他監督信息挖掘的方法（如local patch相似性等）；
無監督域自適應Re-ID：包括一些目標域圖像數據生成和一些目標域監督信息挖掘等方式。

考慮到無監督學習也是現在研究的熱點，本文也對現有的SOTA做了一個簡單的總結和分析，可以看到現在的 無監督學習方法已經是效果驚人了，未來可期。如下表所示：

表 1. 現有無監督學習方法在常見數據集上的效果

3.4 噪聲魯棒的Re-ID

主要針對標注數據或者數據采集中產生的一些噪聲或錯誤等，方法包括：

Partial Re-ID：解決行人圖像區域部分被遮擋的行人重識別問題；
Noise Sample：主要針對行人圖像或視頻中檢測、跟蹤產生的錯誤或偏差
Noise Label：主要針對行人標簽標注產生的錯誤

3.5 Open-set Re-ID and Beyond

主要針對一些其他開放場景進行一些探討，如1）gallery set 中query 行人沒有出現的場景；2）Group Re-ID:行人群體匹配的問題；3）動態的多攝像頭網絡匹配等問題

展望

4.1 新的評價指標mINP:

考慮到實際場景中，目標人物具有隱匿性，很多時候要找到其困難目標都非常難，給偵查工作帶來麻煩。mINP主要目的是為了衡量Re-ID算法用來找到最難匹配樣本所要付出的代價，

其計算方式跟mAP一樣非常簡單，應該還是對評價Re-ID效果有一定補充作用。簡單來講，排名倒數第一的正確樣本位置越靠后，人工排查干預的代價越大，mINP的值越小。這里感謝Fast-ReID（github.com/JDAI-CV/fast ）項目對我們評價指標和方法的集成。

4.2 新的基準方法AGW

主要是在@羅浩的Bag of tricks（感謝）上做的一些改進，主要包括：1）Non-local注意力機制的融合；2）Generalized-mean (GeM) Pooling的細粒度特征提取；3）加權正則化的三元組損失（Weighted Regularization Triplet (WRT) loss）：

圖 5. AGW 方法的示意圖

在審稿人的建議下，我們在四種不同類型的任務（圖像Re-ID, 視頻Re-ID，跨模態紅外Re-ID和Partial Re-ID）的12個數據集上均對我們提出的新指標mINP和AGW方法進行了測評，在大多數情況下，我們的方法都能夠取得比較好的效果。具體的實驗結果和分析可以參考我們的論文和補充材料，希望我們的方法和評價指標能對大家有一些幫助。

4.3 對未來一些研究方向的思考

這一部分也是緊扣前面提出的五個步驟，針對五個步驟未來亟待解決的關鍵問題或者熱點問題進行歸納。由于每個人理解上的認知偏差，這里的建議僅供大家參考：

不可控的數據采集:不確定多種模態混合的Re-ID，而不是固定的模態設置；換裝的Re-ID，2020年已經有好幾個新的數據集；

減少人工標注依賴：人機交互的主動學習，選擇性的標注；從虛擬數據進行學習（Learning from virtual data），如何解決虛擬數據中的domain gap；

面向Re-ID通用網絡設計：Domain Generalized Re-ID，如何設計一種在未知場景中也表現優異的模型，如何利用自動化機器學習來設計針對Re-ID任務的網絡模型；

動態的模型更新：如何以小的代價將學習好的網絡模型微調至新攝像頭場景中；如何高效的利用新采集的數據（Newly Arriving Data）來更新之前已訓練好的模型；

高效的模型部署：輕量型快速的行人重識別算法設計，自適應的針對不同類型的硬件配置（小型的移動手機和大型服務器）調整模型。

登錄后免費查看全文

立即登錄