對象檢測 vs 對象識別 vs 圖像分割

仿真資料吧

2025年2月4日 12:30

瀏覽：4297 評論：14 收藏：10

對象識別：

對象識別是識別圖像和視頻中存在的對象的技術。它是機器學習和深度學習最重要的應用之一。該領域的目標是教機器像人類一樣理解（識別）圖像的內容。

編輯

對象識別

使用機器學習進行對象識別

HOG（定向梯度直方圖）特征提取器和 SVM（支持向量機）模型：在深度學習時代之前，它是一種最先進的對象檢測方法。它采用正（包含對象的圖像）和負（不包含對象的圖像）樣本的直方圖描述符，并在此基礎上訓練我們的 SVM 模型。
特征袋模型：就像 Bag of words 將文檔視為無序的單詞集合一樣，這種方法也將圖像表示為無序的圖像特征集合。這方面的示例包括 SIFT、MSER 等。
Viola-Jones 算法：該算法廣泛用于圖像中或實時的人臉檢測。它從圖像中執行類似 Haar 的特征提取。這將生成大量特征。然后，這些特征將傳遞到提升分類器中。這將生成提升分類器的級聯來執行圖像檢測。需要將圖像傳遞給每個分類器，以生成正（找到人臉）結果。Viola-Jones 的優點是它的檢測時間為 2 fps，可用于實時人臉識別系統。

使用深度學習進行對象識別

卷積神經網絡（CNN）是進行對象識別的最流行的方法之一。它被廣泛使用，并且大多數最先進的神經網絡將此方法用于各種與對象識別相關的任務，例如圖像分類。此 CNN 網絡將圖像作為輸入并輸出不同類別的概率。如果圖像中存在對象，則其輸出概率很高，否則其余類的輸出概率可以忽略不計或較低。深度學習的優勢在于，與機器學習相比，我們不需要從數據中進行特征提取。

編輯

對象識別的挑戰：

由于我們采用 CNN 模型的最后一個（完全連接）層生成的輸出是一個類標簽。因此，如果圖像中存在多個類標簽，則簡單的 CNN 方法將不起作用。
如果我們想定位邊界框中對象的存在，我們需要嘗試一種不同的方法，該方法不僅輸出類標簽，還輸出邊界框位置。

編輯

與對象識別相關的任務概述

圖像分類：

在圖像分類中，它以圖像作為輸入，并輸出該圖像的分類標簽以及一些指標（概率、損失、準確性等）。例如：貓的圖像可以歸類為類標簽 “cat”，或者 Dog 的圖像可以被歸類為類標簽 “dog” ，但有一定的概率。

編輯

圖像分類

對象定位： 此算法定位圖像中是否存在對象，并用邊界框表示該對象。它以圖像作為輸入，并以（position， height， and width）的形式輸出邊界框的位置。

對象檢測：

對象檢測算法充當圖像分類和對象定位的組合。它采用圖像作為輸入，并生成一個或多個邊界框，每個邊界框都附加了類標簽。這些算法能夠處理多類分類和本地化，以及處理多次出現的對象。

對象檢測的挑戰：

在對象檢測中，邊界框始終為矩形。因此，如果對象包含曲率部分，則無助于確定對象的形狀。
對象檢測無法根據圖像準確估計某些測量值，例如對象的面積、對象的周長。

分類之間的差異。定位和檢測（來源：鏈接)

圖像分割：

圖像分割是對象檢測的進一步擴展，我們通過為圖像中的每個對象生成的像素級掩碼來標記對象的存在。這種技術比邊界框生成更精細，因為它可以幫助我們確定圖像中存在的每個對象的形狀，因為分割不是繪制邊界框，而是有助于找出構成該對象的像素。這種粒度在醫學圖像處理、衛星成像等各個領域都為我們提供幫助。最近提出了許多圖像分割方法。其中最受歡迎的是 K He 等人提出的 Mask R-CNN。2017 年。