
發布
注冊
/
登錄語義分割的案例
激光雷達:點云語義分割算法
因此,除了物體檢測以外,自動駕駛的環境感知還包括另外一個重要的組成部分,那就是語義分割。準確的說,這部分有三個不同的任務:語義分割(semantic segmentation),實例分割(instance segmentation)和全景分割(panoramic segmentation)。語義分割的任務是給場景中的每個位置(圖像中的每個像素,或者點云中的每個點)指定一個類別標簽,比如車輛,行人,道路,建筑物等。實例分割的任務類似于物體檢測,但輸出的不是物體框,而是每個點的類別標簽和實例標簽。全景分割任務則是語義分割和實例分割的結合。算法需要區分物體上的點(前景點)和非物體上的點(背景點),對于前景點還需要區分不同的實例。
基于LiDAR點云的不同的分割任務(圖片來源于參考文獻[15])
2. 語義分割
語義分割和物體檢測這兩個任務有著很多的相似之處,其關鍵之處都在于如何有效的從原始點云數據中提取場景中的有用信息,以此對不同位置的語義信息進行解析。
在深度學習流行之前,語義分割一般是通過傳統的監督學習算法(supervised learning)來解決的。其流程主要分為兩步:首先,通過聚類算法找到每個點的鄰域,在該鄰域范圍內進行特征提取,以此特征為基礎對每個點進行分類。機器學習領域中經典的分類器,比如SVM,AdaBoost,Random Forest等等都可以采用。這一步驟與傳統的點云物體檢測方法非常類似。其次,以上的特征提取和分類并沒有考慮大范圍的上下文信息,而這部分信息對語義分割來說是不可或缺的。因此,在局部分類的基礎上,還需要一個上下文模型來提高分割結果的正確性和平滑性。這里最常用的模型是Conditional Random Fields (CRF)。
展開 使用多尺度注意力進行語義分割
作者 |
Andrew Tao and Karan Sapra
來源 |
人工智能算法與Python大數據
導讀:
來自NVIDIA的
SOTA
語義分割文章,代碼開源。
有一項重要的技術,通常用于自動駕駛、醫學成像,甚至縮放虛擬背景:“語義分割。這是將圖像中的像素標記為屬于N類中的一個(N是任意數量的類)的過程,這些類可以是像汽車、道路、人或樹這樣的東西。就醫學圖像而言,類別對應于不同的器官或解剖結構。
NVIDIA Research正在研究語義分割,因為它是一項廣泛適用的技術。我們還相信,改進語義分割的技術也可能有助于改進許多其他密集預測任務,如光流預測(預測物體的運動),圖像超分辨率,等等。
我們開發出一種新方法的語義分割方法,在兩個共同的基準:Cityscapes和Mapillary Vistas上達到了SOTA的結果。IOU是交并比,是描述語義分割預測精度的度量。
在Cityscapes中,這種方法在測試集上達到了85.4 IOU,考慮到這些分數之間的接近程度,這相對于其他方法來說是一個相當大的進步。
在Mapillary上,使用單個模型在驗證集上達到了61.1 IOU,相比于其他的使用了模型集成最優結果是58.7。
預測結果
研究過程
為了開發這種新方法,我們考慮了圖像的哪些特定區域需要改進。
展開 自動駕駛傳感器融合:激光雷達+攝像頭
比如說,ContFuse在BEV網格上融合了圖像和點云特征,這個特征就可以用來進行網格級別的語義分割,而PointPainting將圖像特征附加到點云上,后續可以采用任何基于點云語義分割的算法來對每個點進行語義分類,甚至也可以進行實例分割和全景分割。
3. 結果對比
這里我們來總結和定量的對比一下前面介紹的各種融合方法。準確度指標采用采用KITTI數據庫上3D車輛檢測中等難度的AP(70% IoU),速度指標采用FPS(運行的硬件不同,因此不具備完全的可比性)。下表中融合方法一欄中的D+F表示決策+特征層融合,之后的2D/3D表示是在2D圖像還是3D點云上提取物體候選框。F表示特征層融合,之后的BEV和Point表示融合的位置。總體來說,特征層融合的效果較好,基于Point的融合也優于基于BEV的融合。
展開 多特征融合的多目標跟蹤網絡
除了使用輕量化網絡改進分割算法外,ICNet則使用了使用模型壓縮技術如量化、蒸餾、模型剪枝等技術針對訓練后的模型進行壓縮優化,并且在網絡中設計了低分辨率分割分支能夠使網絡快速獲得一個粗略的語義信息,再融合更高分辨率分支的結果補充細節,最終得到一個比較不錯的精度與分割速度的平衡。
在深度學習落地這一強大驅動力下,越來越多的研究人員不再熱衷于構造復雜又冗余的網
絡結構針對分割準確率進行刷榜。
伴隨著移動設備越來越強大的計算能力,很多語義分割應用
都在移動平臺實現了落地,如手機端的人物換臉、自動摳圖、智能換背景等應用都使用了語義
分割方法對主體與背景進行了精細的分割。
只是這類應用通常只需處理一張圖像,對實時性要
求不高。
而自動駕駛或服務機器人的使用場景則對實時性有很高的要求。
展開 
如何掌握好圖像分割算法?值得你看的技術綜述
來源 |
有三AI
本篇文章,我們講解圖像分割需要掌握的重要知識點。本文將帶你走進圖像分割的大門,著重關注該領域的研究方向以及重點難點,講述如何學好圖像分割算法。
1 圖像分割簡介
圖像分割,是指將圖像分成若干語義目標的過程,可以細分為3個方向,見下圖對比。
首先我們要把圖像中的目標歸為不可數目標(stuff類別,比如天空只有一個,不能數)和可數目標(things類別,比如人可以有多個),然后我們看3個方向的對比。
圖1 圖像分割3個研究方向
語義分割(semantic segmention),也就是通常理解的圖像分割,它是一個逐像素的圖像分類問題,每個像素預測類別唯一,可數目標與不可數目標都要分類。
實例分割(Instance Segmentation),不僅要預測可數目標的語義標簽,還有區分個體的ID,語義標簽指的是物體的類別,而實例ID則對應同類物體的不同編號,注意不可數目標不需要預測。
全景分割(Panoptic Segmentation),它要求圖像中的每個像素點都必須被分配一個語義標簽和一個實例id。
全景分割與語義分割的關系是:如果所有的類別都是stuff,那么全景分割除了度量與語義分割不同外,其它相同。
展開 機器學習 遷移學習
十一、實驗實操之自動駕駛中的跨域語義分割實踐
1.掌握語義分割發展現狀及代表性工作,如FCN,DeepLab系列等。
2.了解常用的語義分割評價指標(PA、mPA、mIoU、FWIoU)和常見數據集(PASCAL VOC2012,ADE20K、BDD100K、Cityscapes、GTA5、Dark Zurich)。
3.語義分割工具箱MMSegmentaion的認識和使用。
4.設計一個分割模型能夠從仿真環境中得到的數據遷移到真實場景下產生的數據。
十二、實驗實操之目標檢測實踐
1.掌握目標檢測算法的基本框架以及目標檢測中的經典模型,如R-CNN系列的兩階段檢測模型和YOLO系列的單階段檢測模型。
2.掌握目標檢測模型的評測指標(IOU和mAP)、標準評測數據集(Pascal VOC,MS COCO和Cityscapes)以及檢測模型中的一些訓練技巧,如數據增強、多尺度訓練/測試、預測框微調/投票法、在線難例挖掘、軟化非極大抑制、RoI對齊和集成。
3.實踐基于Transformer的端到端目標檢測框架的搭建,并在新的數據集上與基于CNN的網絡進行遷移性能的對比。
我們的官網:www.chinaai.org.cn
關注微信公眾號人工智能技術與咨詢了解更多!
展開 自動駕駛之點云與圖像融合綜述
7a)二維語義分割
2D語義分割方法有很多種,大多是將點云深度圖和圖像進行特征提取,然后利用圖像與深度的2D語義分割和深度完成,如《Sparse and dense data with cnns : Depth completion and semantic segmentation》。當然也有不同的方法進行特征提取和融合,如《Self-supervised model adaptation for multi modal semantic segmentation》采用了不同深度的多階段特征級融合,以促進語義分割。《Lidarcamera fusion for road detection using fully convolutional neural networks》則是利用上采樣的深度圖像和圖像進行2D語義分割。《Pedestrian detection combining rgb and dense lidar data》則是對rgb和稠密點云進行上采樣并分別進行CNN特征提取,在最終的卷積層融合兩個特征圖。
7b)三維語義分割
3D語義分割,根據對點云的處理方法,可以分為不同的方法,如:
基于點云體素的3DMV(從多個對齊的圖像中提取2D特征,然后投影到3D空間內,并與3D幾何圖像融合,并最終輸入到3DCNN中進行語義預測),為了減輕點云體素化引起的問題,還有UPF(該方法利用語義分割網絡提取渲染的多視圖圖像的特征,并投影到三維空間進行點特征融合,其中點云由兩個基于PointNet++的編碼器進行處理,提取局部和全局特征,然后進行點的語義標簽預測)、MVPNet(可以理解為融合了多視圖圖像語義和三維幾何圖形來預測每點的語義標簽)等。
展開 直播預告 | 如何構建高精度攝像頭仿真模型
此外,我們還將涵蓋與攝像頭仿真相關的其他重要領域,比如語義分割圖、深度圖仿真和多相機組配置等。
在自動駕駛技術的發展過程中,精確的感知能力是決定系統安全性和可靠性的關鍵。而攝像頭仿真作為自動駕駛感知系統的重要組成部分,面臨著多個行業痛點:
1、真實相機內部結構復雜,通用的仿真環境往往無法完全準確地再現實際攝像頭的物理特性;
2、現實世界里環境復雜且多變,直接影響感知系統的表現效果,環境噪聲對攝像頭的影響和效果需要被準確模擬;
3、隨著自動駕駛系統對環境理解的要求越來越高,語義分割圖和深度圖的仿真需求愈發迫切。
當遇到以上問題時如何輕松應對?海克斯康有高招!本期海克斯康直播講堂請到了我們VTD自動駕駛模擬仿真軟件應用專家秦磊為我們深入探討如何通過VTD軟件構建高精度的攝像頭仿真模型,結合具體案例,分析攝像頭在自動駕駛仿真中的應用。鎖定直播間,精彩搶先看!
3月13日 14:00
▲ 掃碼參與報名
立即預定
直播內容聚焦
仿真環境如何準確地再現實際攝像頭的物理特性?
如何準確模擬環境噪聲對攝像頭的影響和效果?
如何實現語義分割圖和深度圖的仿真?
? 相機傳感器仿真的完整數據鏈路解析
? 語義分割與深度圖仿真案例介紹
? 相機傳感器配置與多相機組參數設定
秦 磊
海克斯康 VTD自動駕駛模擬仿真軟件 應用專家
華中科技大學工學碩士。負責VTD基礎功能測試和VTD中各類復雜傳感器的拓展開發以實現VTD在自動駕駛不同階段的測試和應用。深度了解仿真軟件在自動駕駛測試開發中的應用,針對客戶不同需求,提供定制化的解決方案,切實解決客戶問題。
展開 SuMa++: 基于激光雷達的高效語義SLAM
摘要
可靠、準確的定位和建圖是大多數自動駕駛系統的關鍵組件.除了關于環境的幾何信息之外,語義對于實現智能導航行為也起著重要的作用.在大多數現實環境中,由于移動對象引起的動態變化,這一任務特別復雜,這可能會破壞定位.我們提出一種新的基于語義信息的激光雷達SLAM系統來更好地解決真實環境中的定位與建圖問題.通過集成語義信息來促進建圖過程,從而利用三維激光距離掃描.語義信息由全卷積神經網絡有效提取,并呈現在激光測距數據的球面投影上.這種計算的語義分割導致整個掃描的點狀標記,允許我們用標記的表面構建語義豐富的地圖.這種語義圖使我們能夠可靠地過濾移動對象,但也通過語義約束改善投影掃描匹配.我們對極少數靜態結構和大量移動車輛的KITTI數據集進行的具有挑戰性的公路序列的實驗評估表明,與純幾何的、最先進的方法相比,我們的語義SLAM方法具有優勢.
介紹
對大多數自動駕駛車輛來說,精確定位和對未知環境的可靠測繪是基礎.此類系統通常在高度動態的環境中運行,這使得生成一致的地圖更加困難.此外需要關于建圖區域的語義信息來實現智能導航行為.例如自動駕駛汽車必須能夠可靠地找到合法停車的位置,或者在乘客可能安全離開的地方靠邊停車——即使是在從來沒有看到過的地方,因此以前沒有準確地圖.
展開 BEV圖像處理對自動駕駛系統的性能優化
校正的BEV圖像可被分割出語義類別,以語義分割圖像作為輸入,可以減少模擬數據與現實世界數據之間的實際差距,并且可以成功應用于實際工況下的探測過程中。總體說來,在鳥瞰圖中可以很好的估計遮擋情況下的語義場景,這一過程可以對3D幾何形狀和可見場景語義有更加準確的了解,同時對遮擋區域進行更加準確的預測,生成質量更高的道路layout。同時,BEV圖像的建立可以對具有低照度和大量的車輛生成車輛和道路layout的清晰估計。
BEV的遮擋區域預測
由于BEV投影保留了物體的大小和距離,為學習提供了強大的先決條件。同時,神經網絡方法生成的BEV圖像并不依賴手動標記數據,而是在模擬合成數據集上進行訓練,并泛化到現實世界數據,通過給出道路場景的單個圖像,神經網絡架構實時(30 fps)在鳥瞰視圖中推理非模態場景。使那些在圖像不可見的靜態場景(道路,人行道)以及交通參與者幻覺般恢復。這種擬合預測的方法可以很好地應用在對環境動態過程的預測規劃中,實現對遮擋區域的預測。
對于每個車載攝像機,虛擬射線是從其安裝位置投射到語義分割的真值BEV圖像邊緣上,且這個射線僅投射到特定攝像頭視野的邊緣像素。
展開 視覺傳感器:2D感知算法
CenterTrack
4 語義分割
深度學習在語義分割上最早的應用比較直接,也就是對固定大小的圖像塊進行語義分類。這里對圖像塊進行分類的網絡其實就是一些全連接層,因此塊的大小需要固定。顯然,這種簡單粗暴的方式不是最優的,尤其是無法有效的利用空間上下文信息,而這個信息對于語義分割來說是非常重要的。
為了更好的提取上下文信息,神近網絡需要更大的感受野。全卷積網絡(FCN)[17]通過疊加多個卷積層和下采樣層,不斷地擴大感受野,提取高層次空間上下文特征,最終的特征圖經過反卷積上采樣后恢復到原始圖像的分辨率,其每個位置的輸出對應了該位置的語義分類。雖然下采樣操作有利于上下文特征提取并降低計算量,但也存在一個問題,那就是空間細節信息的丟失,這會影響最終的語義分割結果在位置上的分辨率和正確性。
FCN
U-Net[18]采用了類似編碼器-解碼器的結構,但是在同樣分辨率的特征圖之間,增加了Skip連接。這樣做的好處是可以同時保留高層的上下文特征和底層的細節特征,讓網絡通過學習來自動的平衡上下文和細節信息的比重。
U-Net
在語義分割中,上下文信息和細節信息都很重要。FCN只關注了上下文信息,而U-Net則通過層間的Skip連接同時保留了兩種信息。語義分割領域后續的大部分工作都是在致力于更好的保留這兩種信息。
空洞卷積(Dilated/Atrous Convolution)對標準卷積操作的卷積核進行了修改,使其覆蓋更大的空間位置。
展開 
設計仿真 | 海克斯康VTD智能駕駛仿真方案—Camera
0
3
Camera語義分割圖仿真
語義分割圖是指對圖像中的像素點基于目標級別進行分類,使每個像素點都有其對應于三維空間的目標從屬。語義分割圖對于基于視覺的感知算法進行后續工作起著重要作用。VTD中可以根據不同的材質/物體對渲染圖像進行語義分割,通過加載colorSegmentation工程來實現,支持自定義配置。
左圖為原始圖,右圖為對應的語義分割圖
深度圖
深度圖也被稱為距離影像,是指將圖像采集器到場景中各點的距離(深度)作為像素值的圖像。在深度數據流所提供的圖像幀中,每個像素點表示在深度感應器視野中對應的坐標處物體離攝像頭平面最近的表面到該相機平面的距離。
上圖為VTD中的深度圖像截圖,可以將此深度圖像的深度值z-buffer轉換為物體到相機平面的距離。z-buffer 值與物體表面到相機坐標系 xy 平面的距離關系如下:
z = 0.5*(f+n)/(f-n) + (-f*n)/(f-n) * (1/d) + 0.5
其中,z為z-buffer 值(歸一化為0~1),d為物體最近表面到相機坐標系 xy 平面的距離,n和f分別為 近裁剪面和遠裁剪面。z-buffer 值通常在0~1范圍內。z-buffer 值為“0”的像素位于近裁剪面(near clip)上,值為“1”的像素位于遠裁剪面(far clip)上。
多相機組
在空間不同位置上配置多個相機,從不同視角采集圖像或視頻數據,可以實現多視角同步顯示或三維空間投影等功能,滿足多種用戶仿真測試目標。
在VTD的多顯示器相機組中,可以單獨配置每個相機的內參和外參,靈活調節相機的主軸、光心位置、成像平面等,達到工程實際應用的多種需求。下圖展示了相機視錐角度的計算過程。
展開 智能駕駛的數據采集與測評解決方案
其中,數據標注過程需要滿足一定的要求和原則,包括如下:
對于在AI賦能下的自動駕駛的具體應用主要有以下幾種:
1、2D框標注,應用于對車輛與行人的基礎識別,即標注出騎行的人,步行的人,汽車等;
2、3D立方體標注,對車輛進行區域標注及分類標注,應用于對車輛類型的識別,例如面包車、卡車、大客車、小轎車等,訓練自動駕駛,在道上選擇性跟車或者變道操作;
3、點云標注,對3D激光雷達點云進行標注;
4、多段線標注,車道線標注:一種對道路地面標線進行的綜合標注,包括區域標注、分類標注及語義標注,應用于訓練自動駕駛,根據車道規則進行行駛。
針對如上的標注方式,需要說明的是在自動駕駛設計過程中,我們更加關注對于3維目標障礙物的識別,常用的檢測方式是采取激光雷達或4D毫米波雷達進行目標檢測。檢測結果通過如上2D或3D進行點云標注,其中3D點云標注主要應用于基于激光雷達或4D高分辨率毫米波雷達的訓練,針對自動駕駛主要場景而言應用先進的標注工具,可對3D障礙物進行框選、對雷達圖進行語義分割,對于環境中的三維模型或障礙物實現更好的識別分類。另一種標注方式是進行2D3D融合標注,借助先進的標注工具,可對環境中的二維和三維數據參照是否具備明顯的深度信息,圖像的形狀模型信息同時確定進行聯合標注。幫助車輛實現視覺和雷達的感知,可應用于自動駕駛場景的訓練落地。
5、語義分割,對圖片中的不同區域進行分割標注:這些類可能是行人,車輛,建筑物,天空,植被等等。例如,語義分割可以幫助SDCs(自動駕駛車輛)識別一個圖片中的可行駛區域。
展開 康謀分享 | 突破傳統匿名化:先進技術解鎖數據價值新維度
為此,我們仔細研究了圖像分割結果。圖像分割是將圖像的像素劃分為多個片段的過程,每個片段代表一個對象類別。在我們的示例中,最重要的對象是個人資料圖片中的人物和背景。
圖2和圖3展示了LFW數據集中兩位名人的分割圖。這些分割圖是由語義分割模型DeepLabv3+生成的,采用了官方TensorFlow存儲庫中的實現和模型權重。
圖2: AI Pacino DeepLabv3+ 分割結果對比
圖3: Reese witherspoon DeepLabv3+ 分割結果對比
從圖2和圖3中可以看出,傳統匿名化方法的分割圖明顯退化,其中一些甚至完全錯誤。然而,深度自然匿名化(DNAT)保留了語義分割。分割圖與原始圖像幾乎完全相同。從圖3中可以看出,經過傳統匿名化方法處理的人臉圖像不僅產生了較差的分割邊界,還使分割模型推斷出原始圖像中從未出現的新對象類別,如貓、狗或瓶子。
為了量化每種匿名化技術的影響,我們計算了整個測試集的平均交并比(mIOU)。計算是在不同方法生成的圖像分割圖與原始圖像分割圖之間進行的。結果如表1所示。
表1:用mIOU測量的語義分割一致性(越高越好)
三、匿名化的內容一致性
為了評估匿名化圖像與原始圖像之間的整體內容一致性,我們使用了Clarifai的獨立圖像標注模型。“通用圖像標注模型能夠識別超過11,000種不同的概念,包括對象、主題、情緒等。”這些標簽描述了模型從輸入圖像中推斷出的內容。
此外,模型還為每個標簽提供了置信度。圖4展示了Clarifai公共圖像標注模型對原始圖像及其DNAT版本預測的前5個概念。
圖4:來自clarifai的Reese Witherspoon前5個概念。
展開 自動駕駛多模態融合感知詳解(研究現狀及挑戰)
結果,其他有意義的信息沒有得到充分利用,例如語義、空間和場景上下文信息。
在自動駕駛場景中,許多具有顯式語義信息的下游任務可能會極大地提高目標檢測任務的性能。例如,車道檢測可以直觀地為檢測車道之間的車輛提供額外幫助,語義分割結果可以提高目標檢測性能。
未來的研究可以通過檢測車道、紅綠燈和標志等各種下游任務,共同構建完整的城市景觀場景語義理解框架,以輔助感知任務的執行。
參考:
[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.
展開