不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

對象檢測的案例

對象檢測 vs 對象識別 vs 圖像分割
編輯 對象識別的挑戰(zhàn): 由于我們采用 CNN 模型的最后一個(完全連接)層生成的輸出是一個類標(biāo)簽。因此,如果圖像中存在多個類標(biāo)簽,則簡單的 CNN 方法將不起作用。 如果我們想定位邊界框中對象的存在,我們需要嘗試一種不同的方法,該方法不僅輸出類標(biāo)簽,還輸出邊界框位置。 ? 編輯 與對象識別相關(guān)的任務(wù)概述 圖像分類 : 在圖像分類中,它以圖像作為輸入,并輸出該圖像的分類標(biāo)簽以及一些指標(biāo)(概率、損失、準(zhǔn)確性等)。例如:貓的圖像可以歸類為類標(biāo)簽 “cat”,或者 Dog 的圖像可以被歸類為類標(biāo)簽 “dog” ,但有一定的概率。 ? 編輯 圖像分類 對象定位: 此算法定位圖像中是否存在對象,并用邊界框表示該對象。它以圖像作為輸入,并以 (position, height, and width) 的形式輸出邊界框的位置。 對象檢測對象檢測算法充當(dāng)圖像分類和對象定位的組合。它采用圖像作為輸入,并生成一個或多個邊界框,每個邊界框都附加了類標(biāo)簽。這些算法能夠處理多類分類和本地化,以及處理多次出現(xiàn)的對象對象檢測的挑戰(zhàn): 在對象檢測中,邊界框始終為矩形。因此,如果對象包含曲率部分,則無助于確定對象的形狀。 對象檢測無法根據(jù)圖像準(zhǔn)確估計某些測量值,例如對象的面積、對象的周長。 分類之間的差異。定位和檢測(來源: 鏈接) 圖像分割: 圖像分割是對象檢測的進一步擴展,我們通過為圖像中的每個對象生成的像素級掩碼來標(biāo)記對象的存在。
展開
使用 TensorFlow 進行對象檢測 ¥5
識別和檢測圖像或視頻中的對象是計算機視覺中的一項關(guān)鍵任務(wù)。它在各種應(yīng)用中都至關(guān)重要,從自動駕駛汽車和監(jiān)控系統(tǒng)到增強現(xiàn)實和醫(yī)學(xué)成像。TensorFlow 是一個 Google 開源機器學(xué)習(xí)框架,為開發(fā)和部署對象檢測模型提供了一系列強大的工具。 在本文中,我們將介紹使用 TensorFlow 進行對象識別的基礎(chǔ)知識。TensorFlow 提供了一個靈活高效的框架來滿足您的需求,無論您是在從事計算機視覺研究項目,還是在設(shè)計需要實時對象識別功能的應(yīng)用。讓我們深入了解利用 TensorFlow 開發(fā)對象檢測并充分發(fā)揮這項尖端技術(shù)的潛力的細(xì)節(jié)。 什么是對象檢測對象檢測是一項計算機視覺任務(wù),涉及識別和定位圖像或視頻中的多個對象。目標(biāo)不僅是對圖像中的內(nèi)容進行分類,而且還要精確勾勒和精確定位每個對象的位置。 對象檢測中的關(guān)鍵概念: 邊界框 對象檢測涉及在檢測到的對象周圍繪制邊界框。定界框是包圍對象的矩形,由其坐標(biāo)定義,通常為 (x_min, y_min) 表示左上角,(x_max, y_max) 表示右下角。 ? 對象本地化 定位是確定對象在圖像中的位置的過程。它涉及預(yù)測封裝對象的邊界框的坐標(biāo)。 類預(yù)測 對象檢測不僅可以定位對象,還可以將它們分為不同的類別(例如,人、汽車、狗)。每個對象都分配有一個類標(biāo)簽,提供有關(guān)對象的信息。
展開
使用 Yolov11 進行實時對象檢測(帶案例) ¥8
2025 年 5 月出版 MP4 |視頻:h264、1920x1080 |音頻:AAC,44.1 KHz 語言:英語 |大小:2.04 GB |時長: 3h 0m 從注釋到推理:完整的 YOLOv11 工作流程 學(xué)習(xí)內(nèi)容 了解使用 YOLOv11 進行計算機視覺和對象檢測的基礎(chǔ)知識。 在自定義數(shù)據(jù)集上設(shè)置和訓(xùn)練 YOLOv11 模型,以進行實時對象檢測。 使用精度、召回率和 mAP 指標(biāo)評估和微調(diào) YOLOv11 性能。 使用 Python 和 OpenCV 為實際應(yīng)用程序部署 YOLOv11 模型。 要求 對 Python 編程 有基本的了解 熟悉機器學(xué)習(xí)或深度學(xué)習(xí)概念是有幫助的,但不是強制性 的 具有穩(wěn)定互聯(lián)網(wǎng)連接和至少 8GB RAM 的計算機(建議將 GPU 用于訓(xùn)練模型) 愿意學(xué)習(xí)和試驗計算機視覺工具和代碼 描述 使用 YOLOv11 釋放尖端計算機視覺的力量,YOLOv11 是“You Only Look Once”對象檢測架構(gòu)的最新和最先進的版本。本實踐課程將帶您從對象檢測的基本概念到實時構(gòu)建、訓(xùn)練和部署您自己的 YOLOv11 模型。無論您是 AI 初學(xué)者,還是希望提升技能的經(jīng)驗豐富的開發(fā)人員,本課程都能提供完整、實用的學(xué)習(xí)體驗。您將使用真實數(shù)據(jù)集,學(xué)習(xí)如何注釋和準(zhǔn)備數(shù)據(jù),使用 Ultralytics 框架訓(xùn)練模型,使用關(guān)鍵指標(biāo)評估性能,并使用 Python 和 OpenCV 部署模型。每個模塊都包括代碼演練、作業(yè)和項目,旨在強化關(guān)鍵技能。不需要任何 YOLO 經(jīng)驗,我們將通過清晰的說明和示例指導(dǎo)您完成每個步驟。此外,您還將深入了解對象檢測在各個行業(yè)的使用,包括自動駕駛、醫(yī)療保健、零售分析和監(jiān)控。
展開
YOLO v2 – 對象檢測
為了進行檢測,我們上面討論過的 Darknet-19 架構(gòu)中進行了一些修改。該模型在啟動時訓(xùn)練了 160 個 epoch學(xué)習(xí)率 10-3,權(quán)重衰減為 0.0005,動量衰減為 0.9。在 COCO 和 VOC 上訓(xùn)練模型的策略相同。 結(jié)果和結(jié)論: 不同對象檢測框架的結(jié)果 YOLOv2 在 PASCAL VOC 和 COCO 上提供了最先進的檢測精度。它可以在不同尺寸上運行,從而在速度和準(zhǔn)確性之間進行權(quán)衡。在 67 FPS 時,YOLOv2 可以提供 76.8 的 mAP,而在 40 FPS 時,檢測器的精度為 78.6 mAP,優(yōu)于更快的 R-CNN 和 SSD 等最新模型,同時運行速度明顯快于這些模型。 不同物體檢測的速度與精度曲線 該模型也是 YOLO9000 模型的基礎(chǔ),該模型能夠?qū)崟r檢測 9000 多個類。
展開
對象檢測圖1
使用 YOLOv11 完成山羊檢測和計數(shù) ¥5
Complete Goat Detection and Counting Using YOLOv11 MP4 |視頻: h264, 1280x720 |音頻:AAC,44.1 KHz,2 Ch 語言:英語 |時長: 35m |大小: 383 MB 了解使用 YOLOv11 進行山羊檢測和計數(shù)的完整開發(fā) 了解使用 YOLOv11 進行山羊檢測和計數(shù)的完整開發(fā) 您將學(xué) 到的內(nèi)容 山羊 模型訓(xùn)練和優(yōu)化的數(shù)據(jù)注釋和準(zhǔn)備 實時應(yīng)用程序部署 完成 YOLOv11 項目 要求 :基本的Python和ML知識 描述 通過“使用 YOLOv11 完成山羊檢測和計數(shù)”課程,解鎖 AI 驅(qū)動的對象檢測功能!這門綜合課程專為初學(xué)者和中級學(xué)習(xí)者設(shè)計,側(cè)重于使用最新的對象檢測技術(shù) YOLOv11 構(gòu)建一個真實世界的項目,用于檢測和計算圖像或視頻源中的山羊。本課程首先介紹 YOLOv11 及其強大的架構(gòu),為創(chuàng)建準(zhǔn)確的檢測系統(tǒng)奠定了基礎(chǔ)。您將學(xué)習(xí)如何準(zhǔn)備數(shù)據(jù)集、注釋圖像以及訓(xùn)練為山羊檢測量身定制的 YOLOv11 模型。深入研究提高模型準(zhǔn)確性、優(yōu)化性能以及在農(nóng)場管理或動物跟蹤系統(tǒng)等實時應(yīng)用程序中部署模型的實際步驟。課程亮點: 了解 YOLOv11 的架構(gòu)及其在對象檢測任務(wù)中的優(yōu)勢。了解如何收集、標(biāo)記和預(yù)處理數(shù)據(jù)以訓(xùn)練 YOLOv11.訓(xùn)練 YOLOv11 模型以檢測和計數(shù)山羊,微調(diào)參數(shù)以提高準(zhǔn)確性。實施經(jīng)過訓(xùn)練的模型,以便在視頻源或 IoT 設(shè)置中進行實時山羊檢測和計數(shù)。分析檢測結(jié)果,識別挑戰(zhàn),并優(yōu)化模型以獲得更好的性能。本課程非常適合開發(fā)人員、AI 愛好者以及希望將 AI 解決方案集成到其工作流程中的農(nóng)業(yè)或畜牧業(yè)行業(yè)的任何人。
展開
當(dāng)AI侵入嵌入式設(shè)計......
尤為值得一提的是,英偉達(dá)針對Jetson產(chǎn)品線和作為體驗AI的構(gòu)成,特別做了個Hello AI World,也算是AI生態(tài)的一部分,宣稱開發(fā)者只需要在幾個小時內(nèi),就能感受各種深度學(xué)習(xí)inference demo,在Jetson Nano上搭配JetPack SDK、TensorRT等,用預(yù)訓(xùn)練的模型,跑實時的圖像分類和對象檢測等功能。(而且英偉達(dá)的開發(fā)者blog也列舉了用Jetson Nano來跑完整的訓(xùn)練框架,用Transfer Learning來重新訓(xùn)練模型,感覺也算是個用途吧,估計所需時間不會很短……) Hello AI World應(yīng)該算是個教程,主要是相關(guān)計算機視覺、攝像頭的應(yīng)用,相關(guān)圖像分類、對象檢測、語義分割等,還有Deep Learning Nodes for ROS這類將識別、檢測等特性與ROS(Robot Operating System)做融合,達(dá)成機器人系統(tǒng)和平臺的開源項目。其實Hello AI World本身就能表明,英偉達(dá)在生態(tài)布局上的全面性。 最后可以談?wù)動ミ_(dá)軟件能力或者說AI生態(tài)能力的一個具體體現(xiàn):英偉達(dá)官微曾經(jīng)給出過10行python代碼,如上圖,“實現(xiàn)對90種類別的深度學(xué)習(xí)物體檢測識別”。似乎以Jetson Nano 2G的硬件資源,即便是很優(yōu)秀的YOLOv4或者SSD-Mobilenet算法,跑起來也只能達(dá)到4-6FPS的性能。 但在JetPack生態(tài)下執(zhí)行這段python,系統(tǒng)會為模型生成對應(yīng)的TensorRT加速引擎。這里代碼第一行是導(dǎo)入工具庫模塊,爾后建立input和output對象;第四行是導(dǎo)入“深度學(xué)習(xí)推理應(yīng)用”的模塊,然后用detectNet()建立net對象,處理后面的“物理檢測推理識別”任務(wù)。 While循環(huán)里,第七行是讀取一幀圖像,第八行代碼就把圖像中滿足閾值的對象檢測出來了。
展開
接近傳感芯片的應(yīng)用以及選型
接近傳感芯片,是代替限位開關(guān)等接觸式檢測方式,以無需接觸檢測對象進行檢測為目的的傳感芯片的總稱。能檢測對象的移動信息和存在信息轉(zhuǎn)換為電氣信號。在換為電氣信號的檢測方式中,包括利用電磁感應(yīng)引起的檢測對象的金屬體中產(chǎn)生的渦電流的方式、捕測體的接近引起的電氣信號的容量變化的方式、利石和引導(dǎo)開關(guān)的方式。 接近傳感芯片是一種具有感知物體接近能力的器件,它利用位移傳感器對接近的物體具有敏感特性來識別物體的接近,并輸出相應(yīng)開關(guān)信號,因此,通常又把接近傳感芯片稱為接近開關(guān)。它是代替開關(guān)等接觸式檢測檢測方式,以無需接觸被檢測對象為目的的傳感器的總稱,它能檢測對象的移動和存在信息并轉(zhuǎn)化成電信號。 感應(yīng)型接近傳感器的檢測原理: 通過外部磁場影響,檢測在導(dǎo)體表面產(chǎn)生的渦電流引起的磁性損耗。在檢測線圈內(nèi)使其產(chǎn)生交流磁場,并檢測體的金屬體產(chǎn)生的渦電流引起的阻抗變化進行檢測的方式。此外,作為另外一種方式,還包括檢測頻率相位成分的鋁檢測傳感器,和通過工作線圈僅檢測阻抗變化成分的全金屬傳感器。在檢測體一側(cè)和傳感器一側(cè)的表面上,發(fā)生變壓器的狀態(tài)。 接近傳感器芯片主要用于檢測物體的位移,在航空、航天技術(shù)以及工業(yè)生產(chǎn)中都有廣泛的應(yīng)用。在日常生活中,如賓館、飯店、車庫的自動門、自動熱風(fēng)機上都有應(yīng)用。在安全防盜方面,如資料檔案、財會、金融、博物館、金庫等重地,通常都裝有由各種接近開關(guān)組成的防盜裝置。在測量技術(shù)中,長度、位置的測量;在控制技術(shù)中,如位移、速度、加速度的測量和控制,也都使用者大量的接近開關(guān)。 這里推薦臺灣旺泓的光距感 接近傳感芯片 - WH APS 77140UC,它的暗電流小,低照度響應(yīng),靈敏度高,電流隨光照度增強呈線性變化,還內(nèi)置雙敏感元,自動衰減近紅外,光譜響應(yīng)接近人眼函數(shù)曲線。
展開
基于Python深度學(xué)習(xí)的鯊魚識別分類系統(tǒng)
圖1 鯊魚探測器系統(tǒng)由對象檢測和分類軟件包組成,以循序漸進的方式達(dá)到最佳效果。此外,通過檢測鯊魚主體,鯊魚定位器可以合成鯊魚識別器和鯊魚分類器模型所需的剪切鯊魚圖像,作為新的訓(xùn)練數(shù)據(jù)補充到sharkPulse檔案中。視頻按照定位、識別和分類的順序進行處理。異構(gòu)數(shù)據(jù)挖掘數(shù)據(jù)集按照先識別后分類的順序進行處理。 圖2 SL物體探測模型根據(jù)鯊魚出現(xiàn)的置信度繪制方框。(a) 檢測到一條短鰭鯖鯊幼魚,并對單張自動裁剪圖像進行處理,去除餌罐和藍(lán)鰭金槍魚等無關(guān)物體。(b) 檢測到多個胭脂魚物種,并從單張圖像中裁剪出兩張圖像。 圖3 由SI識別的圖像以及隨后由SC進行的分類。(a) 通過對水下照片、有前景和背景噪聲的圖像、難以辨認(rèn)鯊魚特征的圖像以及8個不同物種進行分類,SI和SC正確識別了各種鯊魚圖像。(b) SI錯誤分類的常見對象,如鯨目動物(以及其他海洋和陸地動物)、空曠的前景、難以辨認(rèn)的物體和假鯊魚。(c) 由于部分特征被掩蓋,SI會錯過鯊魚的出現(xiàn)。 結(jié)果分析 分類能力:Shark Detector能夠?qū)?7種鯊魚進行分類。 準(zhǔn)確性測試: 在處理誘餌遠(yuǎn)程攝像機鏡頭和YouTube視頻時,Shark Detector在定位鯊魚方面的準(zhǔn)確率達(dá)到了89%。 在將定位到的鯊魚分類到物種層面時,準(zhǔn)確率為69%。 Instagram數(shù)據(jù)集:在Instagram上收集的異構(gòu)數(shù)據(jù)集中,Shark Identifier以91%的準(zhǔn)確率篩選出鯊魚圖像,并將這些圖像分類到物種層面的準(zhǔn)確率達(dá)到了70%。 性能評估:研究評估了Shark Detector在不同數(shù)據(jù)生成方法中的性能,包括在sharkPulse數(shù)據(jù)集中的定位、在線視頻的處理,以及Instagram數(shù)據(jù)的挖掘。
展開
葉聰:朋友圈背后的計算機視覺技術(shù)與應(yīng)用
最容易想到的就是圖像里面對象會有邊緣。邊緣就代表了圖像的特點。除了邊緣檢測的方法還會有其他的特征,比如Haar特征。對象具有邊緣、對角線、中心都可以利用這種黑白的對比圖,標(biāo)注出它灰度的變化,把剛才說的三種維度的信息組成一個集合,這樣就可以提取圖片的特征。 還有一個比較新的特征提取方法,就是2012年的時候康奈爾提出來的,利用一個圖片里面對象的局部對稱性來提取特征。左邊這個圖有不同形狀的對象,右邊這個圖就把它的對稱性理解為重心提取出來,圖上越白色的地方代表對稱性越強。這種算法優(yōu)點是整個圖形提取出的特征是比較有對稱性。這樣就容易把這個東西從背景里面提出來。 另外還有一些特征提法,比如SIFT,尺度不變特征。我先解釋一下什么是尺度,我們看待一個東西,從遠(yuǎn)到近,越遠(yuǎn)它尺度越大,就說明這個東西相對我們越模糊,能觀測到的特征點就少。隨著靠近,看到的越多就能越發(fā)現(xiàn)一些特點。有些特點是不管遠(yuǎn)近都能辨識出來的,就認(rèn)為是尺度不變的特征。 還有一種跟灰度有關(guān)的方法叫HOG方向梯度直方圖,它也是利用灰度的原理,把整個圖形分成很多塊,描述里面灰度變化最小的或者最大的。一般選用最小的方向。好處是它計算起來的成本比較靠譜的,比如這張圖上,人穿黑色的衣服,所以在黑色衣服上它的灰度變化最小一定是垂直的。到了旁邊白色背景可能就是水平的。利用它這個HOG的梯度圖的方向,很容易把這個人從背景中間區(qū)分出來。 聊了很多的Feature Design的方法,并不存在最優(yōu)的。在圖像分割和對象檢測這個領(lǐng)域也有一些其他算法,例如非常有意思的分水嶺算法,顧名思義是利用圖像的灰度特性把圖像整個灰度的曲線顯示出來。
展開
single neuron neural network ¥5
如今,神經(jīng)網(wǎng)絡(luò)用于圖像分類、語音識別、對象檢測等。現(xiàn)在,讓我們嘗試了解所有這些最先進技術(shù)背后的基本單元。</p><p>單個神經(jīng)元將給定的輸入轉(zhuǎn)換為一些輸出。根據(jù)給定的輸入和分配給每個輸入的權(quán)重,決定神經(jīng)元是否觸發(fā)。假設(shè)神經(jīng)元有3個input連接和1個output。</p><div contenteditable="false" width="100%"><figure class="figure-image" data-img="https://img.jishulink.com/202410/attachment/97d9d097185e497e8d029152eb65167f.png" style="text-align: center"><img src="https://img.jishulink.com/202410/attachment/97d9d097185e497e8d029152eb65167f.png"></figure></div><p><br></p><p>我們將在給定的示例中使用tanh激活函數(shù)。</p><p>最終目標(biāo)是為該神經(jīng)元找到產(chǎn)生正確結(jié)果的最佳權(quán)重集。通過使用幾個不同的訓(xùn)練示例來訓(xùn)練神經(jīng)元來做到這一點。在每個步驟中,計算神經(jīng)元輸出中的誤差,并反向傳播梯度。計算神經(jīng)元輸出的步驟稱為<em>forward propagation</em>,而梯度的計算稱為<em>back propagation</em>。</p><p>以下是python實現(xiàn):</p>
展開
用于圖像分類的頂級預(yù)訓(xùn)練模型
他們學(xué)習(xí)識別各種特征,從簡單的邊緣到復(fù)雜的紋理和對象。這種廣泛的培訓(xùn)使他們能夠很好地概括,使他們成為新任務(wù)的有效起點。通過在特定數(shù)據(jù)集上微調(diào)這些模型,開發(fā)人員可以用更少的數(shù)據(jù)和計算來實現(xiàn)高性能 預(yù)訓(xùn)練模型的架構(gòu)各不相同,但它們具有共同的特征。它們由多個層組成,這些層逐步從輸入圖像中提取特征。早期層捕獲低級特征,而較深層識別高級模式。預(yù)訓(xùn)練模型可以適應(yīng)各種領(lǐng)域,從醫(yī)學(xué)成像到自動駕駛。它們的多功能性和有效性使它們成為計算機視覺領(lǐng)域的寶貴工具。 用于圖像分類的頂級預(yù)訓(xùn)練模型 一些預(yù)訓(xùn)練模型由于其性能和可靠性而成為圖像分類的標(biāo)準(zhǔn)。以下是主要型號: 1. ResNet(殘差網(wǎng)絡(luò)) 概述:Microsoft Research 推出的 ResNet 通過使用殘差連接來緩解深度網(wǎng)絡(luò)中梯度消失的問題,徹底改變了深度學(xué)習(xí)。 變體:ResNet-50、ResNet-101、ResNet-152。 主要特點: 深度架構(gòu)(最多 152 層)。 殘差塊,允許梯度流經(jīng)快捷連接。 應(yīng)用:通用圖像分類、對象檢測和特征提取。 2. 盜夢空間 (GoogLeNet) 概述:由 Google 開發(fā)的 Inception 網(wǎng)絡(luò)使用 inception 模塊來捕獲多尺度特征。 變體:Inception v3、Inception v4、Inception-ResNet。 主要特點: 具有多種大小的卷積濾波器的 Inception 模塊。 高效的架構(gòu),平衡準(zhǔn)確性和計算成本。 應(yīng)用:通用圖像分類、對象檢測和遷移學(xué)習(xí)。 3.
展開
對象檢測圖2
自動駕駛中的9種傳感器融合算法
在此過程中使用了對象檢測,但真正完成這項工作的是將3D點云投影到圖像中,然后將其與像素關(guān)聯(lián)起來。 中級別融合:融合檢測數(shù)據(jù) 中級傳感器融合是將傳感器獨立檢測到的物體進行融合。 如果攝像頭檢測到障礙物,雷達(dá)也檢測到它,我們把這些結(jié)果融合到一起形成對障礙物的位置、類別和速度的最佳估計。 通常使用的方法是卡爾曼濾波器(貝葉斯算法)。 ? 這個過程很容易理解,并且包含了幾個現(xiàn)有的實現(xiàn)。 ? 它嚴(yán)重依賴于檢測器。如果一個失敗,整個融合都可能失敗。卡爾曼濾波器來解決這個問題! 中級傳感器融合示例: 在此示例中,我們將來自激光雷達(dá)的3D邊界框與來自對象檢測算法的2D邊界框融合在一起。該過程有效;但也可以逆轉(zhuǎn)。可以將3D激光雷達(dá)的結(jié)果映射到2D中,并在2D影像中進行數(shù)據(jù)融合。 高級別融合:融合軌跡 最后,高級傳感器融合是關(guān)于融合對象及其軌跡。我們不僅依賴于檢測,還依賴于預(yù)測和跟蹤。 ? 此過程高一級,其優(yōu)點是簡單。 ? 一個主要問題是可能會丟失太多信息。如果追蹤是錯誤的,那么整件事都是錯誤的。 雷達(dá)和攝像頭之間按抽象級別的數(shù)據(jù)融合圖: 中心化級別的傳感器融合 融合算法的第二類方法是按中心化級別來區(qū)分的。該場景下的問題是“融合在哪里發(fā)生?”。主計算機可以做,或者每個傳感器可以做自己的檢測和融合。一些方法是通過使用稱為衛(wèi)星架構(gòu)的技術(shù)來做融合的。
展開
自動駕駛行業(yè)觀察 | 自動駕駛多模態(tài)融合感知詳解(研究現(xiàn)狀及挑戰(zhàn))
包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。 從融合階段的角度,從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進行分類。此外,本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進行開放式討論。 多模態(tài)融合感知的背景 單模態(tài)數(shù)據(jù)的感知存在固有的缺陷,相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中,物體可能會被遮擋,給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。 此外,受限于機械結(jié)構(gòu),激光雷達(dá)在不同距離處具有不同的分辨率,并且容易受到大霧和大雨等極端天氣的影響。 因此LiDAR 和相機的互補性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測、語義分割、深度補全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。 數(shù)據(jù)格式 相機提供了豐富的紋理信息的RGB圖像。具體來說,對于每個圖像像素為 (u, v),它有一個多通道特征向量 F(u,v) = {R, G, B, ...},通常包含相機捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。 然而,由于深度信息有限,單目相機難以提取,因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此,許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進行 3D 對象檢測,例如深度估計、光流等。 激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說,大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù),如(x, y, z, r),其中r代表每個點的反射率。 不同的紋理導(dǎo)致不同的反射率,然而,點的四元數(shù)表示存在冗余或速度缺陷。因此,許多研究人員嘗試將點云轉(zhuǎn)換為體素或 2D 投影,然后再將其饋送到下游模塊。 一些工作通過將 3D 空間離散化為 3D 體素,表示為: 其中每個 x i 代表一個特征向量,如: si 代表體素長方體的質(zhì)心,而v i 代表一些基于統(tǒng)計的局部信息。
展開
自動駕駛多模態(tài)融合感知詳解(研究現(xiàn)狀及挑戰(zhàn))
包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。 從融合階段的角度,從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進行分類。此外,本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進行開放式討論。 多模態(tài)融合感知的背景 單模態(tài)數(shù)據(jù)的感知存在固有的缺陷,相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中,物體可能會被遮擋,給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。 此外,受限于機械結(jié)構(gòu),激光雷達(dá)在不同距離處具有不同的分辨率,并且容易受到大霧和大雨等極端天氣的影響。 因此LiDAR 和相機的互補性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測、語義分割、深度補全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。 數(shù)據(jù)格式 相機提供了豐富的紋理信息的RGB圖像。具體來說,對于每個圖像像素為 (u, v),它有一個多通道特征向量 F(u,v) = {R, G, B, ...},通常包含相機捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。 然而,由于深度信息有限,單目相機難以提取,因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此,許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進行 3D 對象檢測,例如深度估計、光流等。 激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說,大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù),如(x, y, z, r),其中r代表每個點的反射率。 不同的紋理導(dǎo)致不同的反射率,然而,點的四元數(shù)表示存在冗余或速度缺陷。因此,許多研究人員嘗試將點云轉(zhuǎn)換為體素或 2D 投影,然后再將其饋送到下游模塊。
展開
Moldex3D模流分析之iSLM品質(zhì)檢測(Inspection)
試模 > 質(zhì)量檢測 分頁顯示了該試模的檢測紀(jì)錄,檢測項目可以在 系統(tǒng)設(shè)定 > 數(shù)據(jù)定義 > 質(zhì)量檢測 頁面中被創(chuàng)建或編輯。請?zhí)貏e注意 3D Scan 被系統(tǒng)默認(rèn)為一直都會存在的項目。可以點擊 編輯 按鈕修改 3D Scan 的描述;若用戶想新增檢測項目,則點擊 新增 按鈕并在下拉選單中選擇一個檢測對象,完成后點擊 提交 即可新增成功。用戶也可以點擊 上傳 按鈕將相關(guān)檔案上傳以記錄;或點擊齒輪圖標(biāo)按鈕 編輯 或 刪除 檢測對象。 注意: ?3D Scan test 不能被刪除。 ?可以參照 【管理功能 - 項目 > 項目 > 項目信息 > 3D 比較功能】 章節(jié)獲取更多關(guān)于 3D 比較功能 的信息。 管理功能 > 項目 > 檢視 > 試模 > 更多 > 品質(zhì)檢測 在 管理功能 > 項目 > 檢視 > 試模 > 更多 > 質(zhì)量檢測 的項目: 1.新增: 點擊此按鈕新增一個新的檢測紀(jì)錄。 2.編輯: 點擊此按鈕編輯現(xiàn)有的檢測紀(jì)錄 ( 3D Scan test )。 3.編輯&刪除: 點擊此齒輪圖示選擇 編輯 或 刪除 功能。 -編輯:點擊此按鈕編輯此檢測紀(jì)錄的描述,并點擊 提交 以儲存變更。 -刪除:點擊此按鈕刪除檢測紀(jì)錄。 4.描述: 顯示于各檢測對象標(biāo)題旁的字段。 5.上傳檔案: 點擊此按鈕上傳對應(yīng)的檔案以記錄信息。 6.3D 比較功能: 請參照 【管理功能 - 項目 > 項目 > 項目信息 > 3D 比較功能】 章節(jié)以獲取更多詳細(xì)的信息。
展開