
發(fā)布
注冊
/
登錄計(jì)算機(jī)視覺的案例
計(jì)算機(jī)視覺:你必須了解的圖像數(shù)據(jù)底層技術(shù)
引言
計(jì)算機(jī)視覺(Computer Vision)自興起以來就非常迅速且廣泛應(yīng)用于各個領(lǐng)域,比如我們熟悉的且每天都會使用的基于手機(jī)攝像頭的人臉識別,除此之外,它還可以在自動駕駛領(lǐng)域輔助汽車識別交通信號、標(biāo)志和行人;在制造業(yè)輔助工業(yè)機(jī)器人監(jiān)督和指導(dǎo)人工操作。
計(jì)算機(jī)視覺的主要目的是讓計(jì)算機(jī)能像人類一樣甚至比人類更好地看見和識別世界。計(jì)算機(jī)視覺通常使用C++、Python和MATLAB等編程語言,是增強(qiáng)現(xiàn)實(shí)(AR)的一項(xiàng)重要技術(shù)。目前主流的計(jì)算機(jī)視覺工具有OpenCV、Tensorflow、Gpu、YOLO、Keras等。計(jì)算機(jī)視覺其實(shí)是一個復(fù)雜多元的交叉領(lǐng)域,包含了很多來自數(shù)字信號處理、神經(jīng)科學(xué)、圖像處理、模式識別、機(jī)器學(xué)習(xí)(ML)、機(jī)器人、人工智能(AI)等領(lǐng)域的概念。
本文將具體介紹一下計(jì)算機(jī)視覺的工作流程。
什么是計(jì)算機(jī)視覺(Computer Vision)
一言蔽之,計(jì)算機(jī)視覺是讓計(jì)算機(jī)理解并標(biāo)記圖像內(nèi)容的技術(shù)領(lǐng)域。
舉個例子,請看下圖:
對于人類來說,你很難向從沒穿過衣服的原始人解釋什么是連衣裙或者什么是鞋。計(jì)算機(jī)視覺也是如此,如果它并沒有相關(guān)輸入,就不會理解上圖的東西都是什么。
所以,我們需要收集并標(biāo)記大量關(guān)于衣服、鞋、包包的圖片,輸入進(jìn)計(jì)算機(jī)“告訴”它這些圖片里的東西是什么,在經(jīng)過不斷的學(xué)習(xí)和訓(xùn)練后,計(jì)算機(jī)將會識別出哪個是連衣裙,哪個是鞋、哪個是包包。
展開 『科普』計(jì)算機(jī)視覺簡介:歷史、現(xiàn)狀和發(fā)展趨勢
什么是計(jì)算機(jī)視覺
正像其它學(xué)科一樣,一個大量人員研究了多年的學(xué)科,卻很難給出一個嚴(yán)格的定義,模式識別如此,目前火熱的人工智能如此,計(jì)算機(jī)視覺亦如此。
與計(jì)算機(jī)視覺密切相關(guān)的概念有視覺感知(visual perception),視覺認(rèn)知(visual cognition),圖像和視頻理解( image and video understanding). 這些概念有一些共性之處,也有本質(zhì)不同。從廣義上說,計(jì)算機(jī)視覺就是“賦予機(jī)器自然視覺能力”的學(xué)科。
自然視覺能力,就是指生物視覺系統(tǒng)體現(xiàn)的視覺能力。一則生物自然視覺無法嚴(yán)格定義,在加上這種廣義視覺定義又“包羅萬象”,同時(shí)也不太符合40多年來計(jì)算機(jī)視覺的研究狀況,所以這種“廣義計(jì)算機(jī)視覺定義”,雖無可挑剔,但也缺乏實(shí)質(zhì)性內(nèi)容,不過是一種“循環(huán)式游戲定義”而已。實(shí)際上,計(jì)算機(jī)視覺本質(zhì)上就是研究視覺感知問題。
視覺感知,根據(jù)維科百基(Wikipedia)的定義, 是指對“環(huán)境表達(dá)和理解中,對視覺信息的組織、識別和解釋的過程”。根據(jù)這種定義,計(jì)算機(jī)視覺的目標(biāo)是對環(huán)境的表達(dá)和理解,核心問題是研究如何對輸入的圖像信息進(jìn)行組織,對物體和場景進(jìn)行識別,進(jìn)而對圖像內(nèi)容給予解釋。
計(jì)算機(jī)視覺與人工智能有密切聯(lián)系,但也有本質(zhì)的不同。人工智能更強(qiáng)調(diào)推理和決策,但至少計(jì)算機(jī)視覺目前還主要停留在圖像信息表達(dá)和物體識別階段。
“物體識別和場景理解”也涉及從圖像特征的推理與決策,但與人工智能的推理和決策有本質(zhì)區(qū)別。應(yīng)該沒有一個嚴(yán)肅的計(jì)算機(jī)視覺研究人員會認(rèn)為AlphaGo, AlphaZero 是計(jì)算機(jī)視覺,但都會認(rèn)為它們是典型的人工智能內(nèi)容。
展開 收藏 | 深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用總結(jié)
編輯 | 計(jì)算機(jī)視覺聯(lián)盟
還是做一些背景介紹。已經(jīng)是很熱的深度學(xué)習(xí),大家都看到不少精彩的故事,我就不一一重復(fù)。
簡單的回顧的話,2006年Geoffrey Hinton的論文點(diǎn)燃了“這把火”,現(xiàn)在已經(jīng)有不少人開始潑“冷水”了,主要是AI泡沫太大,而且深度學(xué)習(xí)不是包治百病的藥方。
計(jì)算機(jī)視覺不是深度學(xué)習(xí)最早看到突破的領(lǐng)域,真正讓大家大吃一驚的顛覆傳統(tǒng)方法的應(yīng)用領(lǐng)域是語音識別,做出來的公司是微軟,而不是當(dāng)時(shí)如日中天的谷歌。計(jì)算機(jī)視覺應(yīng)用深度學(xué)習(xí)堪稱突破的成功點(diǎn)是2012年ImageNet比賽,采用的模型是CNN,而不是Hinton搞的RBM和DBN之類,就是Hinton學(xué)生做出來以他命名的AlexNet。
(注:順便提一下,2010年的ImageNet冠軍是余凱/林元慶領(lǐng)導(dǎo)的NEC和UIUC Tom Huang組的合作團(tuán)隊(duì),當(dāng)時(shí)采用的方法是基于sparse coding+SVM。)
當(dāng)然,真正一直在研究CNN的專家是Yann LeCun,小扎后來拉他去FB做AI research的頭。第一個CNN模型就是他搞出來的,即LeNet,原來就是做圖像數(shù)字識別。不得不說,CNN非常適合2-D信號的處理任務(wù),RNN呢,是時(shí)域上的拓展。
現(xiàn)在CNN在計(jì)算機(jī)視覺應(yīng)用的非常成功,傳統(tǒng)機(jī)器學(xué)習(xí)方法基本被棄之不用。其中最大的一個原因就是,圖像數(shù)據(jù)的特征設(shè)計(jì),即特征描述,一直是計(jì)算機(jī)視覺頭痛的問題,在深度學(xué)習(xí)突破之前10多年,最成功的圖像特征設(shè)計(jì) (hand crafted feature)是SIFT,還有著名的Bag of visual words,一種VQ方法。后來大家把CNN模型和SIFT比較,發(fā)現(xiàn)結(jié)構(gòu)還蠻像的:),之后不是也有文章說RNN和CRF很像嗎。
展開 基于計(jì)算機(jī)視覺技術(shù)的無土栽培蔬菜種植系統(tǒng)的研究與設(shè)計(jì)
關(guān)鍵詞:計(jì)算機(jī)視覺,無土栽培,物聯(lián)網(wǎng),STM32,OpenCV
作者:祝朝坤、谷會斌,鄭州工商學(xué)院
1 緒論
1.1 研究背景
近10年來,計(jì)算機(jī)視覺技術(shù)獲得了里程碑式的進(jìn)步,由于識別錯誤率的大幅降低,計(jì)算機(jī)視覺技術(shù)被愈來愈廣泛應(yīng)用在人們?nèi)粘I钪械母鱾€領(lǐng)域
[1]
。而由于傳統(tǒng)的農(nóng)作物種植受限于耕地面積、天氣、蟲害等多種因素,無土栽培也逐漸成為目前的研究熱點(diǎn),此外,目前成熟的無土栽培還擁有許多傳統(tǒng)種植不可復(fù)制的優(yōu)越性,如面積小、收獲多、成熟快、品質(zhì)優(yōu)良等。本課題的設(shè)計(jì)初衷就是更方便快捷地為人們和社會提供符合食品安全的健康綠色蔬菜。
1.2 研究意義
本課題的無土栽培蔬菜種植架結(jié)合計(jì)算機(jī)視覺技術(shù)進(jìn)行統(tǒng)籌設(shè)計(jì),具有一定的創(chuàng)新和實(shí)用性,體現(xiàn)在:
①在實(shí)現(xiàn)無土栽培自動化管理的過程中,計(jì)算機(jī)視覺技術(shù)可以通過云端進(jìn)行遠(yuǎn)程監(jiān)測,觀察作物的生長狀態(tài)以及生長環(huán)境參數(shù),無需過多人為干涉,從而解放了勞動力,使用戶享受到科技為現(xiàn)代生活帶來的美好。
②該無土栽培蔬菜種植架的開發(fā)能夠自動管理無土栽培過程中蔬菜生長所必需的變量,始終將數(shù)值控制在合理范圍內(nèi),令蔬菜無季節(jié)性限制、天氣影響、蟲害影響,同時(shí)也提高了作物的安全系數(shù),為蔬菜安全生產(chǎn)提供技術(shù)支持。
展開 
【EI會議】光學(xué)、成像與計(jì)算機(jī)視覺國際學(xué)術(shù)會議 (OMCV 2023)
光學(xué)、成像與計(jì)算機(jī)視覺國際學(xué)術(shù)會議(OMCV 2023)
International Conference on Optics, Imaging and Computer Vision (OMCV 2023)
2023年12月08-10日/ 海南 海口
光學(xué)、成像與計(jì)算機(jī)視覺國際學(xué)術(shù)會議(OMCV 2023)將于 2023 年 12 月 08-10 日 在中國海口舉行。
本次會議將圍繞光學(xué)、成像技術(shù)、計(jì)算機(jī)視覺等研究領(lǐng)域展開討論,為來自相關(guān)領(lǐng)域的專家學(xué)者、工程技術(shù)人員、技術(shù)研發(fā)人員等提供一個良好的學(xué)術(shù)交流平臺,共享科研成果和前沿技術(shù),了解學(xué)術(shù)發(fā)展趨勢,拓寬研究思路,加強(qiáng)學(xué)術(shù)研究和探討。在此謹(jǐn)代表OMCV組委會誠摯歡迎各位專家學(xué)者踴躍參會!
OMCV 2023已正式啟動,歡迎投稿,參會或申請成為外部評審人~
征稿領(lǐng)域
光學(xué)奠定了圖像處理和人工視覺的基礎(chǔ),激光、光纖、電荷耦合器件等發(fā)展,為成像和計(jì)算機(jī)視覺提供了巨大前景。OMCV 2023現(xiàn)征集關(guān)于成像和視覺領(lǐng)域的技術(shù)及應(yīng)用的原創(chuàng)性文章,特別歡迎有光學(xué)背景的成像和視覺的跨學(xué)科產(chǎn)出。
The topics of interest include, but are not limited to:
圖像和視頻處理
計(jì)算機(jī)視覺
場景建模(包括三維光學(xué)成像)
與圖像有關(guān)的機(jī)器學(xué)習(xí)
物體識別、跟蹤和運(yùn)動分析
基于視覺的人機(jī)交互
光譜成像
生物醫(yī)學(xué)成像
計(jì)算機(jī)攝影
超高分辨電子顯微鏡
出版與檢索
OMCV2023錄用并展示的文章將以會議論文集形式出版, 見刊后由出版社提交 Ei Compendex, Scopus, Web of Science Conference Proceedings Citation Index 等數(shù)據(jù)庫。
展開 一文讀懂深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域中的應(yīng)用
來源 |
新機(jī)器視覺
知圈
|
進(jìn)“電子電氣群”請加微13636581676,備注架構(gòu)
摘要:本文主要介紹計(jì)算機(jī)視覺中主要的五大技術(shù),分別為圖像分類、目標(biāo)檢測、目標(biāo)跟蹤、語義分割以及實(shí)例分割。針對每項(xiàng)技術(shù)都給出了基本概念及相應(yīng)的典型方法,簡單通俗、適合閱讀。
計(jì)算機(jī)視覺是當(dāng)前最熱門的研究之一,是一門多學(xué)科交叉的研究,涵蓋計(jì)算機(jī)科學(xué)(圖形學(xué)、算法、理論研究等)、數(shù)學(xué)(信息檢索、機(jī)器學(xué)習(xí))、工程(機(jī)器人、NLP等)、生物學(xué)(神經(jīng)系統(tǒng)科學(xué))和心理學(xué)(認(rèn)知科學(xué))。由于計(jì)算機(jī)視覺表示對視覺環(huán)境及背景的相對理解,很多科學(xué)家相信,這一領(lǐng)域的研究將為人工智能行業(yè)的發(fā)展奠定基礎(chǔ)。
那么,什么是計(jì)算機(jī)視覺呢?下面是一些公認(rèn)的定義:
1).從圖像中清晰地、有意義地描述物理對象的結(jié)構(gòu)(Ballard & Brown,1982);
2).由一個或多個數(shù)字圖像計(jì)算立體世界的性質(zhì)(Trucco & Verri,1998);
3).基于遙感圖像對真實(shí)物體和場景做出有用的決定(Sockman & Shapiro,2001);
那么,為什么研究計(jì)算機(jī)視覺呢?答案很明顯,從該領(lǐng)域可以衍生出一系列的應(yīng)用程序,比如:
1).人臉識別:人臉檢測算法,能夠從照片中認(rèn)出某人的身份;
2).圖像檢索:類似于谷歌圖像使用基于內(nèi)容的查詢來搜索相關(guān)圖像,算法返回與
3).查詢內(nèi)容最佳匹配的圖像。
展開 第二屆計(jì)算機(jī)視覺與虛擬現(xiàn)實(shí)國際學(xué)術(shù)會議
CVVR致力于增進(jìn)計(jì)算機(jī)視覺和虛擬現(xiàn)實(shí)領(lǐng)域的交流碰撞,促進(jìn)理論發(fā)展,攻克實(shí)踐難題,探索未來無極限,為世界各地的專家學(xué)者行業(yè)中人提供平臺機(jī)遇。
第二屆計(jì)算機(jī)視覺與虛擬現(xiàn)實(shí)國際學(xué)術(shù)會議(CVVR 2024)將于 2024 年 11 月 22-24 日在中國海口舉行,包括主題報(bào)告、特邀報(bào)告、口頭報(bào)告、海報(bào)展示等豐富環(huán)節(jié)。歡迎與會,共奏未來狂想曲。
征稿領(lǐng)域
主題包括但不限于:
計(jì)算機(jī)視覺:機(jī)器視覺;學(xué)習(xí)與視覺;圖像分割、理解和處理;面部和手勢識別; 視覺識別;地理信息系統(tǒng);面向視覺的深度學(xué)習(xí);照明和反射率;生物啟發(fā)視覺;基于內(nèi)容的檢索;姿態(tài)估計(jì)
虛擬現(xiàn)實(shí):增強(qiáng)現(xiàn)實(shí) (AR);混合現(xiàn)實(shí) (MR);多媒體;動態(tài)紋理合成;建模技術(shù);分布式系統(tǒng);多模態(tài)用戶界面;行為建模;人工生命;信號重建;運(yùn)動捕捉
聯(lián)系方式
PASE平臺:http://www.pasanhu.cn/ConferenceCn.aspx?id=CVVR%202024
CVVR官網(wǎng):http://www.iccvvr.com
會議秘書:Ms. Elena Zhang
郵箱:info@iccvvr.com
電話/微信:+86-15697142092
展開 計(jì)算機(jī)視覺四大基本任務(wù)(分類、定位、檢測、分割)
本文是該系列文章中的第二篇,旨在介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域四大基本任務(wù)中的應(yīng)用,包括分類(圖a)、定位、檢測(圖b)、語義分割(圖c)、和實(shí)例分割(圖d)。后續(xù)文章將關(guān)注深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的其他任務(wù)的應(yīng)用,以及自然語言處理和語音識別。
計(jì)算機(jī)視覺(computer vision)簡介
計(jì)算機(jī)視覺旨在識別和理解圖像/視頻中的內(nèi)容。其誕生于1966年MIT AI Group的"the summer vision project"。當(dāng)時(shí),人工智能其他分支的研究已經(jīng)有一些初步成果。由于人類可以很輕易地進(jìn)行視覺認(rèn)知,MIT的教授們希望通過一個暑期項(xiàng)目解決計(jì)算機(jī)視覺問題。當(dāng)然,計(jì)算機(jī)視覺沒有被一個暑期內(nèi)解決,但計(jì)算機(jī)視覺經(jīng)過50余年發(fā)展已成為一個十分活躍的研究領(lǐng)域。如今,互聯(lián)網(wǎng)上超過70%的數(shù)據(jù)是圖像/視頻,全世界的監(jiān)控?cái)z像頭數(shù)目已超過人口數(shù),每天有超過八億小時(shí)的監(jiān)控視頻數(shù)據(jù)生成。如此大的數(shù)據(jù)量亟待自動化的視覺理解與分析技術(shù)。
計(jì)算機(jī)視覺的難點(diǎn)在于語義鴻溝。這個現(xiàn)象不僅出現(xiàn)在計(jì)算機(jī)視覺領(lǐng)域,Moravec悖論發(fā)現(xiàn),高級的推理只需要非常少的計(jì)算資源,而低級的對外界的感知卻需要極大的計(jì)算資源。要讓計(jì)算機(jī)如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當(dāng)困難甚至是不可能的。
語義鴻溝(semantic gap) 人類可以輕松地從圖像中識別出目標(biāo),而計(jì)算機(jī)看到的圖像只是一組0到255之間的整數(shù)。
計(jì)算機(jī)視覺任務(wù)的其他困難 拍攝視角變化、目標(biāo)占據(jù)圖像的比例變化、光照變化、背景融合、目標(biāo)形變、遮擋等。
計(jì)算機(jī)視覺的頂級會議和期刊 頂級會議有CVPR、ICCV、和ECCV,此外ICLR也有不少計(jì)算機(jī)視覺論文。頂級期刊有IJCV和TPAMI。
展開 葉聰:朋友圈背后的計(jì)算機(jī)視覺技術(shù)與應(yīng)用
一、朋友圈爆款活動背后的技術(shù)
今天我會從朋友圈的一些爆款的互動活動作為切入點(diǎn),帶大家過一遍一些計(jì)算及視覺技術(shù)與應(yīng)用,或者把AI技術(shù)產(chǎn)業(yè)化。我們經(jīng)常在朋友圈會看到一些比較有趣的互動的活動,比如像軍裝照、武士青年這類活動視覺比較流行的應(yīng)用,也是目前探索出來的計(jì)算機(jī)視覺能夠最快來到大家身邊的方式。以過去的五四青年節(jié)的活動為例,這個有趣的活動就應(yīng)用了人臉檢測與人臉檢索的技術(shù)相結(jié)合。
上傳一張照片最匹配民國時(shí)候有為青年的照片,做成這種頁面供大家分享。這種模式最開始就是由騰訊開啟,現(xiàn)已成為了整個行業(yè)應(yīng)用的參考。除了這個活動,H5這類應(yīng)用往往會出現(xiàn)用戶訪問爆發(fā)性的增長,為了應(yīng)對這種突如其來的流量暴增,使用一整套云架構(gòu)部署,而不是傳統(tǒng)機(jī)房里面用幾臺服務(wù)器處理。比如像五四青年的活動,5萬KPS的架構(gòu)就有這樣的承載能力。從個人角度想要做這樣的應(yīng)用,需要了解以下的基礎(chǔ)知識。
二、計(jì)算機(jī)視覺定義
首先從計(jì)算機(jī)視覺的基本定義開始,學(xué)術(shù)角度來講是研究如何讓計(jì)算機(jī)從圖像和視頻中獲取高級抽象的信息的一種方法。但我比較喜歡后面這種工程角度的解釋,計(jì)算機(jī)視覺是可以使機(jī)器來模仿人類自動化。現(xiàn)在我們利用計(jì)算機(jī)視覺讓整個流程更自動化,機(jī)器可以部分的代替人力去理解圖片中的一些信息。計(jì)算機(jī)視覺還包含一些子分支,現(xiàn)在這個分支還會慢慢擴(kuò)張,這個分類也在慢慢的擴(kuò)大。主要包括物體識別、對象檢測、語義分割、3D的重建,動作識別等等。
底下有幾個比較常見的視覺應(yīng)用,第一個是人臉識別;第二個是無人駕駛;第三個是語義分割。語義分割在人工智能這個領(lǐng)域還是比較常見的。一般指詞性的分割,或者詞的分割。圖像分割里面的語義分割一般指的是把圖像里面的不同類型的對象進(jìn)行標(biāo)注和區(qū)分。
展開 雙目立體視覺技術(shù)涉及到的基本概念
什么是視覺
視覺是一個古老的研究課題,同時(shí)又是人類觀察世界、認(rèn)知世界的重要功能和手段。人類從外界獲得的信息約有75%來自視覺系統(tǒng),用機(jī)器模擬人類的視覺功能是人們多年的夢想。視覺神經(jīng)生理學(xué),視覺心里學(xué),特別是計(jì)算機(jī)技術(shù)、數(shù)字圖像處理、計(jì)算機(jī)圖形學(xué)、人工智能等學(xué)科的發(fā)展,為利用計(jì)算機(jī)實(shí)現(xiàn)模擬人類的視覺成為可能。在現(xiàn)代工業(yè)自動化生產(chǎn)過程中,計(jì)算機(jī)視覺正成為一種提高生產(chǎn)效率和檢驗(yàn)產(chǎn)品質(zhì)量的關(guān)鍵技術(shù)之一,如機(jī)器零件的自動檢測、智能機(jī)器人控制、生產(chǎn)線的自動監(jiān)控等;在國防和航天等領(lǐng)域,計(jì)算機(jī)視覺也具有較重要的意義,如運(yùn)動目標(biāo)的自動跟蹤與識別、自主車導(dǎo)航及空間機(jī)器人的視覺控制等。
人類視覺過程可以看作是一個從感覺到知覺的復(fù)雜過程,從狹義上來說視覺的最終目的是要對場景作出對觀察者有意義的解釋和描述;從廣義上說,是根據(jù)周圍的環(huán)境和觀察者的意愿,在解釋和描述的基礎(chǔ)上做出行為規(guī)劃或行為決策。計(jì)算機(jī)視覺研究的目的使計(jì)算機(jī)具有通過二維圖像信息來認(rèn)知三維環(huán)境信息的能力,這種能力不僅使機(jī)器能感知三維環(huán)境中物體的幾何信息(如形狀、位置、姿態(tài)運(yùn)動等),而且能進(jìn)一步對它們進(jìn)行描述、存儲、識別與理解,計(jì)算機(jī)視覺己經(jīng)發(fā)展起一套獨(dú)立的計(jì)算理論與算法。
2. 什么是計(jì)算機(jī)雙目立體視覺
雙目立體視覺(Binocular StereoVision)是機(jī)器視覺的一種重要形式,它是基于視差原理并利用成像設(shè)備從不同的位置獲取被測物體的兩幅圖像,通過計(jì)算圖像對應(yīng)點(diǎn)間的位置偏差,來獲取物體三維幾何信息的方法。融合兩只眼睛獲得的圖像并觀察它們之間的差別,使我們可以獲得明顯的深度感,建立特征間的對應(yīng)關(guān)系,將同一空間物理點(diǎn)在不同圖像中的映像點(diǎn)對應(yīng)起來,這個差別,我們稱作視差(Disparity)圖像,如圖一。
展開 計(jì)算機(jī)視覺必讀:目標(biāo)跟蹤、網(wǎng)絡(luò)壓縮、圖像分類、人臉識別等
作者簡介:
張皓,
南京大學(xué)計(jì)算機(jī)系機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘所(LAMDA)碩士生,研究方向?yàn)?em>計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí),特別是視覺識別和深度學(xué)習(xí)

計(jì)算機(jī)視覺中的傳統(tǒng)特征提取方法總結(jié)
來源 | 機(jī)器學(xué)習(xí)AI算法工程
前言:本文對計(jì)算機(jī)視覺傳統(tǒng)方法中的一些特征提取方法進(jìn)行了總結(jié),主要包括有:SIFT(尺度不變特征變換)、HOG(方向梯度直方圖)、SURF、ORB、LBP、HAAR。
目錄
[1] SIFT(尺度不變特征變換)
[2] HOG(方向梯度直方圖)
[3] SIFT和HOG的比較
[4] SIFT/HOG與神經(jīng)網(wǎng)絡(luò)特征提取的比較
[5] 其他傳統(tǒng)特征提取的方法(SURF、ORB、LBP、HAAR)
先對幾個概念和問題做一個解釋:
圖像為什么要灰度化?
1.識別物體,最關(guān)鍵的因素是梯度(SIFT/HOG),梯度意味著邊緣,這是最本質(zhì)的部分,而計(jì)算梯度,自然就用到灰度圖像了,可以把灰度理解為圖像的強(qiáng)度。
2.顏色,易受光照影響,難以提供關(guān)鍵信息,故將圖像進(jìn)行灰度化,同時(shí)也可以加快特征提取的速度。
仿射不變性
平面上任意兩條線,經(jīng)過仿射變換后,仍保持原來的狀態(tài)(比如平行的線還是平行,相交的線夾角不變等)
什么是局部特征?局部特征應(yīng)該具有的特點(diǎn)?
展開 SLAM算法解析:抓住視覺SLAM難點(diǎn),了解技術(shù)發(fā)展大趨勢
視覺 SLAM 或基于視覺的 SLAM 是 SLAM 的一種僅使用攝像頭的變體,放棄了昂貴的激光傳感器和慣性測量單元。單眼 SLAM僅使用單個攝像頭,而非單眼 SLAM通常使用一個預(yù)校準(zhǔn)的固定基線的立體相機(jī)套件。SLAM 是計(jì)算機(jī)視覺領(lǐng)域所謂的幾何方法中最好案例。事實(shí)上,卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所將研究生水平的計(jì)算機(jī)視覺課程分成了一個基于學(xué)習(xí)的視覺方法和一個單獨(dú)的基于幾何的視覺方法的課程。
1.運(yùn)動恢復(fù)結(jié)構(gòu) vs 視覺 SLAM
運(yùn)動恢復(fù)結(jié)構(gòu)(SfM)和 SLAM 所解決的問題非常相似,但 SfM 傳統(tǒng)上是以離線形式進(jìn)行的,而 SLAM 則已經(jīng)慢慢走向了低功耗/實(shí)時(shí)/單 RGB 相機(jī)的運(yùn)行模式。今天許多運(yùn)動恢復(fù)結(jié)構(gòu)方面的專家都在為世界上一些最大的科技公司,幫助打造更好的地圖。如果沒有關(guān)于多視圖幾何、SfM 和 SLAM 的豐富知識,像谷歌地圖這種成功的地圖產(chǎn)品根本就不可能出現(xiàn)。典型的 SfM 問題遵循:給定一個單個室外結(jié)構(gòu)(如大劇場/大體育館)的大型照片集合,構(gòu)建該結(jié)構(gòu)的 3D 模型并確定每個相機(jī)的姿勢。這個照片集合以離線形式處理,而且大型結(jié)構(gòu)重建所需時(shí)間從幾小時(shí)到幾天不等。
展開 一文概括機(jī)器視覺常用算法以及常用開發(fā)庫
OpenCV是一個基于(開源)發(fā)行的跨平臺計(jì)算機(jī)視覺庫,可以運(yùn)行在Linux、Windows和Mac OS操作系統(tǒng)上。其核心輕量級而且高效——由一系列 C 函數(shù)和少量 C++ 類構(gòu)成,實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺方面的很多通用算法。OpenCV用C++語言編寫,它的主要接口也是C++語言。該庫也有大量的Python, Java and MATLAB/OCTAVE的接口,如今也提供對于C#, Ruby的支持。OpenCV可以在 Windows, Android, Maemo, FreeBSD, OpenBSD, iOS,Linux 和Mac OS等平臺上運(yùn)行。
OpenCV出身:OpenCV是Intel開源計(jì)算機(jī)視覺庫。其核心由一系列 C 函數(shù)和少量 C++ 類構(gòu)成,實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺方面的很多通用算法。OpenCV 的特點(diǎn)擁有包括300多個C函數(shù)的跨平臺的中、高層 API 跨平臺:Windows, Linux;免費(fèi)(FREE):無論對非商業(yè)應(yīng)用和商業(yè)應(yīng)用;速度快;使用方便。
OpenCV具有以下的特征:
(1)開源計(jì)算機(jī)視覺采用C/C++編寫。
(2)使用目的是開發(fā)實(shí)時(shí)應(yīng)用程序。
(3)獨(dú)立與操作系統(tǒng)、硬件和圖形管理器。
(4)具有通用的圖象/視頻載入、保存和獲取模塊。
(5)具有底層和高層的應(yīng)用開發(fā)包。
應(yīng)用OpenCV能夠?qū)崿F(xiàn)以下功能:
(1)對圖象數(shù)據(jù)的操作,包括分配、釋放、復(fù)制和轉(zhuǎn)換數(shù)據(jù)。
(2)對圖象和視頻的輸入輸出,指文件和攝像頭作為輸入,圖象和視頻文件作為輸出。
展開 沖壓質(zhì)量模板匹配視覺檢測技術(shù)應(yīng)用
通過計(jì)算機(jī)視覺和圖像處理技術(shù),開發(fā)沖壓件質(zhì)量在線視覺檢測系統(tǒng),可提高沖壓件質(zhì)量檢查效率,降低人員勞動負(fù)荷。
目前整車廠主流沖壓線生產(chǎn)節(jié)拍大都是每分鐘12 ~18 件,每個沖壓件進(jìn)行全面品質(zhì)檢查大約需要8 ~10min,生產(chǎn)節(jié)拍遠(yuǎn)大于品質(zhì)全檢的速度,因此無法做到零件的全檢。沖壓質(zhì)檢體制主要包括在線抽檢和線下抽檢,在線抽檢由兩名線檢人員周期性地在3 ~5s 的時(shí)間內(nèi)檢查零件的部分區(qū)域,線下抽檢由兩名抽檢人員每間隔約100 件進(jìn)行零件的全檢。這種檢查體制存在偶發(fā)不良漏檢和批量不良的風(fēng)險(xiǎn),如圖1 所示,質(zhì)檢人員長期重復(fù)性動作,也存在作業(yè)疲勞、檢出能力下降導(dǎo)致漏檢的情況。
圖1 不良漏檢和批量不良情況
隨著計(jì)算機(jī)芯片運(yùn)算能力的提升以及人工智能算法的深入應(yīng)用,目前已出現(xiàn)通過計(jì)算機(jī)視覺檢測取代人工檢查的應(yīng)用案例,如一種基于深度學(xué)習(xí)的多分類缺陷監(jiān)測系統(tǒng),通過采集大樣本量的缺陷數(shù)據(jù),對檢測模型進(jìn)行訓(xùn)練,使其能夠識別出開裂、凸凹點(diǎn)等缺陷,如圖2 所示。相對于深度學(xué)習(xí)的檢測系統(tǒng),模板匹配檢測系統(tǒng)不需要大數(shù)據(jù)的訓(xùn)練,即可輔助進(jìn)行在線缺陷檢測,具有較高準(zhǔn)確率,能消除人工漏檢造成的批量不良風(fēng)險(xiǎn),降低質(zhì)檢人員的作業(yè)負(fù)荷。
圖2 視覺監(jiān)測凸凹點(diǎn)缺陷
硬件布置方案
系統(tǒng)的硬件部署要在現(xiàn)有沖壓線上增加,并盡可能減少對現(xiàn)有生產(chǎn)線的改造,故沿用了現(xiàn)有沖壓線的自動化方案(機(jī)械臂、傳送皮帶),在此基礎(chǔ)上通過在零件傳送路徑上布置8組攝像頭和LED光源(俯視、前視、后視、側(cè)視各2 組),實(shí)現(xiàn)對在線零件的圖像采集,如圖3 所示。
圖3 視覺監(jiān)測布置示意圖
檢測方案
沖壓零件通過機(jī)械臂放置到傳送皮帶上,依次經(jīng)過攝像頭拍攝點(diǎn),零件的位置、角度是一種有序排列,如圖4 所示。
展開