
發布
注冊
/
登錄字符識別的案例
基于OpenCV的生產日期字符識別研究
圖9 字符識別界面
利用窗口上方的模塊,對文件內字符進行框選,調整字體坐標,標準為一字一框,并對識別的字符進行修正,最后點擊 save。
在輸入命令后創建字體特征文件,之后開始對字符文件進行訓練,并把生成的文件合并,即得到訓練文件(如圖 10)。
圖10 字符集訓練界面
字符識別的正確率受前期圖片處理的程度和字符庫的影響,訓練集中包含英文、中文和數字三種字符,為了驗明三種字符的單獨測試效果,從以下四個方向進行觀察測試:
1)中文字符正確率
2)英文字符正確率
3)數字字符正確率
4)全部字符正確率
表1 字符識別正確率測試
通過測試顯示,錯誤率最高為 5.00% 的中文字符,Tesseract 對于英文和數字字符還是比較精準的,錯誤主要在于字符“期”容易識別為分開的兩個字“其”和“月”,接下來對字符偏旁部首誤分割的判定準確率進行研究優化。
04
結束語
本文基于 OpenCV 和開源庫 Tesseract,在 Python平臺根據現有的完善字符識別算法,利用訓練出的專屬字符庫初步實現了在簡單環境下對商品生產日期的識別功能。
本實驗項目僅針對普通場景下的圖像進行商品標簽日期字符的識別,對于復雜場景下或復雜字體、混合字體或彎曲識別界面的圖像文字識別還有待研究。后續將在圖像預處理和字符識別方面進行優化,即將著手的工作如下:
1)研究生產日期標簽污損情況下的字符識別。
2)識別結果僅顯示于界面,未能聯系產品進行操控。
展開 光學字符識別技術:讓電腦“讀”懂世界
光學字符識別技術:讓電腦“讀”懂世界
把手機攝像頭對準菜單上的法語菜名,屏幕上實時顯示出翻譯好的中文菜名;批量掃描書籍,將全世界圖書館的藏書轉化為電子書;街景車游走于大街小巷,拍攝街景的同時也從圖像中自動提取文字標識,讓地圖信息更豐富準確……這些場景的背后,是一項共同的關鍵技術——光學字符識別(Optical Character Recognition,OCR)。
慧眼讀世界
鼠標發明人道格拉斯·恩格爾巴特(Douglas Engelbart)曾經針對人工智能的簡稱“AI”提出了另一個理念——Augmented Intelligence,增強智能。在他看來,人已經足夠聰明,我們無需再去復制人類,而是可以從更加實用的角度,將人類的智能進一步延伸,讓機器去增強人的智能。智能眼鏡就是這樣的產品:去超市的時候戴上一副,看到心儀商品上的文字,自動搜索出詳細信息:生產商情況、在不同電商平臺的價格等等。
讓智能眼鏡“讀懂”文字的,正是OCR技術。OCR本質上是利用光學設備去捕獲圖像,無論是今天的手機、照相機,還是未來的智能可穿戴設備,只要有文字,就能去認出來。設想一下,在未來的工作會議中,只要手機等智能設備給會議白板拍照,系統便能自動識別白板上的討論內容,分檢出相關人員的后續工作,并將待辦事項自動存放到各自的電子日歷中。在OCR技術的支持下,這樣的場景將不是夢想。
微軟去年推出的Office Lens應用就向夢想的實現邁進了一小步。在研究院語音團隊的核心支持下,這一技術已經可以通過視覺計算技術實現對圖像的自動清理,并利用基于云端的OCR技術將對圖片進行文字識別,最終返還給用戶一個可編輯、可搜索的數字文件。
圖片來源:research.microsoft.com
輝煌與挑戰
OCR技術的應用經歷了超過半個世紀的摸索優化。
展開 基于Matlab模板匹配方法的車牌識別系統設計
有利于后期的圖片分割及圖像識別。
二值化圖像處理
將得到車牌區域進行二值化,然后利用bwmorph函數對二值圖像應用形態學操作,經過擦除,再次裁剪,得到更好只具有黑白色彩的車牌圖像
字符分割
將計算得到車牌區域的彩色分割后的圖象,對白色進行水平垂直投影,計算水平垂直峰,檢測合理的字符高寬比。可用與區域分割相同的方法進行峰值的刪除和合并對白色進行水平垂直投影,計算水平垂直黑點數,根據黑點數分割出字符模塊。。但在字符切割時,往往由于閾值取得不好,導致字符切割不準確,針對這種情況,可以由車牌格式的先驗知識,對切割出的字符寬度進行統計分析,用以指導切割,對因錯誤切割過寬的字符進行分裂處理。對‘桂’字經常出現的是把木字旁和右邊的部首分割開。系統針對這種問題對分割出來的字體的寬度與整個車牌的寬度對比,對誤操作字符進行合并。一個智能的識別系統應減少系統對閾值的過分依賴。
字體識別
常用做法是采用神經網絡模型對系統進行訓練。但是這種做法增加了系統的復雜度,對實時性要求較高的場合不適應。這里采用簡單模版匹配算法。由于在前期的有效處理使得分割后的字體清晰度完整度都能保持較高的水平。有利于提高模版匹配的成功率。經驗證對非傾斜圖片,識別率可達95%,對傾斜圖片亦可以達到90%以上。D--0,6--8,2--Z,A—4是比較容易識別出錯的字符。
語音播報
對字符正確識別之后,用事先對對每一個字符的錄音根據對應字符順序播放。在對車牌區域識別出錯、字體分割出錯時程序暫停,并有語音提醒。
存儲數據
播放結束之后對相應的識別出來的字符存儲到指定文件夾的txt文件內。并同時存儲對應時間。
最后,有需要歡迎通過微信公眾號聯系我們。
展開 【產品技術】中科行智 | GIVS視覺平臺發布AI訓練和部署工具包
// OCR識別(應用二)
通過字符訓練可以完成自定義字符類型識別,靈活度更高。
// 缺陷檢測:
無需訓練,即可完成多種標準字體字符識別,精準度高,環境適應性廣。
本次GIVS AI深度學習訓練平臺的發布,為行業用戶提供了更多更優質的選擇,中科行智也將始終緊跟時代浪潮,不斷迭代更新、開拓發展,以高端、強大的產品和細致、貼心的服務提升用戶體驗,創造更大價值!

三個相關概念:深度學習Vs機器學習Vs模式識別
不過,如果你的算法對圖像應用了一些像濾波器、邊緣檢測和形態學處理等等高大上的技術后,模式識別社區肯定就會對它感興趣。光學字符識別就是從這個社區誕生的。因此,把模式識別稱為70年代,80年代和90年代初的“智能”信號處理是合適的。決策樹、啟發式和二次判別分析等全部誕生于這個時代。而且,在這個時代,模式識別也成為了計算機科學領域的小伙伴搞的東西,而不是電子工程。從這個時代誕生的模式識別領域最著名的書之一是由Duda & Hart執筆的“模式識別(Pattern Classification)”。對基礎的研究者來說,仍然是一本不錯的入門教材。不過對于里面的一些詞匯就不要太糾結了,因為這本書已經有一定的年代了,詞匯會有點過時。
圖2 一個字符“3”的圖像被劃分為16個子塊。
自定義規則、自定義決策,以及自定義“智能”程序在這個任務上,曾經都風靡一時
小測試:計算機視覺領域最著名的會議叫CVPR,這個PR就是模式識別。你能猜出第一屆CVPR會議是哪年召開的嗎?
2. 機器學習:從樣本中學習的智能程序
在90年代初,人們開始意識到一種可以更有效地構建模式識別算法的方法,那就是用數據(可以通過廉價勞動力采集獲得)去替換專家(具有很多圖像方面知識的人)。因此,我們搜集大量的人臉和非人臉圖像,再選擇一個算法,然后沖著咖啡、曬著太陽,等著計算機完成對這些圖像的學習。這就是機器學習的思想。“機器學習”強調的是,在給計算機程序(或者機器)輸入一些數據后,它必須做一些事情,那就是學習這些數據,而這個學習的步驟是明確的。相信我,就算計算機完成學習要耗上一天的時間,也會比你邀請你的研究伙伴來到你家然后專門手工得為這個任務設計一些分類規則要好。
圖3 典型的機器學習流程(圖來源于 Natalia Konstantinova 博士的博客)。
展開 機器視覺常用圖像軟件對比及分析
機器視覺處理軟件:用來完成輸入圖像數據的處理,通過一定的運算得出結果,這個輸出的結果可能是PASS/FAIL信號、坐標位置、字符串等。
常見的機器視覺軟件以C/C++圖像庫,ActiveX控件,圖形式編程環境等形式出現,可以是專用功能的(比如僅僅用于LCD檢測,BGA檢測,模版對準等),也可以是通用目的的(包括定位、測量、條碼/字符識別、斑點檢測等)。
主流的機器視覺軟件有:側重圖像處理的圖像軟件包Opencv,Halcon、美國康耐視(Cogrex )的 visionpro;側重算法的matlab,labview、;側重相機SDK開發的eVision等。
展開 五大停車場管理系統,你用過幾個?
01
正文
車牌識別技術
車牌識別是利用采集車輛的動態視頻或靜態圖像進行車牌號碼、車牌顏色的自動模式識別技術。技術的核心包括車牌定位算法、車牌字符分割算法和光學字符識別算法等。一個完整的車牌識別系統應包括車輛檢測、圖像采集、車牌識別等幾部分。
停車場通過將車牌識別設備安裝于出入口,記錄車輛的車牌號碼、出入時間,并與自動門、欄桿機的控制結合,就可以實現車輛的自動計時收費。當車輛檢測部分檢測到車輛到達時觸發圖像采集單元,采集當前的視頻圖像。車牌識別單元對圖像進行處理,定位出車牌位置,再將車牌中的字符分割出來進行識別,之后組成車牌號碼輸出。
相對傳統取卡入場,車牌識別通行免停車、免開窗,提升了B端用戶體驗,降低了停車場IC卡片遺失耗損的成本,提升了C端車主的通行效率,實現了車輛快捷的進出停車場。
展開 Qt工具|自動GUI測試工具Squish介紹
基于腳本 or 基于BDD
對象感知、基于圖像、基于OCR識別
-基于對象識別:基于對象屬性識別被測程序的對象;不使用所有屬性,只選取穩定的屬性;不使用于坐標。
*回放:不依賴坐標和分辨率
-基于圖像、基于OCR識別:對于非對象操作,支持對圖像或OCR識別進行操作。
測試檢查&驗證
-確認可見的數據、驗證底層對象和對象屬性是否符合預期值;
-兩大手段:檢查點和Spy工具;
-檢查點類型:屬性、截圖、表格、可視化檢查點、圖片搜索和OCR(光學字符識別);
-支持在初始錄制期間,錄制片段或手動編寫腳本時創建檢查點。
視頻捕獲
-支持在Squish IDE和命令行中捕獲測試執行視頻;
-視頻格式:MPEG-4;
-可以在Squish IDE和Test Center查看錄制的視頻。
Remote Control
? 解決本地和遠程系統不在同一機器帶來的錄制腳本和調試腳本耗時、費力的問題
? 點擊‘Remote Control ’虛擬任何目標應用:臺式計算機;移動設備;嵌入式設備。
此外,Squish還支持分布式場景;多種報告格式(XML, HTML,Json,Xls,Test Center…);命令行工具、與CI/ALM集成等。
展開 3D打印出來的神經網絡,光速求解AI數學運算
研究人員在論文中描述其系統時寫道
為了證明這一點,他們訓練了一個深度學習模型來識別寫手寫數字。完成之后,他們會把矩陣數學層轉化為一系列的光學變換。例如,一個層可能會通過將兩者的光線重新聚焦到下一層的單個區域來增加值——實際計算比這要復雜得多,此處只做概述。
圖 3:衍射深度神經網絡實現手寫數字識別。
通過在印刷版上布置數百萬個微型轉換,光從一端輸入并從另一個結構中輸出,因此系統能以超過 90% 的準確率判斷它是否為 1、2 和 3 等。
讀者可能會疑問這到底有什么用,因為最簡單的三層感知機在識別手寫數字時都能輕松達到 95% 以上的準確率,而卷積網絡可以實現 99% 以上的準確率。這一形式目前確實沒什么實際用處,但是神經網絡是非常靈活的工具,系統完全有可能識別字母而不是僅限于數字。因此可以令光學字符識別系統在硬件中運行,且基本上不需要能耗或計算。
真正的局限在于制造工藝:打造一個能實現按需處理任務的超高精度衍射板非常困難。畢竟,如果需要精確到小數點后七位,而印刷版卻只能精確到第三位的話,那就相當麻煩了。
這只是一個概念的證明——對大型數字識別機器并沒有迫切需求——但這個想法十分有趣。該想法可能會對攝像機和機器學習技術產生影響——在物質世界而非虛擬世界里構造光與數據。看起來像是倒退,但也許只是鐘擺在向后擺動。
深度學習已經提高了我們使用計算機執行高級推理任務的能力。我們在本文中引入了一種物理機制來執行機器學習,這是一種全光衍射深度神經網絡(D^2NN)架構,可以按照基于深度學習設計的、集體工作的被動衍射層來實現多種函數。
展開 Qt質量管理工具簡介
功能特點
強大靈活的UI控件識別
通過用戶友好、直觀且功能強大的Squish IDE記錄、重構、調試、執行和維護您的腳本。
直觀的集成開發環境
通過用戶友好、直觀且功能強大的Squish IDE記錄、重構、調試、執行和維護您的腳本。
易讀易用的腳本語言
自動化GUI測試用例支持Python(2、3)、JavaScript、Perl、Ruby和Tcl五種腳本語言。
集成遠程控制
通過一個完全集成的遠程控制解決方案,遠程控制您的設備并獲取UI對象進行檢查,該方案幾乎適用于任何目標設備。
光學字符識別(OCR)
使用基于AI的OCR引擎輕松識別和驗證屏幕上的文本,并將其與基于對象或圖像的測試相結合。
測試驗證與確認
插入驗證點以確認測試腳本的預期行為。Squish支持對象屬性、屏幕截圖、視覺和基于OCR的驗證點。
代碼覆蓋率分析概述
*COCO:來自FROGLOGIC收購
Coco是一個多語言、多平臺的代碼覆蓋率分析和剖析工具。自動檢測用于測量和報告應用程序代碼中語句、判斷和條件的測試覆蓋率。Coco也適用于安全關鍵系統,可用于遵守汽車、醫療、航空電子、鐵路或其他行業的監管安全要求。
功能特點
支持的語言和平臺
支持現代、最新語言C/C++、C#、SystemC、QML和Tcl的應用程序。Coco支持所有的流行的平臺、包括Windows、Linux/Unix、macOS,以及一系列的嵌入式平臺。
與您的工具鏈集成
Coco支持廣泛的編譯器,如GCC、Visual Studio、嵌入式編譯器等。
優化執行和影響分析
優化測試執行的順序,在最短的時間內提供最大的覆蓋率。通過測試影響分析,分析最后一分鐘代碼補丁的風險性。
展開 基于eggPlant軟件的C4I自動化測試方案
圖4 eggPlant測試原理示意圖
eggPlant軟件適合于做人機界面系統的自動化測試,該軟件具備以下特點,
? 黑盒級別的系統軟件功能驗證與測試;無需認知被測設備軟件程序或底層語言,不依賴其它技術,僅需要獲得VNC傳遞過來的圖形像素信息;
? 專利精確圖像識別算法,高精度圖片捕獲和圖片對比;允許不同精度的圖片捕獲和對比:Tolerant, Precise, Pulsing…
? 測試用例可配置,測試腳本自動執行于被測設備,激勵界面狀態更新;
? 集成OCR (光學字符識別)引擎,識別200多種語言:中文, 英文, 俄文, 日文, 韓文…
? 圖片診斷、圖片復用、圖片管理;
? 簡易直覺的測試腳本語言“Sence Talk”,適合任何人使用;
? 測試腳本可編輯;測試腳本可復用于多個項目;
? 測試腳本模塊化;模塊可嵌套;
? 支持測試腳本的運行、暫停、單步執行、斷點調試…
? 自動生成測試結果:Excel, TXT, XML
? 支持與第三方工具和語言集成:Vector CANoe, IBM Rational RQM, DOORS,C/C++,Python;
? 跨平臺測試任何HMI設備;同步測試多臺設備。
總結
測試工作完成時間是衡量測試效率的重要指標;基于eggPlant軟件的自動化測試平臺所帶來的時間效益非常巨大;若要開展1000組測試,采用自動化測試方案將節約至少2000個小時;本來要花1年或幾年才能完成的測試任務,將縮短為幾個月乃至幾個星期。不僅如此,大部分測試人員可將時間和精力投入到開發更加高級的以用戶使用情景為導向的高級測試,而不僅僅是驗證系統軟件魯棒性這樣的常規測試。
展開 
汽車軟件測試:需求和最佳實踐
它還支持光學字符識別(OCR)引擎,幫助驗證文本和數字是否按預期顯示在屏幕上。
深圳市優飛迪科技有限公司成立于2010年,是一家專注于產品開發平臺解決方案與物聯網技術開發的國家級高新技術企業。
十多年來,優飛迪科技在數字孿生、工業軟件尤其仿真技術、物聯網技術開發等領域積累了豐富的經驗,并在這些領域擁有數十項獨立自主的知識產權。同時,優飛迪科技也與國際和國內的主要頭部工業軟件廠商建立了戰略合作關系,能夠為客戶提供完整的產品開發平臺解決方案。
優飛迪科技技術團隊實力雄厚,主要成員均來自于國內外頂尖學府、并在相關領域有豐富的工作經驗,能為客戶提供“全心U+端到端服務”。
世界上最頂尖的技術在哪些國家?(中)
全球商業智能文檔影像解決方案一哥,表單印刷-識別-電子化合體技術的發明者——富士通pfu。
富士通pfu利用自己世界最高市場份額的商用掃描儀和獨立開發的光學字符識別軟件(ocr),幫助中國國家統計局高效準確的完成了世界最大規模人口普查 。
血液診斷設備
國家食品藥品監督管理局指定北京市醫療器械檢驗,所將全球血液診斷設備制造商老大——日本希森美康的血細胞分析儀做為國家標準,以此來審查檢測全國所有血細胞計數設備的質量和日常精確度管理的提升。
全球氧化鋅避雷器
領先企業——東芝三菱電機產業系統株式會社(tmeic)向中國首條由境外引入兼目前世界上線路最長的天然氣輸送項目——西氣東輸二線工程提供全部高壓變頻器與高速電機。東芝三菱電機產業系統株式會社同時保有世界最大容量的電壓源型變頻器與高速電機。
光伏逆變器
日立與東方電氣集團在華的合資公司東方日立,向中國乃至全球最大規模水力光伏互補光伏發電站提供上百臺高出力高轉換率的光伏逆變器。光伏逆變器是將太陽能電池所發出的直流電逆變為交流電,并承擔系統保護作用的光伏電站關鍵設備之一。
展開 一文概括機器視覺常用算法以及常用開發庫
(1)閾值分割(固定閾值分割、最優/OTSU閾值分割、自適應閾值分割);
(2)基于邊界分割(Canny邊緣檢測、輪廓提取、邊界跟蹤);
(3)Hough變換(直線檢測、圓檢測);
(4)基于區域分割(區域生長、區域歸并與分裂、聚類分割);
(5)色彩分割;
(6)分水嶺分割;
5、圖像特征:
(1)幾何特征(位置與方向、周長、面積、長軸與短軸、距離(歐式距離、街區距離、棋盤距離));
(2)形狀特征(幾何形態分析(Blob分析):矩形度、圓形度、不變矩、偏心率、多邊形描述、曲線描述);
(3)幅值特征(矩、投影);
(4)直方圖特征(統計特征):均值、方差、能量、熵、L1范數、L2范數等;直方圖特征方法計算簡單、具有平移和旋轉不變性、對顏色像素的精確空間分布不敏感等,在表面檢測、缺陷識別有不少應用。
(5)顏色特征(顏色直方圖、顏色矩)
(6)局部二值模式( LBP)特征:LBP對諸如光照變化等造成的圖像灰度變化具有較強的魯棒性,在表面缺陷檢測、指紋識別、光學字符識別、人臉識別及車牌識別等領域有所應用。由于LBP 計算簡單,也可以用于實時檢測。
展開 01 K-近鄰算法介紹與實現
適用范圍: 字符識別、文本分類、圖像識別等領域。
實現流程:
計算已知類別數據集中點與當前點之間的距離。
按距離遞增次序排序。
選取與當前點距離最小的k個點。
統計前k個點所在的類別出現的頻率。
返回前k個點出現頻率最高的類別作為當前點的預測分類。
1.1 距離公式
距離公式在k近鄰算法中扮演著至關重要的角色,直接影響最終預測結果。常見的距離公式有:
歐式距離
曼哈頓距離
契比雪夫距離
閔可夫斯基距離
上述四種距離計算公式,都將各分量的量綱忽略了,也沒有考慮各分量的分布。
標準化歐式距離
余弦距離
向量夾角的余弦值,越接近與+1表明夾角越小,越接近于-1表明夾角越大。
漢明距離
兩個等長字符串s1與s2的漢明距離為:將其中一個變為另外一個所需要做的最小字符替換次數。
字符串或變量在計算集中表示為二進制后,非零位個數的差值。
Jaccard Distance
距離算法簡介
Mahalanobis Distance
距離算法簡介
1.2 K值的選擇
k值的作用:少數服從多數,k值決定選民多少
如果K=3,綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形,少數從屬于多數,基于統計的方法,判定綠色的這個待分類點屬于紅色的三角形一類。
如果K=5,綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形,還是少數從屬于多數,基于統計的方法,判定綠色的這個待分類點屬于藍色的正方形一類。
K 值的選擇會對算法的結果產生重大影響。
展開