光學字符識別技術:讓電腦“讀”懂世界

光學字符識別技術:讓電腦“讀”懂世界



把手機攝像頭對準菜單上的法語菜名,屏幕上實時顯示出翻譯好的中文菜名;批量掃描書籍,將全世界圖書館的藏書轉化為電子書;街景車游走于大街小巷,拍攝街景的同時也從圖像中自動提取文字標識,讓地圖信息更豐富準確……這些場景的背后,是一項共同的關鍵技術——光學字符識別(Optical Character Recognition,OCR)。

慧眼讀世界

鼠標發明人道格拉斯·恩格爾巴特(Douglas Engelbart)曾經針對人工智能的簡稱“AI”提出了另一個理念——Augmented Intelligence,增強智能。在他看來,人已經足夠聰明,我們無需再去復制人類,而是可以從更加實用的角度,將人類的智能進一步延伸,讓機器去增強人的智能。智能眼鏡就是這樣的產品:去超市的時候戴上一副,看到心儀商品上的文字,自動搜索出詳細信息:生產商情況、在不同電商平臺的價格等等。

讓智能眼鏡“讀懂”文字的,正是OCR技術。OCR本質上是利用光學設備去捕獲圖像,無論是今天的手機、照相機,還是未來的智能可穿戴設備,只要有文字,就能去認出來。設想一下,在未來的工作會議中,只要手機等智能設備給會議白板拍照,系統便能自動識別白板上的討論內容,分檢出相關人員的后續工作,并將待辦事項自動存放到各自的電子日歷中。在OCR技術的支持下,這樣的場景將不是夢想。

微軟去年推出的Office Lens應用就向夢想的實現邁進了一小步。在研究院語音團隊的核心支持下,這一技術已經可以通過視覺計算技術實現對圖像的自動清理,并利用基于云端的OCR技術將對圖片進行文字識別,最終返還給用戶一個可編輯、可搜索的數字文件。

10.jpg

  圖片來源:research.microsoft.com   

輝煌與挑戰

OCR技術的應用經歷了超過半個世紀的摸索優化。早在20世紀50年代,IBM就開始利用OCR技術實現各類文檔的數字化。但早期的OCR設備龐大而復雜,只能處理干凈背景下的某種特定的印刷字體。20世紀80年代,平板掃描儀的誕生讓OCR進入商用階段,設備更為輕便靈巧,可以處理的字體數量也增多,但對文字的背景要求仍然很高,需要很好的成像質量才能保證效果。

到了20世紀90年代,平板掃描儀對印刷體文本的識別率就已經達到99%以上,可謂OCR應用迎來的第一個高潮。當時最著名的事件是谷歌數字圖書館,谷歌還申請了圖書掃描專利,實現了批量化的高速掃描。在此期間,手寫字體的識別也在并行發展,被廣泛用于郵件分揀、支票分類、手寫表格數字化等領域。

這樣的成就,一度讓大家誤以為OCR技術已經登峰造極,但自從2004年擁有300萬像素攝像頭的智能手機誕生之日起,OCR的發展又有了新的追求:越來越多的人隨手拿起手機拍攝所看到的事物和場景,此類自然場景中的文字識別難度遠遠高于平板掃描儀時期,即便是印刷字體,也不能得到很高的識別率,更別說手寫體了。學術界因此將自然場景中的文字識別作為全新的課題來對待。

自然場景下的文字檢測

自然場景圖像中的文字識別之所以大大難于掃描儀圖像中的文字識別,是因為它具有極大的多樣性和明顯的不確定性。文字所屬的語言、字母的字體參數、文本行的排列和對齊方式等因素,都影響著識別的效果。由于拍攝圖像的隨意性,圖像中的文字區域還可能會產生變形(透視和仿射變換)、殘缺、模糊斷裂等現象。

此外,與傳統 OCR 技術中的掃描文檔圖像相比,自然場景圖像的背景也更為復雜。如文字可能寫在曲面上、文字區域附近有復雜的紋理和噪聲、圖像中的非文字區域有跟文字區域非常相似的紋理(比如窗戶、樹葉、柵欄、磚墻)等等。這些復雜背景會極大增加誤檢率。

通常,OCR識別的步驟可以分為兩步:首先是文本檢測(Text detection),將文字從圖片中提取出來;然后,對文本進行識別(Recognition)。微軟亞洲研究院團隊對相關技術和算法進行了針對性的優化和創新,對文本檢測環節進行了改進。

文本檢測首先要從圖像中切割出可能存在的文字,即“候選連通區域”,然后再對其進行文字/非文字分類。一個字母或文字通常可以分為若干個連通區域,如字母“o”就只有一個連通區域,“i”則擁有兩個連通區域。在確定候選連通區域階段,我們創新地采用了對比極值區域CER(Contrasting Extremal Region),選取跟周圍的背景有一定對比度的極值區域,通過大幅縮小候選范圍,提高了算法的效率。

12.jpg

受噪聲影響的CER示例。圖片來源:霍強

由于在圖像模糊、分辨率低或者噪聲較多時,提取出來的CER有可能會含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會使得后面的文字/非文字分類問題變得更為復雜。為了提高所獲得的候選連通區域的質量,微軟亞洲研究院團隊決定增加一個算法環節去增強CER。我們利用圖像的顏色信息盡可能地濾除CER中的冗余像素或者噪聲,得到具有視覺感知一致性的顏色空間。這一空間對光照不敏感,更接近人眼對顏色的判斷。

13.jpg

算法提取出來的候選連通區域結果示例。圖片來源:霍強

當系統獲得了高質量的候選連通區域,就需要對其中的字符進行分辨,確定其是否為文字或非文字。微軟亞洲研究院團隊提出了一套基于淺層神經網絡的文字/非文字分類算法,比以往的算法更加有效。這個算法根據文字本身的特性采用分治策略將原始問題空間劃分為5個子空間,每個子空間對應一類文字樣本,每個候選連通區域被劃分到這5類中的一種。在每個子空間中,都有一個相應的淺層神經網絡作為該子空間的文字/非文字分類器——我們可以將該神經網絡看作是一個黑盒子,在經過大量學習之后,它便能較為準確的將文字與非文字分類。

14.jpg

文字類問題空間劃分示例。圖片來源:霍強

這些改進大大增強了OCR在自然場景中的識別本領。之前,在自然場景文字檢測的標準數據集進行測試,業界最好的技術所能達到的檢測精度是88.5%,而召回率只有66.5%。而在2014年8月,微軟亞洲研究院團隊在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上進行的自然場景文字檢測測試中取得了92.1%的檢測精度和92.3%的召回率。隨著研究工作的不斷突破,OCR必定還會煥發新機,衍生出更多振奮人心的應用。



文章轉載自   果殼網

旨在分享知識,若侵即刪


登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

1