1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        圖像識別技術(shù)在檔案OCR工作中的應(yīng)用

        共 3373字,需瀏覽 7分鐘

         ·

        2021-04-13 13:22

        原載于《中國檔案報》

        作者:徐亮

        光學(xué)字符識別(Optical Character Recognition,OCR)是將圖像中的文字信息轉(zhuǎn)化為可供計算機處理的字符信息的技術(shù),發(fā)揮著計算機“眼睛”的功能,是機器與現(xiàn)實世界進行視覺交互的重要技術(shù)基礎(chǔ)。早期的OCR技術(shù)可追溯到1870年,電報技術(shù)和為盲人設(shè)計的閱讀設(shè)備的出現(xiàn)標(biāo)志著OCR的誕生。近年來,隨著人工智能技術(shù)在OCR中的實際應(yīng)用,OCR的性能和效率都得到了很大的提升。如今,基于人工智能的OCR已經(jīng)廣泛應(yīng)用于金融、交通、政務(wù)、司法、醫(yī)療等多個領(lǐng)域,進入到人們生產(chǎn)生活的方方面面。

        檔案OCR是利用OCR技術(shù)對紙質(zhì)檔案數(shù)字化副本等圖像文件中的字符形狀進行識別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。利用人工智能技術(shù)開展檔案OCR工作,對于提高工作效率和準確性,加快自動著錄、全文檢索、數(shù)據(jù)分析等系統(tǒng)功能更好實現(xiàn),推動檔案信息資源建設(shè)從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)型具有重要意義。

        檔案OCR工作現(xiàn)狀

        2013年以來,在國家檔案局大力實施“存量數(shù)字化、增量電子化”的戰(zhàn)略背景下,紙質(zhì)檔案數(shù)字化副本大量產(chǎn)生。全國各級檔案館(室)存量檔案數(shù)字化工作成效顯著,數(shù)字化比例大幅提高,很多檔案部門已完成全部館藏檔案的數(shù)字化工作。截至2019年年底,全國各級綜合檔案館館藏檔案數(shù)字化副本容量已達1407.8萬GB(吉字節(jié))。
        當(dāng)前,檔案OCR工作已全面啟動,相關(guān)標(biāo)準規(guī)范已適時出臺。部分地區(qū)檔案部門在完成紙質(zhì)檔案數(shù)字化工作的基礎(chǔ)上,紛紛開展了檔案OCR工作。也有一些檔案部門在開展檔案數(shù)字化工作的同時,同步開展了檔案OCR工作。為規(guī)范相關(guān)工作的開展,國家檔案局因勢利導(dǎo),于2019年12月發(fā)布《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》,規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件OCR工作的組織、實施和管理要求,確定了開展檔案OCR工作的總體原則、工作流程、質(zhì)量規(guī)定等?;诖?,檔案部門相關(guān)工作取得了大量成果,未來檔案OCR將融入更廣泛、更深層次的檔案工作中。

        傳統(tǒng)OCR的不足

        在人工智能技術(shù)廣泛應(yīng)用之前,文字的自動化識別是一項十分艱巨、亟需解決的問題。傳統(tǒng)OCR識別是以文字基本外形為基礎(chǔ),對文字字符之間的差別進行統(tǒng)計分析,再找到一組最優(yōu)的、可以代表文字之間差異的統(tǒng)計學(xué)參數(shù),從而實現(xiàn)對文字的篩選和識別。
        傳統(tǒng)OCR工作流程包括圖像導(dǎo)入、圖像預(yù)處理、版面分析、文字切割、文字識別等過程。多年來,人們對傳統(tǒng)OCR工作流程進行過大量優(yōu)化研究,但是受限于流程的復(fù)雜性和人工設(shè)計特征的表達能力等,傳統(tǒng)的文字檢測與識別方法對于較為復(fù)雜的圖像,例如帶有畸變以及模糊的圖像,最終的文字識別結(jié)果往往不盡如人意。傳統(tǒng)OCR對中文字符識別的不足,主要表現(xiàn)在以下4個方面。
        一是傳統(tǒng)OCR處理流程的工序太多,且多串行,導(dǎo)致錯誤不斷被傳遞放大。如,在OCR處理流程中,假如每一步都是90%的正確率,看似很高,但是經(jīng)過5步的錯誤疊加之后,結(jié)果就已經(jīng)不合格了。
        二是傳統(tǒng)OCR處理流程涉及較多人工設(shè)計,并不一定能夠抓住問題的本質(zhì)。例如,在文字的二值化這一預(yù)處理過程中,二值化的閾值在一些情況下很難調(diào)整好。由于這個模型的復(fù)雜度較低且無法充分擬合全部數(shù)據(jù),在實際處理過程中不得不過濾掉很多有用的信息。
        三是在一些背景稍微復(fù)雜或者存在變體文字的情況下,傳統(tǒng)OCR基本會失效,處理模型的適應(yīng)性較弱。版面分析以及行切分的方式只能處理相對簡單的場景,一旦面臨復(fù)雜排版等情況,就很難實現(xiàn)準確處理。
        四是對單字的識別,傳統(tǒng)OCR無法考慮到上下文的語義關(guān)聯(lián)。為了解決這個問題,傳統(tǒng)OCR進行了很多組合,如,對識別的結(jié)果進行動態(tài)路徑搜索。在路徑尋優(yōu)過程中,經(jīng)常需要結(jié)合文字的外觀特征以及語言模型進行處理,存在較多的耦合,導(dǎo)致在識別系統(tǒng)中堆砌了較多的算法。即便如此,傳統(tǒng)OCR也存在很多無法處理的問題,如,手寫字體等存在較多的筆畫粘連,傳統(tǒng)OCR很難進行切分。
        以上這些不足,造成傳統(tǒng)OCR的識別率相對較低,識別時間相對較長。

        基于人工智能技術(shù)的OCR

        近年來,隨著計算機視覺、自然語言理解、知識圖譜等人工智能技術(shù)在OCR中的實際使用,OCR的性能和效率都得到了很大提升。通過深度學(xué)習(xí)的自適應(yīng)學(xué)習(xí)驅(qū)動方式,能夠更好地應(yīng)對傳統(tǒng)OCR產(chǎn)生的一些問題,簡化參數(shù)預(yù)處理的流程,實現(xiàn)端到端的處理,提高OCR識別率。目前,基于人工智能技術(shù)的OCR在簡體印刷文字方面的識別率已達98%以上。
        人工智能OCR技術(shù)還能應(yīng)用于具有多樣性和復(fù)雜性的識別場景。如,不同大小、字體、顏色、亮度、對比度的文字,排列和對齊方式不相同的文字,圖像的非文字區(qū)域與文字區(qū)域存在相似的紋理,低對比度、模糊斷裂、殘缺文字等。因此,人工智能OCR不僅能應(yīng)用于文檔的識別,還可應(yīng)用于自然場景文字圖像的識別。此外,人工智能OCR還能提高工作效率、節(jié)省大量成本。
        基于此,將人工智能OCR應(yīng)用在檔案工作中,具有重要的作用和意義,必將成為支撐檔案行業(yè)數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新的重要基礎(chǔ)。
        人工智能OCR工作流程主要包括圖像輸入、文本檢測、文本識別、人工確認、人工干預(yù)等。
        首先,將需要識別的紙質(zhì)檔案數(shù)字化副本圖像單個或批量導(dǎo)入OCR系統(tǒng)中。
        其次,進行文本檢測。文本檢測主要是定位文字在數(shù)字圖像中的位置,并進行位置標(biāo)注。文本檢測的方法主要有基于候選框的文本檢測、基于語義分割的文本檢測,以及基于兩種方法的混合方法等?;诤蜻x框的文本檢測是先預(yù)生成若干候選框,之后再回歸坐標(biāo)和分類,最后經(jīng)過NMS(非極大抑制)算法得到最終的檢測結(jié)果;基于語義分割的文本檢測是通過FPN(特征金字塔網(wǎng)絡(luò))直接進行像素級別的語義分割,并處理得到相關(guān)的坐標(biāo)。
        再次,進行文本識別。文本識別主要是針對定位好的文字區(qū)域,識別文本的具體內(nèi)容,并將圖像中的一串文字轉(zhuǎn)換為對應(yīng)的字符。文本識別的算法可分為基于CTC(連接時序分類)技術(shù)的方法和基于注意力機制的網(wǎng)絡(luò)模型兩大類。其中,基于CTC技術(shù)的方法可以有效地捕獲輸入序列的下文依賴關(guān)系,同時能夠很好地解決圖像和文本字符對不齊的問題,但在自由度較大的手寫場景下會出現(xiàn)識別錯誤?;谧⒁饬C制的網(wǎng)絡(luò)模型主要應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)特征權(quán)重的分配上,并提高強特征的權(quán)重、降低弱特征的權(quán)重,在由圖像到文字的解碼過程中有天然的語義捕獲能力。
        然后,進行人工確認。對OCR識別后的結(jié)果進行確認,判斷是否出錯。在人工確認過程中,可以采用后期批量處理等靈活性較強的方式。
        最后,進行人工干預(yù),修正OCR識別結(jié)果中可能存在的錯誤。
        人工智能OCR可采用獨立式或嵌入式等方式應(yīng)用在檔案數(shù)字化系統(tǒng)中。獨立式是作為獨立軟件使用,或者通過應(yīng)用程序接口(API)進行數(shù)據(jù)交互,不依賴于檔案數(shù)字化系統(tǒng)。嵌入式是將OCR模塊嵌入檔案數(shù)字化系統(tǒng),作為其功能的一部分,需要在設(shè)計開發(fā)檔案管理系統(tǒng)時進行統(tǒng)一規(guī)劃,或?qū)σ延械南到y(tǒng)進行改造。
        目前,人工智能OCR已被引入多個行業(yè)領(lǐng)域,但在檔案行業(yè)應(yīng)用中仍存在難點和不足,主要體現(xiàn)在兩個方面。
        一是檔案文字存在多樣性。檔案類型多種多樣,文字內(nèi)容包羅萬象,存在不同語言、字體、大小、顏色、亮度、排列和對齊方式,以及圖像內(nèi)容對比度低、模糊斷裂、殘缺等問題,甚至存在出現(xiàn)識別難度更大的不同時期手寫體、繁簡體等各種情況。這些問題或情況給檔案OCR工作帶來了各種挑戰(zhàn),人工智能OCR也無法解決所有的問題,這就需要工作人員結(jié)合實際情況,尋找基于特定技術(shù)條件的最優(yōu)工作解決方案。
        二是技術(shù)瓶頸。近年來,雖然人工智能OCR使機器識別文字的性能和效率得到了顯著提升,但是,機器識別文字的能力和水平與工作人員理解圖像中文字的能力和水平相比,依然存在較大差距??傮w來看,仍需繼續(xù)不斷提升OCR的魯棒性、效率性和智能化水平,才能更好地將其應(yīng)用在難度更大、情況更復(fù)雜的檔案工作中。

        編輯:SAN

         End 


        聲明:部分內(nèi)容來源于網(wǎng)絡(luò),僅供讀者學(xué)術(shù)交流之目的。文章版權(quán)歸原作者所有。如有不妥,請聯(lián)系刪除。


        點「在看」的人都變好看了哦!
        瀏覽 66
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            久久93 | 日韩特黄特色大片免费视频 | 国产亚洲免费视频在线观看 | 天天日天天弄 | 特级西西4444wwww人体视频 | 粉嫩小泬p国产粉嫩馒头 | 高清无码视频网址 | 国产一区91精品张津瑜 | 亚洲无码电影在线观看 | 色婷婷色|