複製鏈接
請複製以下鏈接發送給好友

文檔識別

鎖定
文檔識別主要應用於學習工作等一些關於文檔處理的辦公領域,可以快速高效利用OCR技術對文案文檔、證書、票據、病歷、説明書、簡歷、合同等各類紙質文檔進行識別,另外可以通過雲端技術將識別後的內容以及圖像上傳到服務器進行備份儲存,並具備方便的檢索功能,可以使用户簡單方便的找到備份的內容。
中文名
文檔識別
外文名
Document recognition
使用技術
OCR
定    義
用OCR技術將文本從圖片形式識別成計算機可讀的形式

文檔識別科學名詞定義

  • 中文名稱:文檔識別
  • 英文名稱:Document recognition
  • 定義:文檔識別是指用OCR技術將文本從圖片形式識別成計算機可讀的形式,比如doctxtexcel, PDF, html等輸出格式。

文檔識別原理

圖像輸入:讀取不同圖像格式文件的算法。
圖像預處理:主要包括圖像二值化,噪聲去除,傾斜較正等算法。
版面分析:將文檔圖片分段落,分行的算法就叫版面分析算法。
字符切割:字符切割算法主要處理因字符粘連、斷筆造成字符難以簡單切割的問題。
字符特徵提取:對字符圖像提取多維的特徵用於後面的特徵匹配模式識別算法。
字符識別:將當前字符提取的特徵向量與特徵模板庫進行模板粗分類和模板細匹配,識別出字符的算法。
版面恢復:識別原文檔的排版,按原排版格式將識別結果輸出到word或pdf等格式文檔,叫做版面恢復算法。
後處理校正: 根據特定的語言上下文的關係,對識別結果進行較正的算法。