-
OCR引擎
鎖定
- 中文名
- OCR引擎
- 所屬學科
- 計算機
OCR引擎產品介紹
OCR引擎
[1]
國內最好的OCR引擎公司有:鋭圖信息、北京文通、北京漢王、廈門雲脈、上海合合。
OCR引擎組成
OCR引擎核心技術模塊主要是由下面幾個部分組成:
圖像輸入:讀取不同圖像格式文件的算法。
圖像預處理:主要包括圖像二值化,噪聲去除,傾斜較正等算法
版面分析:將文檔圖片分段落,分行的算法就叫版面分析算法
字符切割:字符切割算法主要處理因字符粘連、斷筆造成字符難以簡單切割的問題。
字符特徵提取:對字符圖像提取多維的特徵用於後面的特徵匹配模式識別算法。
字符識別:將當前字符提取的特徵向量與特徵模板庫進行模板粗分類和模板細匹配,識別出字符的算法。
版面恢復:識別原文檔的排版,按原排版格式將識別結果輸出到word或pdf等格式文檔,叫做版面恢復算法。
後處理校正: 根據特定的語言上下文的關係,對識別結果進行較正的算法。
- 參考資料
-
- 1. OCR SDK(文字識別引擎) .廈門雲脈技術[引用日期2013-08-08]