詳細解釋
Optical Character Recognition(光學字符識別),從圖像中提取文字的技術,從掃描文檔到照片,轉為可編輯文本。
技術演進:
- 傳統:模板匹配、特徵提取(Tesseract)
- 深度學習:CNN + RNN + CTC(CRNN)
- 現代:Transformer-based(TrOCR、PaddleOCR)
- 端到端:直接圖片 → 文字,無需字符分割
處理流程:
- 預處理:去噪、二值化、傾斜校正
- 版面分析:文字區域定位
- 文字識別:單個字符或整行識別
- 後處理:語言模型糾正、格式還原
挑戰場景:
- 手寫:個人字體差異大
- 低質量:模糊、陰影、褶皺
- 多語言:中文、阿拉伯文、印度文
- 複雜版面:表格、多欄、圖文混排
- 字體:藝術字、古文字、生僻字
現代應用:
- 文檔數字化:紙質檔案轉電子
- 名片識別:自動錄入聯繫人
- 發票處理:財務自動化
- 車牌識別:交通管理
- 古籍數字化:歷史文獻保護
商業產品:
- ABBYY FineReader:老牌 OCR 軟體
- Google Vision API:雲端 OCR
- Azure AI Vision:微軟解決方案
- Tesseract:開源免費
- PaddleOCR:百度開源,中文優化
與多模態 LLM 的關係:
- GPT-4V、Claude 3 可直接讀圖片文字
- 通用性強但精度不如專用 OCR
- 趨勢:專用 OCR 精細處理,LLM 理解語義
這是「紙質世界數字化」的基礎技術—— 從 1950 年代至今仍在進化。