光學字元辨識 (OCR)

OCR (Optical Character Recognition)

從影像中辨識與擷取文字的技術

詳細解釋

Optical Character Recognition(光學字符識別),從圖像中提取文字的技術,從掃描文檔到照片,轉為可編輯文本。

技術演進:

  • 傳統:模板匹配、特徵提取(Tesseract)
  • 深度學習:CNN + RNN + CTC(CRNN)
  • 現代:Transformer-based(TrOCR、PaddleOCR)
  • 端到端:直接圖片 → 文字,無需字符分割

處理流程:

  • 預處理:去噪、二值化、傾斜校正
  • 版面分析:文字區域定位
  • 文字識別:單個字符或整行識別
  • 後處理:語言模型糾正、格式還原

挑戰場景:

  • 手寫:個人字體差異大
  • 低質量:模糊、陰影、褶皺
  • 多語言:中文、阿拉伯文、印度文
  • 複雜版面:表格、多欄、圖文混排
  • 字體:藝術字、古文字、生僻字

現代應用:

  • 文檔數字化:紙質檔案轉電子
  • 名片識別:自動錄入聯繫人
  • 發票處理:財務自動化
  • 車牌識別:交通管理
  • 古籍數字化:歷史文獻保護

商業產品:

  • ABBYY FineReader:老牌 OCR 軟體
  • Google Vision API:雲端 OCR
  • Azure AI Vision:微軟解決方案
  • Tesseract:開源免費
  • PaddleOCR:百度開源,中文優化

與多模態 LLM 的關係:

  • GPT-4V、Claude 3 可直接讀圖片文字
  • 通用性強但精度不如專用 OCR
  • 趨勢:專用 OCR 精細處理,LLM 理解語義

這是「紙質世界數字化」的基礎技術—— 從 1950 年代至今仍在進化。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識