詳細解釋
2022 年開源的文檔解析工具,專門將 PDF、Word、PPT、圖像等非結構化文檔轉換為 LLM 友好的結構化格式(Markdown、JSON)。
解決的問題:
- 企業 80% 數據是非結構化文檔,LLM 無法直接使用
- 傳統 OCR 僅提取文本,丟失表格結構、標題層次、圖像描述
- 版面分析困難:多欄、頁眉頁腳、註腳的干擾
功能特點:
- 混合文檔:同時處理文本、表格、圖像、代碼塊
- 版面還原:識別標題層級、列表、表格結構,輸出 Markdown
- 圖像理解:調用 CLIP 或 GPT-4V 為圖像生成描述
- 50+ 格式:PDF、DOCX、PPTX、HTML、EPUB、圖像等
架構:
- 分區策略:先識別文檔區域類型(標題、正文、表格、圖像)
- 模型驅動:使用計算機視覺模型(YOLO、Detectron2)做版面分析
- OCR 整合:支持 Tesseract、PaddleOCR、EasyOCR
- 並行處理:多頁並行解析,適合批量處理
與 LlamaParse、MinerU 等競品對比:
- Unstructured:開源、靈活、可自託管,但設置較複雜
- LlamaParse:閉源 API,與 LlamaIndex 生態整合好
- MinerU:清華開源,對中文和學術文檔優化
商業模式:
- 開源核心(Apache 2.0)
- Unstructured Platform:託管 API、企業級支持
在 RAG 流程中的作用:「文檔加載 → 解析 → 分塊 → 嵌入」中的關鍵一環,解析質量直接影響最終問答效果。