RAG 高效應用指南：再談文檔智能解析

構建一個檢索增強生成 (Retrieval-Augmented Generation, RAG) 應用的 PoC（概念驗證，Proof of Concept）過程相對簡單，但要將其推廣到生產環境中則會面臨多方面的挑戰。這主要是因爲 RAG 系統涉及多個不同的組件，每個組件都需要精心設計和優化，以確保整體性能達到令人滿意的水平。

『RAG 高效應用指南』系列將就如何提高 RAG 系統性能進行深入探討，提供一系列具體的方法和建議。同時讀者也需要記住，提高 RAG 系統性能是一個持續的過程，需要不斷地評估、優化和迭代。

根據具體應用場景選擇合適的優化方法及其組合，是優化 RAG 系統的核心策略。

本文是『RAG 高效應用指南』系列的第 5 篇文章，本文將探討文檔智能解析及其實現。

在之前一篇文章 RAG 高效應用指南：01 中，筆者介紹了文檔解析和文本分塊等，不少讀者發來私信或者留言，想進一步瞭解 PDF 解析和表格內容識別等方面的優化方案。因此，這篇文章將進一步探討文檔智能解析，如果讀者還有其他想法或者建議，也歡迎私信或留言討論。

在這篇文章中，筆者將討論以下幾個問題：

• 什麼是文檔智能解析
• 文檔智能解析有哪些方法
• 文檔智能解析的開源實現

什麼是文檔智能解析

在企業數據管理中，文檔智能解析是一項關鍵技術。企業積累了大量非結構化數據，如 PDF、Word 文檔、PPT 和 Excel 表格等。這些數據中蘊含着豐富的信息，但如何從中提取出有價值的內容，成爲企業提高效率和決策的重要環節。

文檔智能解析是指利用各種技術方法，對文檔內容進行自動分析和理解的過程。這項技術能夠識別文檔中的文字、圖像、表格等元素，提取關鍵信息，進行語義理解，並根據需要進行分類、搜索、摘要或翻譯等操作。文檔智能解析可以應用於多種文檔類型，包括但不限於 PDF、Word、Excel、PPT 等格式。文檔智能解析的目標是將這些格式各異的文檔內容，轉化爲計算機可以理解和處理的結構化數據，從而幫助用戶快速獲取文檔中的有用信息，提高工作效率。

文檔智能解析通常包括但不限於以下關鍵功能：

1. 文本識別：從文檔中提取文字信息。
2. 圖像識別：識別文檔中的圖像內容，甚至進行 OCR（光學字符識別）以提取圖像中的文字。
3. 表格解析：識別和理解文檔中的表格數據。
4. 語義理解：理解文檔內容的上下文和含義。
5. 信息提取：從文檔中提取關鍵信息，如人名、地點、日期等。
6. 自動分類：根據文檔內容自動將其歸類到相應的類別。

文檔智能解析技術在教育、金融、法律、醫療等多個領域都有廣泛的應用。

文檔智能解析有哪些方法

文檔智能解析不僅僅是簡單的文本提取，它還涉及到自然語言處理（NLP）、計算機視覺（CV）等多領域技術的應用。例如，從一份 PDF 文檔中不僅提取文本，還需要識別表格、圖像，甚至是手寫文字。此外，解析的結果需要保持文檔的原始結構和語義，這對技術提出了更高的要求。

文檔智能解析的方法多種多樣，涵蓋了從傳統的規則方法到最新的端到端多模態技術。

傳統方法

在深度學習技術廣泛應用之前，文檔智能解析主要依賴於傳統的方法，包括基於規則的啓發式方法和統計機器學習算法。這些方法通常需要人工設計特徵，並通過統計模型來識別文檔中的關鍵信息。例如，早期的文檔分析技術主要依賴於規則和模板匹配來提取文本信息。儘管這些方法在某些簡單場景下有效，但它們往往難以處理複雜的文檔佈局和多樣化的文檔類型。

傳統的文檔智能解析包含但不限於以下流程：

1、規則和模板匹配：早期的文檔分析技術主要依賴於預定義的規則和模板匹配來提取文本信息。這些規則通常由專業人員手工編寫，針對特定類型的文檔進行優化。例如，處理發票、表單等結構化文檔時，通過識別固定位置的字段來提取信息。

2、圖像預處理：在進行文本識別之前，通常需要對圖像進行預處理。這包括去噪、二值化、傾斜校正等步驟，以提高後續 OCR（光學字符識別）過程的準確性。

3、特徵提取：基於規則的方法依賴於手工設計的特徵，如邊緣、角點、線條等。這些特徵用於識別文本區域和字符形狀，從而實現文本識別。

4、文本識別：傳統的 OCR 技術通過手工設計的特徵（如邊緣、角點等）來識別文本。這些方法在處理結構化文檔（如表格、表單）時效果較好，但在處理複雜版面或非結構化文檔時表現不佳。

深度學習方法

隨着深度學習技術的發展，文檔智能解析也逐漸利用深度學習技術對各種文檔進行自動提取、識別和理解關鍵信息。這一過程通常涉及多個步驟，包括版面分析、表格識別、文本分類以及信息提取等。

1、版面分析：版面分析主要用於將每個文檔頁面劃分爲不同的內容區域，並對其進行分類。常見的內容類別包括純文本、標題、表格、圖片和列表等。這一步驟可以基於目標檢測的方法來實現，例如 Soto Carlos 在 Faster R-CNN 算法的基礎上，結合上下文信息並利用文檔內容的固有位置信息來提高區域檢測性能。

2、表格識別：表格識別是將文檔中的表格信息從原始格式轉換爲結構化數據的關鍵步驟。這可以通過結合 OCR（光學字符識別）技術和深度學習模型來完成。例如，LayoutLMv3 是一種基於預訓練的多模態模型，能夠同時處理文本和圖像信息，從而提高表格識別的準確性。

3、光學字符識別（OCR）：利用深度學習模型識別圖像中的文字，將其轉換爲可編輯和可搜索的文本數據。常用的模型包括卷積神經網絡（CNN）和長短期記憶網絡（LSTM）等。

4、關鍵信息提取：從非結構化或半結構化文檔中自動識別和提取有價值的信息，如實體、關係、事件等。常用的方法包括基於 BERT 的預訓練語言模型和圖神經網絡等。

端到端多模態

近年來，隨着深度學習技術的不斷進步，尤其是多模態深度學習方法的提出，文檔智能解析領域迎來了新的發展機遇。這些模型能夠同時處理文本、圖像、音頻等多種數據類型，從而實現更全面和深入的文檔理解。例如，Transformer 模型通過自注意力機制有效地捕捉文檔中長距離依賴關係，顯著提高了文檔翻譯和理解的性能。

比如，

• OpenAI 的 GPT-4o 能夠分析用戶輸入的圖像，併爲有關圖像的問題提供文本回應，它結合了自然語言處理和視覺理解；
• 微軟的 LayoutLM 系列模型將視覺特徵、文本和佈局信息進行了聯合預訓練，在多種文檔理解任務上取得了顯著提升；
• 微軟的 Table Transformer 可以從非結構化文檔中提取表格；
• 基於 Transformer 的 Donut 模型無需 OCR 就可以進行文檔理解；
• 曠世科技發佈的 OneChart 模型可以對圖表（如折線圖、柱狀圖和餅圖等）信息進行結構化提取；
• 阿里開源了 OCR-free 的智能文檔理解項目 mPLUG-DocOwl；
• 面壁智能發佈了性能強大的 MiniCPM-Llama3-V 2.5 模型，接受圖像和文本輸入，並提供高質量的文本輸出；

多模態深度學習方法通過融合不同模態的信息，顯著提升了機器學習模型的性能和預測準確性。在實際應用中，從智能文檔分析到大模型的應用，多模態深度學習展現了廣泛的潛力和實際效果。未來的研究方向可能包括進一步優化模態融合方法、提升模型的泛化能力和減少計算資源消耗等。

拓展閱讀

• https://www.cnblogs.com/xfuture/p/18099126

• https://cloud.tencent.com/developer/article/2338352

• https://aclanthology.org/D19-1348.pdf

• https://arxiv.org/abs/2204.08387

• https://www.msra.cn/zh-cn/news/features/layoutlmv3

• https://github.com/X-PLUG/mPLUG-DocOwl

• https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

文檔智能解析的開源實現

筆者整理了目前文檔智能解析的一些開源項目，當然這只是其中一部分，相關的開源項目也越來越多。

限於篇幅，這裏我只介紹兩個綜合性的 Python 開源項目：PDF-Extract-Kit 和 OmniParse。其他的開源項目也不錯，相關的項目鏈接，我附在了拓展閱讀部分，大家可以查看官方文檔和使用例子。

PDF-Extract-Kit

概述

• 項目名稱：PDF-Extract-Kit
• 項目鏈接：https://github.com/opendatalab/PDF-Extract-Kit
• 項目描述：PDF-Extract-Kit 是一個用於高質量 PDF 內容提取的綜合工具包。該工具包將 PDF 內容提取任務分解爲多個組件，包括佈局檢測、公式檢測、公式識別和光學字符識別（OCR）。

組件

1. 佈局檢測：使用 LayoutLMv3 模型進行區域檢測，如圖像、表格、標題、文本等。
2. 公式檢測：使用 YOLOv8 檢測公式，包括行內公式和孤立公式。
3. 公式識別：使用 UniMERNet 進行公式識別。
4. 光學字符識別：使用 PaddleOCR 進行文本識別。

數據和模型

• 由於文檔類型的多樣性，現有的開源佈局和公式檢測模型在處理多樣化的 PDF 文檔時存在挑戰。
• 爲了實現對各種類型文檔的精確檢測效果，收集了多樣化的數據進行註釋和訓練。
• UniMERNet 方法在各種類型的公式識別方面與商業軟件的質量相媲美。
• PaddleOCR 在中英文文本識別方面表現良好。

輸出格式

• 輸出包括頁面元素的佈局細節和頁面信息，如頁面編號、高度和寬度。

結果可視化

• 通過註釋多種 PDF 文檔並訓練穩健的模型，實現了對學術論文、教科書、研究報告和財務報表等多種類型 PDF 文檔的準確提取，即使在掃描模糊或有水印的情況下也具有很高的魯棒性。

安裝指南

• 安裝後可能會遇到版本衝突導致版本變化。如果遇到版本相關問題，可以重新安裝特定版本的庫。
• 可能還會遇到無法調用 torch 的錯誤，需要先卸載相關庫，然後重新安裝 cuda12 和 cudnn。
• 需要從 Model Download 下載所需的模型權重。

OmniParse

概述

• 項目名稱：OmniParse
• 項目鏈接：https://github.com/adithya-s-k/omniparse
• 項目描述：OmniParse 可以將絕大部分非結構化數據攝取並解析爲結構化、可操作的數據，優化用於生成式人工智能（LLM）應用。無論你處理的是文檔、表格、圖像、視頻、音頻文件還是網頁，OmniParse 都會將您的數據準備得乾淨、結構化，併爲 AI 應用（如 RAG、微調等）做好準備。

特點

• 本地化：完全本地運行，無需外部 API。
• 硬件兼容性：適合在 T4 GPU 上運行。
• 文件類型支持：約支持 20 種文件類型。
• 功能：將文檔、多媒體和網頁轉換爲高質量的結構化 markdown；支持表格提取、圖像提取 / 字幕、音視頻轉錄、網頁爬取。
• 部署：支持使用 Docker 和 Skypilot 進行部署。
• 交互性：由 Gradio 提供的交互式用戶界面。

安裝與使用

• 系統要求：僅支持基於 Linux 的系統上運行。
• 服務器運行：通過不同的命令行參數加載處理文檔、媒體和網頁的模型。
• 模型下載：在啓動服務器前下載所需的模型。

支持的數據類型

• 文檔：支持 .doc, .docx, .pdf, .ppt, .pptx 等格式。
• 圖像：支持 .png, .jpg, .jpeg, .tiff, .bmp, .heic 等格式。
• 視頻：支持 .mp4, .mkv, .avi, .mov 等格式。
• 音頻：支持 .mp3, .wav, .aac 等格式。
• 網頁：支持動態網頁和靜態網址。

路線圖

• 集成 LlamaIndex、Langchain、Haystack。
• 批量數據處理。
• 動態分塊和基於指定模式的結構化數據提取。
• 單一 API 接口，簡化數據處理流程。
• 動態模型選擇和外部 API 支持。
• 批量處理，一次性處理多個文件。

拓展閱讀

• https://poi.apache.org/

• https://pdfbox.apache.org/

• https://tika.apache.org/

• https://github.com/alibaba/easyexcel

• https://unstructured.io/

• https://pymupdf.readthedocs.io/en/latest/

• https://github.com/PaddlePaddle/PaddleOCR

• https://github.com/VikParuchuri/surya

• https://github.com/jsvine/pdfplumber

• https://github.com/microsoft/table-transformer

• https://github.com/poloclub/unitable

• https://github.com/Filimoa/open-parse

• https://github.com/adithya-s-k/omniparse

• https://github.com/opendatalab/PDF-Extract-Kit

• https://github.com/CosmosShadow/gptpdf

總結

RAG 系統的前置工作之一是解析文檔內容，而文檔智能解析技術正是實現這一目標的關鍵。本文探討了文檔智能解析的概念、方法以及開源實現，幫助讀者更好地理解和應用這些技術。

文檔智能解析是一個多學科交叉的研究領域，涉及自然語言處理、計算機視覺、機器學習等多個領域。從傳統方法到經典機器學習方法，再到多模態深度學習方法，文檔智能解析技術不斷演進，爲自動化文檔處理和理解提供了強大的技術支持。未來，隨着計算能力的提升和算法的進一步優化，文檔智能解析技術將在更多領域發揮重要作用，推動數字化轉型和智能化升級。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/Ymj3aqnGxdR0_dJu2AZI4w