3-4K Stars!爲 RAG 而生的數據工程神器!OmniParse
**大模型 RAG 的難題是什麼? **
RAG 或者 Fine-tuning 微調作爲大模型的增強技術,最核心的技術在於如何把企業的私有數據清洗轉換成知識,企業中能夠第一時間拿到的私有數據,往往是異構的、數據質量參差不齊,通過數據工程把數據變成知識就不是一件很容易的事兒。
OmniParse 正是爲此而生的利器!它將任何非結構化數據轉換爲結構化知識。
Github 地址:https://github.com/adithya-s-k/omniparse
**OmniParse 有哪些核心功能? **
OmniParse 是一個平臺,能夠將任何非結構化數據攝取並解析爲結構化、可操作的數據,這些數據已針對 GenAI(大型語言模型)應用程序進行了優化。無論您正在處理文檔、表格、圖像、視頻、音頻文件還是網頁,OmniParse 都會使您的數據變得乾淨、結構化,併爲諸如 RAG、微調 等 AI 大模型應用程序做好準備。
OmniParse 平臺核心特性如下所示:
✅ 完全本地化,無需外部 API
✅ 適配 T4 GPU
✅ 支持約 20 種文件類型
✅ 將文檔、多媒體和網頁轉換爲高質量的結構化 Markdown
✅ 表格提取、圖像提取 / 加標註、音頻 / 視頻轉錄、網頁爬蟲
✅ 易於使用 Docke r 和 Skypilot 進行部署
✅ Colab 友好
✅ 由 Gradio 驅動的交互式用戶界面
OmniParse 目前支持以下的數據類型,主流的數據格式都提供了良好的支持。
**OmniParse 如何安裝和使用? **
OmniParse 平臺支持以下 2 種安裝方式:
第一、通過源碼直接安裝
目前 OmniParse 源碼安裝僅適用於基於 Linux 的系統。這是由於某些依賴項和系統特定配置與 Windows 或 macOS 不兼容。
git clone <https://github.com/adithya-s-k/omniparse>
cd omniparse
創建虛擬環境
conda create --n omniparse-venv python=3.10
conda activate omniparse-venv
安裝依賴項
poetry install
# or
pip install -e .
# or
pip install -r pyproject.toml
第二、通過 Docker 安裝
也可以通過 Docker 來使用 OmniParse
docker build -t omniparse .
# if you are running on a gpu
docker run --gpus all -p 8000:8000 omniparse
# else
docker run -p 8000:8000 omniparse
第三、運行服務
#運行服務器:
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
#--documents:加載所有幫助您解析和提取文檔的模型(Surya OCR 系列模型和 Florence-2)。
#--media:加載 Whisper 模型來轉錄音頻和視頻文件。
#--web:設置 selenium 爬蟲。
啓動後會提供一個 API 服務,展示內容參考以下:
第四、執行案例
第一、以下是執行文檔解析的例子,可以解析 PDF、PowerPoint 或 Word 文檔。
#Curl 命令:
curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>
第二、解析圖像文件(PNG、JPEG、JPG、TIFF、WEBP)。
#Curl 命令:
curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>
**總結 **
OmniParse 旨在構建一個全面的數據攝取與解析平臺,該平臺能夠處理包括文檔、圖像、音頻、視頻及 Web 內容在內的各類數據,並輸出高度結構化、易於操作且專爲 GenAI(大型語言模型)優化的數據。當前,該項目的核心理念展現出良好的實用性,儘管在實際應用中仍面臨一些待完善的方面。例如,它在處理英語數據方面表現出色,但面對中文等語言時可能會遇到挑戰;同時,對於 PDF 文件中的公式轉換爲 LaTeX 格式,也存在一定的難度。當然相信隨着開源社區持續的更新,這些問題都會逐步解決。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/FLh4amkqauZTN_AKKNjcBA