ReaderLM-v2:HTML 轉換和解析

ReaderLM-v2

ReaderLM-v2 是 Jina AI 發佈的一個參數量爲 1.5B (15.4 億) 的小型語言模型,專用於將 HTML 轉爲 Markdown,也可轉爲 JSON 結構化數據。

官方介紹

https://jina.ai/news/readerlm-v2-frontier-small-language-model-for-html-to-markdown-and-json/

ReaderLM-v2 支持 29 種語言,可處理高達 512K  token 的輸入和輸出組合長度。

除了 markdown 轉換之外,還引入了 HTML 轉 JSON 生成功能,允許用戶根據給定的 JSON Schema 從原始 HTML 中提取特定信息。

官方給出了兩種測試方法

Reader API: 只需在請求頭中指定 x-engine: readerlm-v2 ,並通過 -H 'Accept: text/event-stream' 啓用響應流式傳輸。

curl https://r.jina.ai/https://news.ycombinator.com/ -H 'x-engine: readerlm-v2' -H 'Accept: text/event-stream'

Google Colab:

https://colab.research.google.com/drive/1FfPjZwkMSocOLsEYH45B3B4NxDryKLGI?usp=sharing

HTML to Json 測試

(Experimental) Extract information by instruction

通過輸入指令測試:提取推薦文章

通過輸入指令測試:提取文章詳情

Google 免費的 GPU 有一些限制,可能會影響結果,也會導致更高的內存使用和更慢的處理速度。

對於本地部署,可通過 Docker,具體參考:https://github.com/rbehzadan/readerlm-docker

官方建議:RTX 3090/4090

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/8mpkNTEEe9UTRlad6hJOuQ