百度開源項目PaddleOCR!火了!

一、導讀

OCR 方向的工程師,一定需要知道這個 OCR 開源項目:PaddleOCR

短短半年時間,累計 Star 數量已超過 11.5K,

頻頻登上 Github Trending 和 Paperswithcode 日榜月榜第一,

在《Github 2020 數字洞察報告》中被評爲中國 Github Top20 活躍項目。

稱它爲 OCR 方向目前最火的 repo 絕對不爲過。

最近,它又帶來兩項全新發布:

二、PaddleOCR 歷史表現回顧

先看下 PaddleOCR 自去年 6 月開源以來,短短几個月在 GitHub 上的表現:

三、AAAI 2021 頂會論文:端到端 SOTA 算法 PGNet 開源:

直接先看指標評測表現:PGNet 算法在 ICDAR2015 數據集上的檢測及端到端性能表現,在精度接近的條件下,速度上與之前大火的 ABCNet 相比翻了三倍,達到了 SOTA 的效果。

圖 1:PGNet 模型的速度與精度性能對比

詳細數據指標:

表 1:ICDAR2015 數據集上的檢測及端到端性能

PGNet 提出的方法框架如下圖所示,輸入的圖象經過 Backbone 網絡得到 1/4 下采樣特徵圖,通過多任務學習,同時迴歸四個任務的內容,包括文本邊緣偏移量預測(TBO),文本中心線預測(TCL),文本方向偏移量預測(TDO)以及文本字符分類圖預測(TCC)。其中文本行的檢測結果由 TBO 以及 TCL 經過後處理得到,文本行的識別結果由 TCL,TDO 以及 TCC 的輸出得到。

圖 2 網絡流程框架

在 ICDAR2015 以及 Total-Text 數據集上可以看一下模型效果:

圖 3 Total-Text 及 ICDAR2015 數據集可視化效果圖

PGNet 論文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

【基於頂尖算法,開放拿來即用的成熟印章識別能力】同時,基於 PGNet 研發的印章識別能力已經在百度 AI 開放平臺開放,可以有效檢測並識別合同文件或常用票據中的印章,輸出文字內容、印章位置信息以及相關置信度,已支持圓形章、橢圓形章、方形章等常見印章。提供標準化 API 接口,快速集成,同時支持私有化部署至本地,保障業務數據私密性。開放能力地址:https://ai.baidu.com/tech/ocr/seal

注:此處非模型直接開源,但可以申請免費試用。

四、豐富的多語言種類支持,目前已經支持全球 80+ 語言模型

簡單對比一下目前主流 OCR 方向開源 repo 的核心能力:

中英文模型性能及功能對比

其中,部分多語言模型性能及功能(F1-Score)對比(僅 EasyOCR 提供)模型效果
值得一提的是,目前已經有全球開發者通過 PR 或者 issue 的方式爲 PaddleOCR 提供多語言的字典和語料,在 PaddleOCR 上已經完成了全球 80+ 主流語言的廣泛覆蓋:包括中文簡體、中文繁體、英文、法文、德文、韓文、日文、意大利文、西班牙文、葡萄牙文、俄羅斯文、阿拉伯文、印地文、維吾爾文、波斯文、烏爾都文、塞爾維亞文(latin)、歐西坦文、馬拉地文、尼泊爾文、塞爾維亞文、保加利亞文、烏克蘭文、白俄羅斯文、泰盧固文、卡納達文、泰米爾文,也歡迎更多開發者可以參與共建。

五、良心出品的中英文文檔教程

別的不需要多說了,大家訪問 GitHub 點過 star 之後自己體驗吧:https://github.com/PaddlePaddle/PaddleOCR

官網地址:https://www.paddlepaddle.org.cn

PaddleOCR 項目地址:

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

PGNet 論文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

印章識別開發能力:https://ai.baidu.com/tech/ocr/seal

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/UjtxpH3XF4q3drUJDKnX-w