百度開源項目PaddleOCR!火了!
一、導讀
OCR 方向的工程師,一定需要知道這個 OCR 開源項目:PaddleOCR
短短半年時間,累計 Star 數量已超過 11.5K,
頻頻登上 Github Trending 和 Paperswithcode 日榜月榜第一,
在《Github 2020 數字洞察報告》中被評爲中國 Github Top20 活躍項目。
稱它爲 OCR 方向目前最火的 repo 絕對不爲過。
最近,它又帶來兩項全新發布:
-
AAAI 2021 頂會論文開源:PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network 提出了一種簡單且有效的任意方向端到端文本識別模型,在精度可比的基礎上,與之前大火的 ABCNet 相比,預測速度快了三倍,達到 SOTA 效果。
-
多語言支持種類提升至 80 + 種:基本覆蓋國際主流語言種類,在開源測試集 MLT2017 評估,中文、韓文、日文、拉丁語系、阿拉伯語系,識別效果均顯著優於 EasyOCR,開源 SOTA 效果。
二、PaddleOCR 歷史表現回顧
先看下 PaddleOCR 自去年 6 月開源以來,短短几個月在 GitHub 上的表現:
-
2020 年 6 月,8.6M 超輕量模型發佈,GitHub Trending 全球趨勢榜日榜第一。
-
2020 年 8 月,開源 CVPR2020 頂會算法,再上 GitHub 趨勢榜單!
-
2020 年 10 月,發佈 PP-OCR 算法,開源 3.5M 超超輕量模型,再下 Paperswithcode 趨勢榜第一
-
2021 年 1 月,發佈 Style-Text 文本合成算法,PPOCRLabel 數據標註工具,star 數量突破 10000+,截至目前已經達到 11.5k,在《Github 2020 數字洞察報告》中被評爲中國 Github Top20 活躍項目。
這個含金量,廣大的 GitHub 開發者們自然懂 -
超輕量模型的效果:火車票、表格、金屬銘牌、翻轉圖片、外語都是妥妥的,
-
動靜統一的開發體驗
動態圖和靜態圖是深度學習框架常用的兩種模式。在動態圖模式下,代碼編寫運行方式符合 Python 程序員的習慣,易於調試,但在性能方面, Python 執行開銷較大,與 C++ 有一定差距。
相比動態圖,靜態圖在部署方面更具有性能的優勢。靜態圖程序在編譯執行時,預先搭建好的神經網絡可以脫離 Python 依賴,在 C++ 端被重新解析執行,而且擁有整體網絡結構也能進行一些網絡結構的優化。
飛槳動態圖中新增了動態圖轉靜態圖的功能,支持用戶使用動態圖編寫組網代碼。預測部署時,飛槳會對用戶代碼進行分析,自動轉換爲靜態圖網絡結構,兼顧了動態圖易用性和靜態圖部署性能兩方面優勢。
-
文本合成工具 Style-Text 效果:相比於傳統的數據合成算法,Style-Text 可以實現特殊背景下的圖片風格遷移,只需要少許目標場景圖像,就可以合成大量數據,效果展示如下:
-
半自動標註工具 PPOCRLabel:通過內置高質量的 PPOCR 中英文超輕量預訓練模型,可以實現 OCR 數據的高效標註。CPU 機器運行也是完全沒問題的。效果演示如下:
用法也是非常的簡單,標註效率提升 60%-80% 是妥妥的。 傳送門:
Github:https://github.com/PaddlePaddle/PaddleOCR
那麼最近的 2021 年 4 月份更新,又給大家帶來哪些驚喜呢?
三、AAAI 2021 頂會論文:端到端 SOTA 算法 PGNet 開源:
直接先看指標評測表現:PGNet 算法在 ICDAR2015 數據集上的檢測及端到端性能表現,在精度接近的條件下,速度上與之前大火的 ABCNet 相比翻了三倍,達到了 SOTA 的效果。
詳細數據指標:
PGNet 提出的方法框架如下圖所示,輸入的圖象經過 Backbone 網絡得到 1/4 下采樣特徵圖,通過多任務學習,同時迴歸四個任務的內容,包括文本邊緣偏移量預測(TBO),文本中心線預測(TCL),文本方向偏移量預測(TDO)以及文本字符分類圖預測(TCC)。其中文本行的檢測結果由 TBO 以及 TCL 經過後處理得到,文本行的識別結果由 TCL,TDO 以及 TCC 的輸出得到。
圖 2 網絡流程框架
在 ICDAR2015 以及 Total-Text 數據集上可以看一下模型效果:
圖 3 Total-Text 及 ICDAR2015 數據集可視化效果圖
PGNet 論文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf
【基於頂尖算法,開放拿來即用的成熟印章識別能力】同時,基於 PGNet 研發的印章識別能力已經在百度 AI 開放平臺開放,可以有效檢測並識別合同文件或常用票據中的印章,輸出文字內容、印章位置信息以及相關置信度,已支持圓形章、橢圓形章、方形章等常見印章。提供標準化 API 接口,快速集成,同時支持私有化部署至本地,保障業務數據私密性。
注:此處非模型直接開源,但可以申請免費試用。
四、豐富的多語言種類支持,目前已經支持全球 80+ 語言模型
簡單對比一下目前主流 OCR 方向開源 repo 的核心能力:
中英文模型性能及功能對比
其中,部分多語言模型性能及功能(F1-Score)對比(僅 EasyOCR 提供)
值得一提的是,目前已經有全球開發者通過 PR 或者 issue 的方式爲 PaddleOCR 提供多語言的字典和語料,在 PaddleOCR 上已經完成了全球 80+ 主流語言的廣泛覆蓋:包括中文簡體、中文繁體、英文、法文、德文、韓文、日文、意大利文、西班牙文、葡萄牙文、俄羅斯文、阿拉伯文、印地文、維吾爾文、波斯文、烏爾都文、塞爾維亞文(latin)、歐西坦文、馬拉地文、尼泊爾文、塞爾維亞文、保加利亞文、烏克蘭文、白俄羅斯文、泰盧固文、卡納達文、泰米爾文,也歡迎更多開發者可以參與共建。
五、良心出品的中英文文檔教程
官網地址:https://www.paddlepaddle.org.cn
PaddleOCR 項目地址:
GitHub: https://github.com/PaddlePaddle/PaddleOCR
Gitee: https://gitee.com/paddlepaddle/PaddleOCR
PGNet 論文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf
印章識別開發能力:https://ai.baidu.com/tech/ocr/seal
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/UjtxpH3XF4q3drUJDKnX-w