百度開源項目PaddleOCR！火了！

一、導讀

OCR 方向的工程師，一定需要知道這個 OCR 開源項目：PaddleOCR

短短半年時間，累計 Star 數量已超過 11.5K，

頻頻登上 Github Trending 和 Paperswithcode 日榜月榜第一，

在《Github 2020 數字洞察報告》中被評爲中國 Github Top20 活躍項目。

稱它爲 OCR 方向目前最火的 repo 絕對不爲過。

最近，它又帶來兩項全新發布：

AAAI 2021 頂會論文開源：PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network 提出了一種簡單且有效的任意方向端到端文本識別模型，在精度可比的基礎上，與之前大火的 ABCNet 相比，預測速度快了三倍，達到 SOTA 效果。
多語言支持種類提升至 80 + 種：基本覆蓋國際主流語言種類，在開源測試集 MLT2017 評估，中文、韓文、日文、拉丁語系、阿拉伯語系，識別效果均顯著優於 EasyOCR，開源 SOTA 效果。

二、PaddleOCR 歷史表現回顧

先看下 PaddleOCR 自去年 6 月開源以來，短短几個月在 GitHub 上的表現：

2020 年 6 月，8.6M 超輕量模型發佈，GitHub Trending 全球趨勢榜日榜第一。
2020 年 8 月，開源 CVPR2020 頂會算法，再上 GitHub 趨勢榜單！
2020 年 10 月，發佈 PP-OCR 算法，開源 3.5M 超超輕量模型，再下 Paperswithcode 趨勢榜第一
2021 年 1 月，發佈 Style-Text 文本合成算法，PPOCRLabel 數據標註工具，star 數量突破 10000+，截至目前已經達到 11.5k，在《Github 2020 數字洞察報告》中被評爲中國 Github Top20 活躍項目。
這個含金量，廣大的 GitHub 開發者們自然懂
超輕量模型的效果：火車票、表格、金屬銘牌、翻轉圖片、外語都是妥妥的，
動靜統一的開發體驗

動態圖和靜態圖是深度學習框架常用的兩種模式。在動態圖模式下，代碼編寫運行方式符合 Python 程序員的習慣，易於調試，但在性能方面， Python 執行開銷較大，與 C++ 有一定差距。

相比動態圖，靜態圖在部署方面更具有性能的優勢。靜態圖程序在編譯執行時，預先搭建好的神經網絡可以脫離 Python 依賴，在 C++ 端被重新解析執行，而且擁有整體網絡結構也能進行一些網絡結構的優化。

飛槳動態圖中新增了動態圖轉靜態圖的功能，支持用戶使用動態圖編寫組網代碼。預測部署時，飛槳會對用戶代碼進行分析，自動轉換爲靜態圖網絡結構，兼顧了動態圖易用性和靜態圖部署性能兩方面優勢。
文本合成工具 Style-Text 效果：相比於傳統的數據合成算法，Style-Text 可以實現特殊背景下的圖片風格遷移，只需要少許目標場景圖像，就可以合成大量數據，效果展示如下：
半自動標註工具 PPOCRLabel：通過內置高質量的 PPOCR 中英文超輕量預訓練模型，可以實現 OCR 數據的高效標註。CPU 機器運行也是完全沒問題的。效果演示如下：用法也是非常的簡單，標註效率提升 60%-80% 是妥妥的。

傳送門：

Github：https://github.com/PaddlePaddle/PaddleOCR

那麼最近的 2021 年 4 月份更新，又給大家帶來哪些驚喜呢？

三、AAAI 2021 頂會論文：端到端 SOTA 算法 PGNet 開源：

直接先看指標評測表現：PGNet 算法在 ICDAR2015 數據集上的檢測及端到端性能表現，在精度接近的條件下，速度上與之前大火的 ABCNet 相比翻了三倍，達到了 SOTA 的效果。

圖 1：PGNet 模型的速度與精度性能對比

詳細數據指標：

表 1：ICDAR2015 數據集上的檢測及端到端性能

PGNet 提出的方法框架如下圖所示，輸入的圖象經過 Backbone 網絡得到 1/4 下采樣特徵圖，通過多任務學習，同時迴歸四個任務的內容，包括文本邊緣偏移量預測（TBO），文本中心線預測（TCL），文本方向偏移量預測（TDO）以及文本字符分類圖預測（TCC）。其中文本行的檢測結果由 TBO 以及 TCL 經過後處理得到，文本行的識別結果由 TCL，TDO 以及 TCC 的輸出得到。

圖 2 網絡流程框架

在 ICDAR2015 以及 Total-Text 數據集上可以看一下模型效果：

圖 3 Total-Text 及 ICDAR2015 數據集可視化效果圖

PGNet 論文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

【基於頂尖算法，開放拿來即用的成熟印章識別能力】同時，基於 PGNet 研發的印章識別能力已經在百度 AI 開放平臺開放，可以有效檢測並識別合同文件或常用票據中的印章，輸出文字內容、印章位置信息以及相關置信度，已支持圓形章、橢圓形章、方形章等常見印章。提供標準化 API 接口，快速集成，同時支持私有化部署至本地，保障業務數據私密性。開放能力地址：https://ai.baidu.com/tech/ocr/seal

注：此處非模型直接開源，但可以申請免費試用。

四、豐富的多語言種類支持，目前已經支持全球 80+ 語言模型

簡單對比一下目前主流 OCR 方向開源 repo 的核心能力：

中英文模型性能及功能對比

其中，部分多語言模型性能及功能（F1-Score）對比（僅 EasyOCR 提供）模型效果
值得一提的是，目前已經有全球開發者通過 PR 或者 issue 的方式爲 PaddleOCR 提供多語言的字典和語料，在 PaddleOCR 上已經完成了全球 80+ 主流語言的廣泛覆蓋：包括中文簡體、中文繁體、英文、法文、德文、韓文、日文、意大利文、西班牙文、葡萄牙文、俄羅斯文、阿拉伯文、印地文、維吾爾文、波斯文、烏爾都文、塞爾維亞文（latin）、歐西坦文、馬拉地文、尼泊爾文、塞爾維亞文、保加利亞文、烏克蘭文、白俄羅斯文、泰盧固文、卡納達文、泰米爾文，也歡迎更多開發者可以參與共建。

五、良心出品的中英文文檔教程

別的不需要多說了，大家訪問 GitHub 點過 star 之後自己體驗吧：https://github.com/PaddlePaddle/PaddleOCR

官網地址：https://www.paddlepaddle.org.cn

PaddleOCR 項目地址：

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

PGNet 論文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

印章識別開發能力：https://ai.baidu.com/tech/ocr/seal

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/UjtxpH3XF4q3drUJDKnX-w

一、導讀

二、PaddleOCR 歷史表現回顧

三、AAAI 2021 頂會論文：端到端 SOTA 算法 PGNet 開源：

四、豐富的多語言種類支持，目前已經支持全球 80+ 語言模型

五、良心出品的中英文文檔教程

猜你喜歡