Facebook 開源視覺、語言多任務深度學習框架——Pythia

雷鋒網 AI 科技評論按：Facebook 人工智能研究院最近推出 Pythia ——一個深度學習框架，支持視覺和語言領域的多任務處理。其模塊化的即插即用設計能夠幫助使用者快速構建、複製和基準人工智能模型。

【圖片來源：GitHub 所有者：Facebook 】

Pythia 是什麼？

Pythia 是一個視覺和語言多模式研究的模塊化深度學習框架，它建立在 PyTorch 之上，具有以下特點：

Model Zoo：最先進的視覺和語言模型的參考實現，這些模型包括 LoRRA（SoQ on VQA 和 TextVQA）、Pythia 模型（VQA 2018 挑戰獲勝者）和 BAN 多任務：支持多任務，允許同時訓練多個數據集數據集：包括對內置的各種數據集的支持，如 VQA、VizWiz，TextVQA 、VisualDialog 等模塊：爲視覺和語言領域中的各種常用圖層提供實現方式分佈式：支持基於 DataParallel 和 DistributedDataParallel 的分佈式訓練 Unopinionated：對基於它構建的數據集和模型實現不受任何影響的功能定製化：包括自定義損失、指標、調度、優化器、張量板等 Pythia 能做什麼？

即插即用的模塊化設計，能夠使研究人員快速構建、複製並基準 AI 模型。你可以使用 Pythia 爲您的下一個視覺和語言多模式研究項目提供引導程序，也可以用作視覺和語言數據集挑戰賽的入門代碼庫（TextVQA 挑戰，VQA 挑戰）；還可以用它來回答與視覺數據相關的問題和自動生成圖像註釋。

Pythia 加入了近期的 AI 比賽（VQA Challenge 2018 和 Vizwiz Challenge 2018）中獲獎作品的元素。功能包括通過參考實現來展示之前的模型如何完成相關基準測試結果，以及迅速評估新模型性能。除了多任務處理，Pythia 還支持分佈式訓練和各種數據集，以及自定義損失、指標、調度和優化器。

Pythia 的意義？

Pythia 使得進入視覺和語言子領域的過程變得更簡單，也使研究人員能夠專注於更快的原型設計和實驗。通過提高這些模型和結果的可重複性來加速研究進程，將使得社區更容易成功構建系統並進行基準測試。

通過消除這些障礙，研究人員能更快地爲人們和智能機器開發新的交流方式。同時，這項工作還將幫助研究人員開發自適應人工智能，使得多種理解更好融合到多情境的多模理解中。除了這個開源版本，Facebook 還計劃繼續添加工具、任務、數據集和參考模型。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/KfLFS0aIZ6b9sX-GpZ3OiQ

猜你喜歡