教 ChatGPT 學會看圖的方法來了

羿閣 發自 凹非寺

量子位 | 公衆號 QbitAI

2022 年流行 “文生圖” 模型,那 2023 年流行什麼?

機器學習工程師 Daniel Bourke 的答案是:反過來!

這不,一個最新發布的 “圖生文” 模型在網上爆火,其優秀的效果引發衆多網友紛紛轉發、點贊。

不僅是基礎的 “看圖說話” 功能,寫情詩講解劇情給圖片中對象設計對話等等,這個 AI 都拿捏得穩穩的!

比如,當你在網上刷到誘人的美食時,只需把圖片發給它,它就會立馬識別出需要的食材做菜步驟

甚至圖片中的一些列文虎克的細節也能 “看” 得清清楚楚。

當被問到如何才能從圖片中倒着的房子裏離開,AI 的回答是:側面不是有滑梯嘛!

這隻新 AI 名爲 BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代碼已開源。

最重要的是,和以前的研究不同,BLIP-2 使用的是一種通用的預訓練框架,因此可以任意對接自己的語言模型

有網友已經在暢想把接口換成 ChatGPT 後的強強組合了。

作者之一 Steven Hoi 更是放話:BLIP-2 未來就是 “多模態版 ChatGPT”。

那麼,BLIP-2 神奇的地方還有哪些?一起往下看。

理解能力一流

BLIP-2 的玩法可以說非常多樣了。

只需提供一張圖片,你就可以與它對話,讓它看圖講故事、推理、生成個性化文本等各種要求都能滿足。

舉個例子,BLIP-2 不僅能輕鬆識別圖片中的景點是長城,還能介紹出長城的歷史:

中國的長城是公元前 221 年秦始皇爲了保護帝都不受北方侵略而建造的。

給它一張電影劇照,BLIP-2 不光知道出自哪,還知道故事的結局是 be:泰坦尼克號沉沒,男主淹死。

在對人類神態的拿捏上,BLIP-2 同樣把握得非常準確。

被問到這張圖片中的男人是什麼表情,他爲什麼這樣時,BLIP-2 的回答是:他害怕那隻雞,因爲它正朝他飛來。

更神奇的是,在許多開放性問題上,BLIP-2 的表現也很出色。

讓它根據下面的圖片寫一句浪漫的話:

它的回答是這樣的:愛情就像日落,很難預見它的到來,但當它發生時,它是如此的美麗。

這不光理解能力滿分,文學造詣也相當強啊!

讓它給圖片中的兩隻動物生成一段對話,BLIP-2 也能輕鬆拿捏傲嬌貓貓 x 蠢萌狗狗的設定:

貓: 嘿,狗狗,我能騎在你背上嗎?

狗: 當然,爲什麼不呢?

貓: 我已經厭倦了在雪地裏行走。

那麼,如此強大的理解能力背後,BLIP-2 究竟是怎麼做到的?

多項視覺語言任務上實現新 SOTA

考慮到大規模模型的端到端訓練成本越來越高,BLIP-2 使用的是一種通用且高效的預訓練策略:

從現成的凍結預訓練圖像編碼器和凍結的大型語言模型中引導視覺語言預訓練。

這也意味着,每個人都可以選擇自己想用的模型接入使用。

而爲了彌補了模態之間的差距,研究者提出了一個輕量級的查詢 Transformer。

該 Transformer 分兩個階段進行預訓練:

第一階段從凍結圖像編碼器引導視覺語言表示學習,第二階段將視覺從凍結的語言模型引導到語言生成學習。

爲了測試 BLIP-2 的性能,研究人員分別從零樣本圖像 - 文本生成、視覺問答、圖像 - 文本檢索、圖像字幕任務上對其進行了評估。

最終結果顯示,BLIP-2 在多項視覺語言任務上都實現了 SOTA。

其中,BLIP-2 在 zero-shot VQAv2 上比 Flamingo 80B 高 8.7%,且訓練參數還減少了 54 倍。

而且顯而易見的是,更強的圖像編碼器或更強的語言模型都會產生更好的性能。

值得一提的是,研究者在論文最後也提到,BLIP-2 還存在一個不足,那就是缺乏上下文學習能力:

每個樣本只包含一個圖像 - 文本對,目前還無法學習單個序列中多個圖像 - 文本對之間的相關性。

研究團隊

BLIP-2 的研究團隊來自 Salesforce Research。

第一作者爲 Junnan Li,他也是一年前推出的 BLIP 的一作。

目前是 Salesforce 亞洲研究院高級研究科學家。本科畢業於香港大學,博士畢業於新加坡國立大學。

研究領域很廣泛,包括自我監督學習、半監督學習、弱監督學習、視覺 - 語言。

以下是 BLIP-2 的論文鏈接和 GitHub 鏈接,感興趣的小夥伴們可以自取~

論文鏈接:
https://arxiv.org/pdf/2301.12597.pdf

GitHub 鏈接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2

參考鏈接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/uysJMr8rNv_mlrOfRAHt4Q