搞深度學習框架的那幫人,不是瘋子,就是騙子

原創:譚婧

世間有一種軟件,名叫 “深度學習框架”。

在人工智能的江湖,常聽人言:得框架者,得天下。

多年以前,一面畫着大 G 的大旗在高處飄揚,美國谷歌公司的深度學習框架佔據大半江山。萬萬沒有想到,一場大風暴來了。

2018 年,臉書公司 “同款” 對標產品把一款前輩產品吸納進來,聯劍並肩,威力大增。一年後,火力全開,專揀敵人的罅隙進攻。連衝數劍,殺開一個缺口,有守有攻,看看就可闖出。放眼學術圈,更是獨領風騷,頂級學術會議的勝利快報像雪片一樣飛來。

小心低頭,王冠易掉,谷歌框架的王者時代,結束了。

歷史總是弔詭,一些無名之處會發生極爲有名的戰役。戰事殘酷而隱祕,高深晦澀的技術彷彿咒語,牢牢擋住人們的視線。

美國白宮《2019 年國家人工智能研發戰略規劃》報告中,美國將中國視爲人工智能主要對手,進行了深刻觀察。

“中國人工智能發展勢頭很猛。” 這話猛一聽,真讓人高興。

後半句是個打擊:“中國人工智能缺點亦十分明顯,硬件、算法、人才…… 人工智能框架創新能力薄弱。”

“硬件” “人才”…… 這題我會,這題我會,“框架” 是個啥?

假如人工智能深度學習是太平洋上的一個島嶼,算法是島上茂盛的植被,框架和芯片則是地質結構,算法建在框架和芯片之上。

深度學習框架,頭頂兩個光環亮閃閃,第一個,基礎軟件。

幾乎所有的深度學習開發者,都要用深度學習框架。

幾乎所有的深度學習算法和應用,都是用其實現的。

作爲一種複雜基礎軟件,有這樣一條原則:極少數人 “造” 輪子,大部分人 “用” 輪子。

框架研發門檻高不可攀,本質上,這類產品是大型科技企業才 “配” 擁有的基礎設施,小門小戶造不起。

多說一句,打敗圍棋大師李世石的人工智能阿法狗(AlphaGo)聽過吧,框架也是其背後的底層技術。

谷歌科學家的凡爾賽是:“我們讓阿法狗更順暢”。

(一)上半場:美國科技大廠的豪門恩怨

簡單地說,深度學習框架 = 深度學習操作系統。

世間最流行的兩個深度學習框架,谷歌公司的 TensorFlow 和臉書公司的 PyTorch。

開發者壓力山大,

需要 “精通” 這兩個,

或至少 “熟練” 其中一個,

甚至,“輔修” 第三個框架,“選修” 第四個。

谷歌與臉書,作爲美國科技企業,其框架產品的流行度,像極了可口可樂和百事可樂。

快樂肥宅水統治世界,兵家必爭之地必屬梟雄。大型科技企業想盡一切辦法取得技術上的領先優勢,深度學習框架不會錯過,也無法繞過。

算法突破、數據爆發、算力增長的 “鐵人三項” 支撐了 AI 的浪潮,唯一能將 “鐵人” 整合的系統軟件,是深度學習框架。

它好比底座,對下,完成對底層硬件的調度;對上,支持模型搭建。

人工智能的一堆新玩(算)意(法):人臉識別、圖像分類、圖像檢測與分割、語音識別、廣告推薦、GAN、強化學習等等,被封裝在軟件框架裏。

封裝,不是封印。

孫悟空衝着框架大喊:“人工智能,叫你一聲,敢答應嗎?”

Siri(用機械女聲回答):穿豹紋超短裙的那位,你有事找我?

一般來說,只有超大型科技企業才能支撐 “操作系統” 的開發。

深度學習的 “操作系統” 萌芽於高等學府,但早期工業雛形出現在美國科技豪門,是大公司競爭的舞臺,也是全球計算機技術精英羣體,最精銳部隊的角逐。

使用全國通用感嘆詞:“臥槽,深度學習框架是硬科技。”

把全球 AI 頂級精英俱樂部的會員分成兩類:一類是原創 AI 算法的發明者, 一類是 AI 框架的發明者。

前一類是加錢閱讀的部分,後一類是本文的重點。

請大家記住這些名字,因爲這些 “精神小夥”,對深度學習框架的發展至關重要。

現任阿里巴巴技術副總裁賈揚清,浙江紹興人,從初中三年級開始接觸電腦,他一直覺得自己學編程挺晚的。

2002 年是他高考那一年,浙江省是高考界的領跑者,清華大學計算機系的分數線很高,他去了清華自動化系。

在科學界,瑞士是物理和數學領域的領跑者。也在 2002 年,瑞士戴爾莫爾感知人工智能(Idiap)研究所誕生了第一個機器學習庫 Torch。

歐洲最高山脈阿爾卑斯山的雪頂千年不化,山腳下的瑞士名城馬蒂尼(Martigny),既是登山愛好者的天堂,又是葡萄酒產區。

這是個做學術的好地方,自 1991 年以來,這裏的研究所就是全球人工智能和認知智能領域的領導者之一。

機器學習庫 Torch,出自 “葡萄酒產區” 研究所的一份研究報告(三位作者分別是:Ronan Collobert、Samy Bengio、Johnny Mariéthoz)。

其中一位作者姓本吉奧(Bengio),沒錯,這位眉毛粗粗的科學家,就是深度學習三巨頭之一,約舒亞 · 本吉奧(Yoshua Bengio)的兄弟。

2007 年他跳槽去了谷歌。

Torch 意爲火把,成爲框架曠野的第一顆火種。

“庫”(Library)是一系列事先編寫好的代碼集合,在編程中調用,可以減少重複工作。

加拿大蒙特利爾大學的深度學習框架的開發,始於 2007 年,Theano 是行業祖師爺。

框架和圖靈獎獲得者頗有淵源,約舒亞 · 本吉奧(Yoshua Bengio)和伊恩 · 古德費洛(Ian Goodfellow)都有參與 Theano。

庫和框架的不同之處,在於境界。

庫是兵器庫,框架則是一套武林絕學的世界觀,程序員在這個世界觀的約束下去練(編)拳(程)法(序),結果被框架所調用。框架接管了程序的主控制流。

反正,框架比庫厲害多了。

有了框架,才能做到只關注算法的原理和邏輯,不用去費事搞定底層系統、工程的事。生命短暫,都想走捷徑。話不能這麼說,都 996 了,生產隊裏的驢也得歇歇。

轉眼間,賈揚清已經在美國加州大學伯克利分校攻讀博士學位。也是在此期間,他開啓了計算機視覺的相關研究。

那時候,他常被一個問題困擾:怎樣訓練和設計深度學習的網絡?爲此,賈揚清想造一個通用工具。

著名的 Caffe 框架的發音和 “咖啡” 相似,是 “快速特徵提取的卷積框架” 論文的英文簡稱。巧合的是,這個框架像咖啡一樣流行。

這是賈揚清第一個 C++ 項目,多年以後,他在阿里巴巴回憶:“最開始的時候沒有測試,代碼糾錯(Debug)成了最痛苦的事。”

2013 年的 Caffe 框架是他的成名之作。在工業場景的計算機視覺系統上,Caffe 穩健快速,是無可爭議的王者。

這一年,Parameter Server(參數服務器)的兩位著名教授走向臺前,邢波(Eric Xing)教授和 Alex Smola 教授,現在兩位均在美國卡內基梅隆大學(CMU)任教。

參數服務器是個編程框架,也支持其他 AI 算法,對深度學習框架有重要影響。

高校實驗室善於技術創新,深度學習框架的很多精髓創意源於此地。但是,深度學習框架複雜性高、工程量極大,長期負責複雜產品,高校並不擅長。

事實也證明,多年後,高校出生的深度學習框架,都以某種方式 “進入” 企業,或者被企業趕超了。

嗅覺敏銳者,業已出發。

2015 年 11 月,TensorFlow 開源,由谷歌大腦團隊開發。谷歌的搜索、油管、廣告、地圖、街景和翻譯的背後,都有其身影。

谷歌開源 AI 產品備受矚目。若論起名的原因,TensorFlow 直譯,張量(tensor)在圖中流動(flow)。由此也可獲知,數據流圖是框架的重要技術。

再往細說,數據流圖由算子組成,算子又分爲大算子和小算子。Caffe 是大算子抽象,TensorFlow 是小算子抽象。小算子好處是靈活,壞處是性能優化難。

TensorFlow 原創者之一是谷歌天才科學家,傑夫 · 迪恩(Jeff Dean)。

爲什麼說他是天才?

讚美之詞就免了。在 2000 年下半年的時候,Jeff Dean 的代碼速度突然激增了 40 倍,原因是他把自己的鍵盤升級到了 USB 2.0。編譯器從來不會給 Jeff Dean 警告,但 Jeff Dean 會警告編譯器。

筆者承認,這確實是兩個段子,出處無考。

2015 年是一個重要的年份,何愷明等人的研究成果,突破了邊界,在準確率上再創新高,風頭一時無二。

谷歌 AI 研究員弗朗索瓦 · 喬萊特(Francois Chollet)幾乎是獨自完成了著名的 Keras 框架的開發,爲谷歌再添一條護城河,大有 “千秋萬代,一統江湖” 的勢頭。

這時候,喊一嗓子 “深度學習是下一個重大技術趨勢”,已經沒有壓倒性的反對意見了。

美國西雅圖素有 “阿拉斯加門戶” 之稱,微軟公司總部位於西雅圖衛星城,從那裏開車 13 個小時就能到達谷歌公司總部所在地山景城。在 AI 的跑道上,很多人在追趕谷歌,但是,微軟既沒有好車,也沒有彎道,壓力大了,方向盤也能捏碎。

按理說,背靠微軟的產品本應有個好前途,框架卻都沒有流行起來。

英文單詞 Minerva 的意思是 “智慧女神”,這是微軟亞研院一個孵化項目的名字,由當時的副院長張崢發起,項目組成員有紐約大學王敏捷和北京大學肖天駿。

現在張崢在亞馬遜上海 AI 研究院做院長。兩名大將也隨之前往,現在均是張院長麾下主力。

後來,就沒有後來了。開源(Github)給女神畫上了句號。

2016 年,從先後關係上講,CNTK(Cognitive Toolkit)伸手接過女神的接力棒,可惜魔障難消,用的人少,沒有推廣開,於 2019 年停止維護。

GitHub 上的悼詞是:“在這個版本之後,沒有新功能開發的計劃。”

這意味着,微軟已經放棄了 CNTK。

兩次前車之鑑,微軟仍沒有認輸的打算。

因爲深知框架的重要性,也因爲微軟的電腦裏,絕不會長期使用貼着別人家 logo 的 AI 工具。

2016 年,賈揚清從谷歌 TensorFlow 團隊離職,跳槽到了 Facebook 公司。與谷歌揮手道別,四載光陰(實習兩年,工作兩年),往事依稀,他的內心充滿感懷。

西雅圖作爲美國的超一線城市,華盛頓大學是城市招牌之一,華人武術宗師李小龍就畢業於此。“天才少年” 陳天奇也在這裏取得了計算機博士學位。

陳天奇在 AI 圈的名氣,不比李小龍在武術界低,且都是少年成名。

陳天奇讀博士的第二年,一個叫做 MXNet 的項目開始了,這是一個名牌大學聯合學術項目。

僅僅一年時間裏,就做出了完整的架構。團隊中還有一位聞名遐邇的大神,李沐(現任亞馬遜公司資深主任科學家,principal scientist)。

2016 年 5 月,MXNet 開源,濃縮了當時的精華,合併了幾個原來有的項目,陳天奇 cxxnet、參數服務器、智慧女神、顏水成學生林敏的 purine2。

所以,MXNet,讀作 “mixnet”,mix 是中文“混合” 之意。

可巧了,從華盛頓大學到亞馬遜公司全球總部不到 6 公里,開車只消 10 分鐘。總部大樓抱着兩個 “溫室大球” 坐落於市中心。可能是近水樓臺先得月,這次亞馬遜公司火眼金睛,行動迅速。2017 年 9 月,MXNe 被亞馬遜選爲官方開源平臺。

江山代有才人出,該退休時就退休。同一年,祖師爺 Theano 官宣退休。

這時候,賈揚清借鑑谷歌 TensorFlow 框架裏面的一些新思想,實現了一個全新的開源 Caffe2。三十而立的他,成長爲遍歷世界級產品的第一高手。

谷歌 TensorFlow 在人間瀟灑走一回。未曾想一場大風暴正在醞釀。

2018 年,PyTorch 接納 Caffe2 後,意外崛起,上演令谷歌框架王冠落地的戲劇性一幕。

易用性確實可以搶客戶,但谷歌沒有想到臉書搶了這麼多。

後來者確實可以居上,但谷歌沒有想到臉書僅用如此短的時間。

改旗易幟,有人譁然,有人唏噓。

谷歌出發最早,爲何沒有獨坐釣魚臺?爲什麼是臉書搶了市場?

谷歌野心非常大,初期想做很大很全的工具。雖然完備性很強,但是,系統過度複雜。雖然以底層操作爲主,有很多基礎的功能,但是這些功能沒能封裝得很好,需要開發者自己解決(定義),手動工作過多。

三個 AI 開發者湊在一起,花生配酒,吐槽谷歌 TensorFlow,十有八九。

甲有點激動,說:“實在太難用了,想罵髒話。”

乙表示贊同,說:“簡直就是一個縫合怪。”

“一座屎山,還要往屎上堆屎。” 丙說完,深埋頭,嘆口氣。

雖然 TensorFlow 可直接使用天下排名第一又易上手的 Python 語言來編寫程序,算子庫豐富,TPU 加速,但是,一些個性化規定瑣碎,新概念層出不窮,開發者要視其爲一種新的編程語言來學習。

再者,系統非常複雜,代碼又長又臭,難以維護。更糟的是,API 很不穩定,易變臉。API 好比電腦鍵盤,鍵盤上的字母位置天天變,誰受得了?你想要一個活着的祖宗嗎?

僅僅是丟市場還不夠慘,PyTorch 框架帶火了背後的技術(動態執行等),臉書開始左右技術趨勢。

谷歌仰天長嘯,潸然淚下,口中默唸:“萬萬沒有想到。”

命運像水車的輪子一樣旋轉,有時高,有時低,而亞馬遜公司的 MXNet 從來沒高過。

知乎上有兩篇非常火的高贊帖,可一窺其端倪。

李沐:《爲什麼強大的 MXNet 一直火不起來?》。

賈揚清:《如何看待亞馬遜 AI 李沐團隊大批人員離職?》。

談起亞馬遜和 MXNet 框架的緣分,就不得不提起一位美國卡內基梅隆大學的高人,Alex Smola 教授,他也是李沐在 CMU 的博士導師。

2016 年 7 月,Alex Smola 教授從 CMU 重返工業界,加入亞馬遜 AWS 擔任副總裁級別的科學家(職級爲 Distinguished Scientist)。大半年後,2017 年 3 月,李沐加入 AWS,直接向老師 Alex Smola 彙報。

師徒同框,雙手比 V。

此時,巨頭已整裝列位,兵馬齊發。

微軟豈能袖手旁觀,微軟在智慧女神和 CNTK 兩次滑鐵盧之後,依然鬥志昂揚準備第三次入局。

這次,微軟思路清奇地設計了 ONNX(全稱 Open Neural Network Exchange),一種開放式深度學習神經網絡模型的格式,用於統一模型格式標準。

ONNX 是臉書和微軟合作力推的,賈揚清也是發起者之一,目標劍指 “標準和生態”。

說白了,一個 PyTorch 模型可以被導出 ONNX 文件格式的模型。

不止於此,隨後,微軟基於 ONNX 這個橋樑研發了一個推理用的 ONNX Runtime 框架,低調地在 2018 年最後一個月開源。

想做 “標準”,得大傢伙都同意。

ONNX 沒成爲標準,若論原因,可能是 ONNX 還做得不夠好吧。

ONNX Runtime 框架的 “新功能” 暴露了巨頭之間的動態競爭關係。

這一次,微軟站隊臉書,給 Pytorch 機器學習庫做了幾個 “好用的部件”。

若論其中一個原因,可能是微軟和臉書沒有云上的競爭關係,這幾年臉書公司的定位依然還是互聯網公司,沒有發展雲計算。

亞馬遜雲(AWS)、谷歌雲、微軟雲則鬥紅了眼。

第三次進軍框架,微軟的策略是,強攻不下,組隊打怪。若有一日,Onnx Runtime 框架有希望挑戰 Pytorch 框架,肯定調轉火力,支持自家。

真正的競爭激烈,不是玩家多,而是高手多。短短几年之內,幾座技術巔峯,拔地而起,各有各的精絕。

其一,谷歌和亞馬遜是計算圖的擁躉。兩者都以更高的、令人讚歎的工業級工程質量把計算圖抽象推向新高度,把表達能力推向新的里程碑。

其二,臉書公司在計算過程中沒有計算圖的概念。但在解決易用性上,超常發揮。

谷歌皇冠跌落,給後來者 “跌出” 希望,留給中國隊的時間不多了。

(二)下半場:中國隊的出征

2014 年的某一天,北京海淀區丹棱街 5 號接待了一位特殊的客人。

這位來自美國 CMU 的教授,名叫邢波,此時任微軟亞研院顧問一職,他擅長的領域包括大規模計算系統。他也是 AI 科學傢俱樂部的白(ding)金(ji)會(da)員(lao)。

恰在此時,微軟亞研院副院長馬維英(現任清華大學智能產業研究院講席教授、首席科學家)找到一位研究員,名叫袁進輝,他是清華大學計算機專業的博士,師從張鈸院士。

知識使人年輕,很多科學家,年逾不惑,雙肩包 + 步行,背影仍像學生。而袁進輝卻頭髮花白,笑容謙和,像是在校園裏散步的退休教授,其實他是 1981 年的。

馬維英副院長和袁進輝談起,谷歌較先起步,已將大規模主題模型的訓練系統技術,應用到谷歌廣告系統和推薦系統的關鍵組件中。邢波教授近期既然到訪北京,那不妨合作。

於是,邢波教授團隊和袁進輝團隊雙劍合璧。這場合作的成果,被表揚了。主管全球研究院的微軟副總裁周以真女士評之爲該年度看到的最令人激動的成果,不過這是後話。

那時候的動力,一方面來源於超過谷歌,直道超,沒有彎道。另一方面,業界有多位知名科學家和資深工程師,已經在同一問題上醞釀已久。難度可想而知,條件卻捉襟見肘。沒有可供使用的集羣,沒有工程師團隊的支持。

按打遊戲的說法,微軟想上分,那就要看一下配置。推算一下可知,即使是當時最先進的算法,在當時的硬件環境中訓練目標規模的模型,至少要半年時間。

再看一下,雙方陣容。

提起邢波教授的團隊,恐怕 AI 學術圈無人不知,其本人位列論文發表貢獻第一(2018),其學生很多已是名校教授,每年發表的論文數量,源源不斷地爲 CMU 名列全球大學計算機科學與人工智能的排名第一 “貢獻力量”。

“微軟代表隊” 是袁進輝研究員,還有一個實習生高飛。

這個條件,這個目標,看了只想眯眼說 “呵呵”。

美國賓州匹茨堡和中國北京,時差十幾個小時。袁進輝後來回憶:一年多的時間裏,每天郵件不斷,每週好幾次電話會議,技術難題不討論透徹不罷休。只要足夠幸運,就會在錯誤的道路上迅速捱揍,只要高手夠多,不足之處就不會被放過…… 馬維英和劉鐵巖兩位大佬,羽扇綸巾,幕後帷幄。

項目結束的時候,2014 年已近尾聲。大傢伙的心聲是:“缺少任何一個人,結果都不是大家看到的樣子。”

那一次,袁進輝爲破壞式創新的威力,窒息。

這次合作,成果是 LightLDA。它的算法結果是一流的,系統實現是一流的,僅用數十臺服務器,完成之前成千上萬臺服務器才能做的事,所以得到周以真女士的高度評價。

民(zhi)間(hu)評價:“要我說,LightLDA 那是真的正經貢獻,又 smart,又是解決關鍵問題,又真 work,正經把 Topic Modeling(主題模型)在大數據時代的潛力大大地提高了。”

當時,北京大學計算機科學技術系網絡與信息系統研究所,研究分佈式系統的肖臻教授也給與 LightLDA 相當的肯定。這事,被肖臻的學生以敬仰袁進輝大神事蹟的口吻在知乎講過。

而今覆盤,大勢的端倪早已顯露,大數據、大模型、大型計算架構設計呼之欲出。而這個領域的學者,普遍在 2018 年才意識到這個問題的重要性。

微軟亞研院不愧爲 AI 黃埔軍校,技術前瞻性極強,但是,複雜基礎軟件的成功,不是僅靠 “單刀赴會”。

大公司必勝,那是誇海口。

大公司必爭,纔是真靈驗。

座標北京西二旗,百度大廈和百度科技園。

技術大牛背景的李彥宏,牽着搜索入口的現金牛,依着 “牛脾氣” 治理百度,他看不上雲計算,這倒讓阿里巴巴笑了。

其實,看不上雲計算的技術大佬不止一位,自由開源軟件 GNU/Linux 的鼻祖理查德 · 斯托曼(Richard Stallman)也多次在公開場合 “懟” 雲計算。

巧合的是,他倆觀點出奇地一致:雲計算不是技術創新,而是一種商業模式創新。

李彥宏睥睨雲計算,卻對人工智能,滿眼小星星。

百度深度學習研究院(IDL)在人工智能的江湖裏,是桃源仙境般的存在,處處大神,遍地高手。高水平科學家、研究人員、工程師密度之大,令人驚歎,感覺連保安都要會編程才配在門口刷工作證。

昔日盛景,已成絕響。

時間拉回到 2013 年,百度第一位 T11 徐偉,同時也是百度深度學習框架 PaddlePaddle 的原創者和奠基人。

每一家科技巨頭的深度學習框架的首位指揮官,均非等閒之輩。徐偉也是 Facebook 早期研究員,Facebook 產品矩陣豐富,他負責大規模推薦平臺,在多個產品背後顯神功。

可能是有法律文件約束,百度大神科學家的離職,大多不公開原因。徐偉離職加盟地平線,他將手中的接力棒交給了另一位神級技術大牛,擼碼一絕的王益。

見過王益的人會說一個詞,“聰明絕頂”,重音在後面兩個字上。

王益在知乎謙虛地自稱 “四十歲老程序員”,言談之間一副老技術專家的低調本色。他在加入百度之前曾任谷歌研究員,是少見的“APAC 創新獎” 獲得者(參與開發一個分佈式機器學習的工具)。王益是清華大學機器學習和人工智能博士,師從清華大學周立柱教授。

有一次在知乎分享程序員成長經驗,他輕描淡寫地說了一句:“我有一位恩師,徐偉。”

細節總是讓人容易忽略,早年,王益曾向徐偉抱怨:“某某團隊好像就是想用他們自己研發的工具,不用 PaddlePaddle?”

後來,王益在回覆一位網友跟帖時解釋當時這一問題存在的合理性:“設計 PaddlePaddle 是技術換代的時候,步子大,當時來不及優化用戶體驗,不願意用確實有道理。離開後,後來人持續優化了體驗。內部組織結構調整也促進了新技術的接納。”

這也印證了一位百度匿名 AIG 離職科學家高管對筆者的獨家透露:“百度內部曾經有兩個類似的產品,最後敲定 PaddlePaddle 的人,是陸奇。”

瞭解此事的人不多,也正因此,採訪前夕,這位科學家高管仍在反覆向筆者強調——“請務給我匿名”。

百度最早出發,生態建設也最早起步。

2017 年年末,百度市場部的朋友找筆者交(chi)流(fan),給 PaddlePaddle 出謀劃策。那時候,開源框架的運營和推廣已經全面拉開:北航軟件學院的教材出版、頂級學術會議模型復現、高校宣講……

據說,陸奇離職前,仍然緊盯 PaddlePaddle 的進展。

一山行盡,一山青。框架的玩家,不止科技大廠。

人工智能獨角獸曠視科技是從 2014 年起內部開始研發框架。在 2021 年的採訪中,曠視天元的負責人田忠博告訴筆者:“原因很簡單,僅以當時的開源框架,沒有辦法真正做好科研,纔會有自己做深度學習框架的想法。”

舉一例,就能說明問題。

曠視科技有一篇 ShuffleNet 的學術論文,僅用 Caffe 提供的 “工具”,永遠也探索不到 ShuffleNet 這件事情的可能性。由此看來,曠視科技早已參悟,研究和工程的共振,離不開強大框架的支持。

百度 PaddlePaddle 開源時間點是在 2016 年 8 月。現在看來,這是歷史性的一刻,尤其在中美摩擦的歷史背景下回看,更不敢皺眉設想,一旦美國忌憚中國的人工智能發展勢頭,把深度學習框架徹底掐死。

百度的出征,代表着中國隊上場了,標誌着中國科技企業參與到人工智能最殘酷的戰役之中。

2017 年,AI 盛極一時,獨角獸頻現,融資快訊爆炸。而 PaddlePaddle 作爲國內唯一的開源深度學習框架,此後兩年多,都是孤家寡人。

2018 年 7 月,百度成立深度學習技術平臺部,由 2011 年就入職百度的馬豔軍總負責。

畢竟是國產框架,2019 年,百度 PaddlePaddle 有了中文名,名叫 “飛槳”。國外產品連個中文名都懶得起。

零的突破之後,新問題是,“用工業級的質量,把創新在框架上實現出來”。

2019 年 2 月,一流科技獲得千萬級 Pre-A 輪投資,袁進輝是創始人兼 CEO。此事之後,纔有些小道消息傳出,早在 2017 年初,快手創始人宿華就投了一流科技,天使輪。

“小夥子睡涼炕,全憑火氣壯。” 一家只有幾十人團隊的初創公司也來做複雜基礎軟件。投資人一臉懵逼地進來,一臉懵逼地離開。

誰都會挑用起來順手的錘子。框架在一家公司內部很難統一。

百度內部 “軍令如山”,必須統一使用飛槳。

曠視科技內部可以用任何開源框架,員工中自發使用天元框架者居多。

微軟亞研院的情況是:很多工程實現是實習生完成,幹活時會讓同學們繼續用熟悉的框架幹活,很難強行統一用 CNTK。

互聯網科技公司大多是軟件起家,華爲則被戲稱爲 “泥腿子們” 終於 “洗乾淨腳進城” 的硬件廠商。是啥不重要,能打就行。所以,華爲要拿出來單聊。

華爲在開源軟件世界裏,風評不高,前腳還有:“鴻蒙失火,殃及池魚” (禁止諧音梗,扣錢)。

華爲 MindSpore 的行動頗爲迅速,可惜,在羣衆情緒上,被鴻蒙拖了後腿。

2018 年 10 月 10 日,上海。華爲全聯接大會上,肯德基外賣全家桶套餐,不對,講錯了,是 AI 戰略與全棧全場景 AI 解決方案。這是華爲高層首次提起 MindSpore 這個事兒。

2019 年,10 月 15 日,14 點 02 分,王益在網上突然發帖問了一句,這 “開源框架” 什麼時候開源啊?有匿名採訪者告訴筆者:“賈揚清回了一句,‘Show me the code’。”筆者沒有找到原文或者截圖。

按工作流程,華爲 MindSpore 官方進駐知乎,先發了一個 “Read me 文檔”(翻譯爲“閱讀指南文件”)。結果,人在家中坐,禍從天上來,很多人誤以爲“開源” 只有 “Read me” 而已,熱度直接飛起。

最息事寧人的評論:“沸騰就完事了,想那麼多幹嘛。”

最佳畫面感評論:“站在馬裏亞納海溝裏揮舞道德的內褲。”

神評論:“按揭開源。”

網友的才華,從手機屏幕裏噴出來。

哪怕華爲員工看到這些評論,也笑出了豬叫,細一想,要剋制,便在暗地裏捂嘴笑。

一位老牌廠商高管在採訪時,告訴筆者:“華爲不瞭解生態系統對軟件的影響。這就是爲什麼他們在發佈手機操作系統時,沒有考慮如何構建生態系統。” 受訪人要求筆者匿名。

這一評價,一針紮在要害上。

外國框架並不成熟,也不完美,這也是國產框架參戰的部分原因。

有人發問:“爲什麼要再做一個框架?”

華爲內部也有人捫心自問:“MindSpore 解決的特色問題到底是什麼?”

可能是 2020 年正式開源前夕,

可能是華爲中央軟件院總架構師金雪鋒博士、算法科學家於璠博士、開源社區運營團隊負責人黃之鵬等人第一次 “齊聚” 會議室,

可能是一場 “元老會”。

筆者瞭解到,在華爲內部組織結構中,MindSpore 屬於昇騰產品團隊,也歸屬於計算產品線。這是一個和華爲 “小云” 同級別的 BU。

匿名採訪者透露,MindSpore 在內部也是要承接業務部門需求的。

MindSpore 再早之前的研發時間線不得而知,因爲 “事關” 華爲最敏感的“部(xin)位(pian)”。

細細翻閱三位科學家的公開觀點,

第一位,華爲 MindSpore 首席架構師金雪鋒博士。

第二位,一流科技創始人袁進輝博士。

第三位,谷歌公司 Waymo 自動駕駛汽車感知和規劃任務機器學習平臺資深研發工程師、阿帕奇基金會 MXNet 項目委員會委員、Horovod(是 Uber 開源的一個深度學習工具)技術委員會委員袁林博士。

他們共同認爲:“市場需求沒有很好地滿足,技術沒有收斂,創新還有空間。”

國外框架出發時,廣闊天地,大有可爲,國產框架正好相反。好摘的果實都已被摘走,只剩高高樹頂上的,還有那零散摔落在地的。

國貨當自強,同情分不要也罷。

國產深度學習框架的建設者,藏好後退的髮際線,在時代的噪音裏,縱身一躍。

2020 年,國產深度學習框架井噴。

3 月 20 日,清華大學計圖(Jittor)。

3 月 25 日,曠視科技天元(MegEngine) 。

3 月 28 日,華爲 MindSpore。

7 月 31 日,一流科技 OneFlow。

四家國產,同期開源。五家國產,旌旗列陣。這一年最有可能被追認爲國產深度學習框架的 “元年”。

守舊的經驗是,既然國外開源了,就抓緊學。既然人家成了事實工業標準,就盡力參與。總是慢了好幾拍,Linux 這輪就是這樣。

引用某遊戲廠商的經典臺詞是:“別催了,在抄了,在抄了。”

可惜競爭從來不是遊戲。

深度學習框架的臺詞是:“不能照抄,不能舔狗,舔到最後,一無所有。”

2020 年,國產框架在技術上不是單純的跟隨者角色了,也有很多創新點可圈可點。

飛槳作爲國內最早的開源框架,模型庫是最豐富的。以模型庫的形式沉澱成深度學習框架生態的一部分,生態也起步早。

古人云:“不謀全局者,不足以謀一域” 。有匿名採訪者認爲:“華爲是國內投入框架研發最堅定的大公司。”

可以觀察到,華爲劍指全棧 AI 戰略,投入非常大。硬件算子庫、基礎軟件、平臺、產業基金、聯合項目、標準、論文專利、人才,幾乎所有的地方都發狠力。

華爲內部技術高管(筆者被反覆要求匿名)告訴筆者:“大廠發展深度學習框架一定不是爲了賣錢,而爲了發展生態。華爲發展深度學習框架,一方面是自主可控,一方面是堅定地發展 AI 全棧能力。Mindspore 並沒有拘泥於自家的芯片,不能僅僅視爲一款產品,而是戰略級的平臺,這是明確公開說的。”

翻看所有的宣傳稿件,不難總結出,華爲有全場景,端邊雲協同,比如,華爲自己有手機業務,方便對硬件做指令級優化。

但是,華爲做的遠不止這些。

第一,在拿 MindSpore 爲抓手,來解決深度學習之外的、以前在超算領域關注的一些計算任務(科學計算)。其它框架雖然也有這個目標,但華爲想到了,也做到了。

第二,AI 有個公開的槽點,即被黑盒問題所累。然而,牽扯到 AI 安全的問題,既基礎,又前沿,搞得人少,困難多。對於基礎軟件來說,又格外重要。

華爲金雪鋒博士有一個表述:“按 DARPA(美國國防部先進研究項目局)的說法,可解釋 AI 的目的,就是要解決用戶面對模型黑盒遇到的問題,從而實現:用戶知道 AI 系統爲什麼這樣做,也知道 AI 系統爲什麼不這樣做,用戶知道 AI 系統爲什麼做錯了。

這個問題被華爲關注,無疑提高了國產框架段位。你在研究拳法,我在研究拳法背後的哲學根基。

華爲 MindSpore 開源後,很多質疑的聲音消失了,醞釀了半天的道德制高點沒有罵出來,憋得怪難受。

不過,有些批評,華爲確實該虛心接受,不是外人,都能過去。

(三)如何競爭?

滔滔江水,浪奔浪湧,摩爾定律卻日漸消失於地表。

需要在硬件層面對 AI 進行優化浮出水面,因爲在微觀層面的編譯器優化,需要和硬件廠商合作。這是華爲的獨家優勢。在所有框架公司裏,唯獨華爲有芯片。

官宣用語:“用昇騰 + MindSpore,構建華爲數字底座”。

華爲被特朗普轟炸了幾輪,印象十分深刻。

在獨家硬件的加持下,MindSpore 的名場面是,有開發者感受到 “快到飛起” 的興奮。

這也不是唯一的路,因爲深度學習編譯器也登上了舞臺。巧不巧,這又是一個底層技術。

所以說,深度學習框架門檻高不可攀,算法、底層硬件、操作系統、分佈式系統、編譯器,一個都不能少。

TVM 編譯器在 2017 年開源,能夠在任何硬件後端上有效優化和運行計算,可作爲框架的後端。學術方面,進展也迅速,比如 “如何利用 TVM 直接參與硬件設計過程的迭代,使得加速器設計在一開始的時候就可以直接獲得軟件的支持和目標的具體反饋”。

TVM 的背後是陳天奇團隊,與其競爭的還是中國人民的老朋友,谷歌(MLIR)。

國產框架,萬箭齊發之勢。

創業公司代表隊唯一的隊員,一流科技袁進輝博士則放出豪言:“要做出世界上速度最快的。”

AI 科學家的豪言壯語,比起羅永浩的那句 “收購不可避免走向衰落的蘋果公司,並復興它”,也沒剋制。

天下武功唯快不破。

他認爲,第一,在分佈式深度學習裏,計算僅僅是一個方面,多個 GPU 上任務的協同需要頻繁地把數據在 GPU 之間傳來傳去。數據在數據流圖裏行走(flow),想走得快,算得快,吞吐量得大,得將數據通信也設計成數據流圖的一部分,不能讓傳輸成了瓶頸。

第二,哪裏需要數據通信,需要什麼形式的數據來進行通信,都要開發者去編程實現,這很麻煩,框架應該自動實現。

袁進輝博士的總結是:“OneFlow 有兩個創新點:一會自動安排數據通信。二把數據通信和計算的關係協調好,讓整體效率更高。”

2020 年,多節點和多設備的訓練成爲深度學習的主流,這一趨勢符合袁進輝創業之初的判斷,而這一思路可追溯到 2014 年他在微軟亞研院的思考。

袁進輝團隊的短板明顯存在,AI 研發投入 “壕無人性”,直白一點:創業公司窮。不過,2021 年春節前,高瓴創投獨家領投一流科技 A 輪融資,總額 5000 萬元人民幣。

框架,A 面是各有特色,B 面是什麼呢?

答案是,大規模。

這世界上唯一能夠碾壓國內一線城市房價增速的,只有 AI 模型的規模。雖然硬件和軟件的進步已經將每年的訓練成本降低了 37%;但是,AI 模型越來越大,以每年 10 倍的速度增長。

人工智能模型就像宇宙飛船飛向太空最遠處,正在探索能力的邊界,拓展人類的想象力。

大模型,跑步前進,工業級實現,拔腿直追。

邁入大型模型訓練時代,要求深度學習框架能夠在面臨數百臺、數千臺計算機的龐大規模時,有效地進行訓練。

比如,對於單個設備或多個設備數據並行這種簡單場景的支持已經足夠優秀,但在模型更大或者神經網絡拓撲更復雜時,通用框架的易用性和效率都大打折扣,有這種需求的工業級應用只好下血本研發定製方案。

大規模訓練是當前各廠商競爭的一個焦點,誰輸誰贏仍有變數。但可以肯定的是,只待 “百團大戰” 的第一槍打響後,就是全方位的比拼(易用性,完備性,高效性)。

壞消息是,國產在市場和生態上與美國巨頭依然有很大的距離。

好消息是,這不是一個完全被動的局面。

甚至,國產框架的競爭也在細分,分化出局部戰役。

框架分爲訓練和推理兩部分,訓練框架難度大,推理框架次之。

華爲推理框架已經做到了生產級別,交付到了華爲手機上。在手機巨頭廠商中,框架的玩法,各不相同。

都知道,蘋果機器學習框架 CoreML 的代碼是高度商業祕密。

巨頭的動作出其不意地整齊劃一,端側深度學習推理框架,BAT 已經全部出手。

百度 Paddle Lite、阿里巴巴 mnn、騰訊 ncnn、華爲移動端推理框架 Bolt(華爲諾亞方舟實驗室開源)、OPEN AI LAB 的邊緣 AI 推理框架 Tengine ,甚至連小米也有,MACE。

單論技術難度,這些同類產品比深度學習框架低很多,但也各懷絕技,各有千秋,只是誤放在一起比來比去,就不是內味兒了。

深度學習框架的戰場上,全行業最拔尖的團隊悉數上場。

(四)開源也競爭

做基礎軟件,

一要決心,

二要耐心,

三要開源,

因爲是大投入、長週期、搶生態。

關於開源與生態,筆者最想採訪的是美國硅谷創投圈資深人士,思科雲計算事業部研發老大徐皞。

多次聯繫,終於得到他的回覆。

他告訴筆者:“生態系統對操作系統而言,比操作系統本身更重要更難發展。這個道理很簡單:操作系統可以僱幾百個人寫出來,生態需要懇求幾萬、幾十萬、幾百萬的人去寫應用纔算數。對手機電腦而言,多數用戶是爲應用買單,而不是爲操作系統買單;對框架而言,多數用戶是爲能不能快速解決商業問題而買單。”

開源是一個隱祕的角落,“大教堂與集市”的比喻口口相告,代代相傳,是開發者眼中獨一無二的聖地,擠滿了來自全世界貢獻與分享的熱情,胸前佩戴 “開源項目主要貢獻者” 的獎章,是江湖地位的象徵。

曾幾何時,開源軟件是對抗大公司的俠者。

而如今,大公司卻對開源軟件越來越青睞。巨頭對開源的投入,其背後是生態,是爲了佔領市場。開源軟件的開發,不再是開發者之間鬆散的合作。

開源軟件公司有更多主導,開源軟件的開發效率和質量都有所提升。

開源的 “不競爭” 是另一種形式的競爭。眼下這幾年,開源商業模式有變。徐皞認爲:“開源軟件真正興盛,真正有突破,也就是五到十年的事情,開源軟件商業模式依然在非常早期。”

開源軟件的背後是競爭,是研發與工程的投入,不投入,怎麼佔領。

Linux 是有很多家的貢獻,但是安卓代碼 1200 萬行,全部是谷歌工程師自己寫的。

看看美國公司對開源市場的投入力度,中國公司不能落後,更應該主動投入,佔據,甚至主導。

開源和閉源,隔山兩相望,且看那密密麻麻的佈防,哪個山頭都有重兵。

開源軟件世界裏,框架雖爲一隅,卻極盡奇觀。最好的思想,最好的代碼都悉數拿出來了。這是分享,也是一種較量。

前美國國防部諮詢顧問,史蒂夫 · 馬奎斯的說法是:“開源項目,來源於最純粹的競爭。如果一個開源項目在商業世界獲得了成功,那決不會是出於僥倖,決不會是因爲其它競爭者恰好被規章制度所累、被知識產權法約束、被人傻錢多的金主拖垮。一個開源項目勝出了,背後只會有一個原因——它真的比其他競爭者都要好。”

有借有還,再借不難。“借用思路” 是爽了,但又誘發更深層次的競爭。

上帝說,要有光。

特斯拉說,要有電。

開源說,要有代碼。

若問深度學習框架將帶來什麼,得想清楚深度學習的未來在哪。

聽說過深度學習又被稱爲軟件 2.0 嗎?作爲數據驅動範式的頂峯,從數據裏自動推導出程序,而不是必須靠程序員絞盡腦汁手動書寫程序,這是一個劃時代的進步。

深度學習可能從一個小小島嶼,演進成一個大陸板塊。

在接下來的十年,深度學習軟件有機會變成每個軟件工程師醫藥箱裏的必備 “藥丸”(不要亂想,不是藍色的那種)。人類最重要的計算機軟件將由其創造,自動駕駛,藥物發現……

開源軟件的玩法自由奔放,但也有公地悲劇、PR 銅臭。深度學習框架是一款理解成本很高的軟件,羣衆基礎薄(mei)弱(you)。於是,有人用 “AI 平臺” 一詞,胡亂指代,張冠李戴,故意混淆,真令人作嘔…… 大過節的,算了算了。

有決心,就有私心,有瘋子,就有騙子。

時間總能給出答案。

結語:

古人云,按經濟學的規律辦事。

大約兩百多年前,英國經濟學家傑文斯指出,技術成本降低,將提升技術的普及度,從而擴大市場規模。

起初,戴着大粗金鍊子,說錯了,戴着領結的大英煤老闆十分擔心,掐指一算:第一次工業革命讓蒸汽機效率提升,每臺用煤量減少,總的用煤量會下降,生意要下滑。

結果事實正相反,用煤量大幅增加,好開心呀,因爲蒸汽機使用成本降低了,使得蒸汽機用得更廣泛了。

框架的道理也一樣,降低了研發人力成本,降低了計算資源成本,帶動市場規模擴大。

兩百年後的今天,人工智能深度學習算法的大火,創造了算法軟件包史無前例的機會,軟件開發中的標準化就是把每個人都要乾的活統一起來,成爲工業化的環節。

深度學習框架牛就牛在把共性提煉抽象出來,用最簡約的代碼實現,代碼越簡單越牛。

軟件流水線提升整個行業的水平,徹底替代手工打造的落後局面。

圖爲:賈揚清在阿里巴巴公司的工位

搞深度學習框架的那羣人,

他們,可能是同學同事同行,亦狂亦俠亦友。

他們,必然是浩宇璀璨羣星,風雷意氣崢嶸。

無論是產品,還是生態,最終,市場會決定勝出者。

人工智能頭頂高科技花環,被高高捧起,又被左右開弓扇耳光,靈魂三逼問:到底行不行?啥時候突破?誰殺死那隻獨角獸?

突破難規劃,創新難計劃,獨角獸不拼命也不行…… 此後,深度學習框架,對於國外開發者同樣重要。

需要發問的是:如何才能做出全球大流行的開源深度學習框架?網友質問的原話是:“你敢超過嗎?”

(未完待續,這篇文章太長了,轉發後,去你的收藏夾喫灰吧。)

《親愛的數據》出品人:譚婧

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/LZSSu8lNBmgFzPx6zWir9w