美團基於知識圖譜的劇本殺標準化建設與應用

劇本殺作爲爆發式增長的新興業務,在商家上單、用戶選購、供需匹配等方面存在不足,供給標準化能爲用戶、商家、平臺三方創造價值,助力業務增長。

本文介紹了美團到店綜合業務數據團隊從 0 到 1 快速建設劇本殺供給標準化的過程及算法方案。我們將美團到店綜合知識圖譜(GENE,GEneral NEeds net)覆蓋至劇本殺行業,構建劇本殺知識圖譜,實現供給標準化建設,包括劇本殺供給挖掘、標準劇本庫構建、供給與標準劇本關聯等環節,並在多個場景進行應用落地,希望給大家帶來一些幫助或啓發。

一、背景

劇本殺行業近年來呈爆發式增長態勢,然而由於劇本殺是新興行業,平臺已有的類目體系和產品形態,越來越難以滿足飛速增長的用戶和商戶需求,主要表現在下面三個方面:

爲了解決上述痛點,業務需要進行劇本殺的供給標準化建設:首先建立 “劇本殺” 新類目,並完成相應的供給(包括商戶、商品、內容)的類目遷移。以此爲基礎,以劇本爲核心,搭建標準劇本庫,並關聯劇本殺供給,繼而建立劇本維度的信息分發渠道、評價評分和榜單體系,滿足用戶 “以劇本找店” 的決策路徑。

值得指出的是,供給標準化是簡化用戶認知、幫助用戶決策、促進供需匹配的重要抓手,標準化程度的高低對平臺業務規模的大小有着決定性影響。具體到劇本殺行業,供給標準化建設是助力劇本殺業務持續增長的重要基礎,而標準劇本庫的搭建是劇本殺供給標準化的關鍵。由於基於規格如「城限」、背景如「古風」、題材如「情感」等劇本屬性無法確定具體的劇本,但劇本名稱如「舍離」則能起唯一標識的作用。因此,標準劇本庫的搭建,首先是標準劇本名稱的建設,其次是規格、背景、題材、難度、流派等標準劇本屬性的建設。

綜上,美團到店綜合業務數據團隊與業務同行,助力業務進行劇本殺的供給標準化建設。在建設過程中,涉及了劇本名稱、劇本屬性、類目、商戶、商品、內容等多種類型的實體,以及它們之間的多元化關係構建。而知識圖譜作爲一種揭示實體及實體間關係的語義網絡,用以解決該問題顯得尤爲合適。特別地,我們已經構建了美團到店綜合知識圖譜(GENE,GEneral NEeds net),因此,我們基於 GENE 的構建經驗快速進行劇本殺這一新業務的知識圖譜構建,從 0 到 1 實現劇本殺標準化建設,從而改善供給管理和供需匹配,爲用戶、商戶、平臺三方創造出更大的價值。

二、解決方案

我們構建的 GENE,圍繞本地生活用戶的綜合性需求,以行業體系、需求對象、具象需求、場景要素和場景需求五個層次逐層遞進,覆蓋了玩樂、醫美、教育、親子、結婚等多個業務,體系設計和技術細節可見美團到店綜合知識圖譜相關的文章。劇本殺作爲一項新興的美團到店綜合業務,體現了用戶在玩樂上的新需求,天然適配 GENE 的體系結構。因此,我們將 GENE 覆蓋至劇本殺新業務,沿用相同的思路來進行相應知識圖譜的構建,以實現相應的供給標準化。

基於知識圖譜來實現劇本殺標準化建設的關鍵,是以標準劇本爲核心構建劇本殺知識圖譜。圖譜體系設計如下圖 1 所示,具體地,首先在行業體系層進行劇本殺新類目的構建,挖掘劇本殺供給,並建立供給(包括商戶、商品、內容)與類目的從屬關係。在此基礎上,在需求對象層,進一步實現標準劇本名稱這一核心對象節點和其劇本屬性節點的挖掘以及關係構建,建立標準劇本庫,最後將標準劇本庫的每個標準劇本與供給和用戶建立關聯關係。此外,具象需求、場景要素、場景需求三層則實現了對用戶在劇本殺上的具象的服務需求和場景化需求的顯性表達,這部分由於與劇本殺供給標準化建設的聯繫不多,在這裏不做展開介紹。

圖 1

劇本殺知識圖譜中用於供給標準化部分的具體樣例如下圖 2 所示。其中,標準劇本名稱是核心節點,圍繞它的各類標準劇本屬性節點包括題材、規格、流派、難度、背景、別稱等。同時,標準劇本之間可能構建諸如 “同系列” 等類型的關係,比如「舍離」和「舍離 2」。此外,標準劇本還會與商品、商戶、內容、用戶之間建立關聯關係。

我們基於劇本殺知識圖譜的這些節點和關係進行供給標準化,在圖譜構建過程中,包括了劇本殺供給挖掘標準劇本庫構建供給與標準劇本關聯三個主要步驟,下面對三個步驟的實現細節以及涉及的算法進行介紹。

圖 2

三、實現方法

3.1 劇本殺供給挖掘

劇本殺作爲新興的業務,已有的行業類目樹中並沒有相應的類目,無法直接根據類目獲取劇本殺的相關供給(包括商戶、商品和內容)。因此,我們需要首先進行劇本殺供給的挖掘,即從當前與劇本殺行業相近類目的供給中挖掘出劇本殺的相關供給。

對於劇本殺的商戶供給挖掘,需要判斷商戶是否提供劇本殺服務,判別依據包括了商戶名、商品名及商品詳情、商戶 UGC 三個來源的文本語料。這個本質上是一個多源數據的分類問題,然而由於缺乏標註的訓練樣本,我們沒有直接採用端到端的多源數據分類模型,而是依託業務輸入,採用無監督匹配和有監督擬合相結合的方式高效實現,具體的判別流程如下圖 3 所示,其中:

圖 3

採用上述方式,實現了桌面和實景兩種劇本殺商戶的挖掘,準確率和召回率均達到了要求。基於劇本殺商戶的挖掘結果,能夠進一步對商品進行挖掘,並創建劇本殺類目,從而爲後續劇本殺知識圖譜構建及標準化建設打好了數據基礎。

3.2 標準劇本庫構建

標準劇本作爲整個劇本殺知識圖譜的核心,在劇本殺供給標準化建設中扮演着重要的角色。我們基於劇本殺商品相似聚合的方式,結合人工審覈來挖掘標準劇本,並從相關發行方獲取劇本授權,從而構建標準劇本庫。標準劇本由兩部分構成,一個是標準劇本名稱,另一個是標準劇本屬性。因此,標準劇本庫構建也分爲標準劇本名稱的挖掘和標準劇本屬性的挖掘兩個部分。

3.2.1 標準劇本名稱的挖掘

我們根據劇本殺商品的特點,先後採用了規則聚合、語義聚合和多模態聚合三種方法進行挖掘迭代,從數十萬劇本殺商品的名稱中聚合得到數千標準劇本名稱。下面分別對三種聚合方法進行介紹。

規則聚合

同一個劇本殺商品在不同商戶的命名往往不同,存在較多的不規範和個性化。一方面,同一個劇本名稱本身就可以有多種叫法,例如「舍離」、「舍離壹」、「舍離 1」就是同一個劇本;另一方面,劇本殺商品名除了包含劇本名稱外,商家很多時候也會加入劇本的規格和題材等屬性信息以及吸引用戶的描述性文字,例如「《舍離》情感本」。所以我們首先考慮劇本殺商品的命名特點,設計相應的清洗策略對劇本殺商品名稱進行清洗後再聚合。

圖 4

我們除了梳理常見的非劇本詞,構建詞庫進行規則過濾外,也嘗試將其轉換爲命名實體識別問題 [2],採用序列標註對字符進行 “是劇本名” 與“不是劇本名”兩個類別的區分。對於清洗後的劇本殺商品名稱,則通過基於最長公共子序列(LCS)的相似度計算規則,結合閾值篩選對其進行聚合,例如「舍離」、「舍離壹」、「舍離 1」最後均聚在一起。整個流程如上圖 4 所示,採用規則聚合的方式,能夠在建設初期幫助業務快速對劇本殺商品名稱進行聚合。

語義聚合

規則聚合的方式雖然簡單好用,但由於劇本名稱的多樣性和複雜性,我們發現聚合結果中仍然存在一些問題:1)不屬於同一個劇本的商品被聚合,例如「舍離」和「舍離 2」是同一個系列的兩個不同劇本,卻被聚合在一起。2)屬於同一個劇本的商品沒有聚合,例如,商品名使用劇本的簡稱縮寫(「唐人街名偵探和貓」和「唐探貓」)或出現錯別字(「弗洛伊德之錨」和「佛洛依德之錨」)等情況時則難以規則聚合。

針對這上述這兩種問題,我們進一步考慮使用商品名稱語義匹配的方式,從文本語義相同的角度來進行聚合。常用的文本語義匹配模型分爲交互式和雙塔式兩種類型。交互式是把兩段文本一起輸入進編碼器,在編碼的過程中讓其相互交換信息後再進行判別;雙塔式模型是用一個編碼器分別給兩個文本編碼出向量,然後基於兩個向量進行判別。

由於商品數量衆多,採用交互式的方法需要將商品名稱兩兩組合後再進行模型預測,效率較爲低下,爲此,我們採用雙塔式的方法來實現,以 Sentence-BERT[3] 的模型結構爲基礎,將兩個商品名稱文本分別通過 BERT 提取向量後,再使用餘弦距離來衡量兩者的相似度,完整結構如下圖 5 所示:

圖 5

在訓練模型的過程中,我們首先基於規則聚合的結果,通過同聚簇內生成正例和跨聚簇交叉生成負例的方式,構造粗粒度的訓練樣本,完成初版模型的訓練。在此基礎上,進一步結合主動學習,對樣本數據進行完善。此外,我們還根據上文提到的規則聚合出現的兩種問題,針對性的批量生成樣本。具體地,通過在商品名稱後添加同系列編號,以及使用錯字、別字和繁體字替換等方式來實現樣本的自動構造。

多模態聚合

通過語義聚合的方式實現了從商品名稱文本語義層面的同義聚合,然而我們通過對聚合結果再分析後發現還存在一些問題:兩個商品屬於同一個劇本,但僅從商品名稱的角度是無法判別。例如,「舍離 2」和「斷念」從語義的角度無法聚合,但是它們本質上是一個劇本「舍離 2· 斷念」。雖然這兩個商品的名稱各異,但是它們的圖像往往是相同或相似的,爲此,我們考慮引入商品的圖像信息來進行輔助聚合。

一個簡單的方法是,使用 CV 領域成熟的預訓練模型作爲圖像編碼器進行特徵提取,直接計算兩個商品的圖像相似度。爲了統一商品圖像相似度計算和商品名稱語義匹配的結果,我們嘗試構建一個劇本殺商品的多模態匹配模型,充分利用商品名稱和圖像信息來進行匹配。模型沿用語義聚合中使用的雙塔式結構,整體結構如下圖 6 所示:

圖 6

在多模態匹配模型中,劇本殺商品的名稱和圖像分別通過文本編碼器和圖像編碼器得到對應的向量表示後,再進行拼接作爲最終的商品向量,最後使用餘弦相似度來衡量商品之間的相似度。其中:

在訓練模型的過程中,文本編碼器會進行 Finetune,而圖像編碼器則固定參數,不參與訓練。對於訓練樣本構建,我們以語義聚合的結果爲基礎,以商品圖像相似度來圈定人工標註樣本的範圍。具體地,對於同聚簇內商品圖像相似度高的直接生成正例,跨聚簇交叉的商品圖像相似度低的直接生成負例,而對於剩餘的樣本對則交由人工進行標註確定。通過多模態聚合,彌補了僅使用文本匹配的不足,與其相比準確率提升了 5%,進一步提升了標準劇本的挖掘效果。

3.2.2 標準劇本屬性的挖掘

標準劇本的屬性包括了劇本的背景、規格、流派、題材、難度等十餘個維度。由於商戶在劇本殺商品上單的時候會錄入商品的這些屬性值,所以對於標準劇本屬性的挖掘,本質上是對該標準劇本對應的所有聚合商品的屬性的挖掘。

在實際過程中,我們通過投票統計的方式來進行挖掘,即對於標準劇本的某個屬性,通過對應的聚合商品在該屬性上的屬性值進行投票,選擇投票最高的屬性值,作爲該標準劇本的候選屬性值,最後由人工審覈確認。此外,在標準劇本名稱挖掘的過程中,我們發現同一個劇本的叫法多種多樣,爲了對標準劇本能有更好的描述,還進一步爲標準劇本增加了一個別稱的屬性,通過對標準劇本對應的所有聚合商品的名稱進行清洗和去重來獲取。

3.3 供給與標準劇本關聯

在完成標準劇本庫構建後,還需要建立劇本殺的商品、商戶和內容三種供給,與標準劇本的關聯關係,從而使劇本殺的供給實現標準化。由於通過商品和標準劇本的關聯關係,可以直接獲取該商品對應商戶和標準劇本的關係,所以我們只需要對商品和內容進行標準劇本關聯。

3.3.1 商品關聯

在 3.2 節中,我們通過聚合存量劇本殺商品的方式來進行標準劇本的挖掘,在這個過程中其實已經構建了存量商品和標準劇本的關聯關係。對於後續新增加的商品,我們還需要將其和標準劇本進行匹配,以建立兩者之間的關聯關係。而對於與標準劇本無法關聯的商品,我們則自動進行標準劇本名稱和屬性的挖掘,經由人工審覈後再加入標準劇本庫。

整個商品關聯流程如下圖 7 所示,首先對商品名稱進行清洗再進行匹配關聯。在匹配環節,我們基於商品和標準劇本的名稱及圖像的多模態信息,對兩者進行匹配判別。

圖 7

與商品之間的匹配不同,商品與標準劇本的關聯不需要保持匹配的對稱性。爲了保證關聯的效果,我們在 3.2.1 節的多模態匹配模型的結構基礎上進行修改,將商品和標準劇本的向量拼接後通過全連接層和 softmax 層計算兩者關聯的概率。訓練樣本則直接根據存量商品和標準劇本的關聯關係構造。通過商品關聯,我們實現了絕大部分劇本殺商品的標準化。

3.3.2 內容關聯

對於劇本殺內容關聯標準劇本,主要針對用戶產生的內容(UGC,例如用戶評價)這一類型的內容和標準劇本的關聯。由於一段 UGC 文本通常包含多個句子,且其中只有部分句子會提及標準劇本相關信息,所以我們將 UGC 與標準劇本的匹配,細化爲其子句粒度的匹配,同時出於效率和效果的平衡的考慮,進一步將匹配過程分爲了召回和排序兩個階段,如下圖 8 所示:

圖 8

在召回階段,將 UGC 文本進行子句拆分,並根據標準劇本名稱及其別稱,在子句集合中進行精確匹配,對於匹配中的子句則將進入到排序階段進行精細化的關聯關係判別。

在排序階段,將關聯關係判別轉換爲一個 Aspect-based 的分類問題,參考屬性級情感分類的做法 [5],構建基於 BERT 句間關係分類的匹配模型,將實際命中 UGC 子句的標準劇本別稱和對應的 UGC 子句用 [SEP] 相連後輸入,通過在 BERT 後增加全連接層和 softmax 層來實現是否關聯的二分類,最後對模型輸出的分類概率進行閾值篩選,獲取 UGC 關聯的標準劇本。

與上文中涉及的模型訓練不同,UGC 和標準劇本的匹配模型無法快速獲取大量訓練樣本。考慮到訓練樣本的缺乏,所以首先通過人工少量標註數百個樣本,在此基礎上,除了採用主動學習外,我們還嘗試對比學習,基於 Regularized Dropout[6] 方法,對模型兩次 Dropout 的輸出進行正則約束。最終在訓練樣本不到 1K 的情況下,UGC 關聯標準劇本的準確率達到上線要求,每個標準劇本關聯的 UGC 數量也得到了大幅提升。

四、應用實踐

當前劇本殺知識圖譜,以數千標準劇本爲核心,關聯百萬供給。劇本殺供給標準化建設的結果已在美團多個業務場景上進行了初步的應用實踐。下面介紹具體的應用方式和應用效果。

4.1 類目構建

通過劇本殺供給挖掘,幫助業務識別出劇本殺商戶,從而助力劇本殺新類目和相應劇本殺列表頁的構建。劇本殺類目遷移、休閒娛樂頻道頁的劇本殺入口、劇本殺列表頁均已上線,其中,頻道頁劇本殺 ICON 固定第三行首位,提供了中心化流量入口,有助於建立統一的用戶認知。上線示例如圖 9 所示((a) 休閒娛樂頻道頁劇本殺入口,(b) 劇本殺列表頁)。

圖 9

4.2 個性化推薦

劇本殺知識圖譜包含的標準劇本及屬性節點,以及其與供給和用戶的關聯關係,可應用於劇本殺各頁面的推薦位。一方面應用於劇本列表頁熱門劇本推薦(圖 10(a)),另一方面還應用於劇本詳情頁的商品在拼場次推薦(圖 10(b) 左)、可玩門店推薦(圖 10(b) 左)和相關劇本推薦模塊(圖 10(b) 右)。這些推薦位的應用,幫助培養了用戶在平臺找劇本的心智,優化了用戶認知和選購體驗,提高了用戶和供給的匹配效率。

圖 10

以劇本列表頁的熱門劇本推薦模塊爲例,劇本殺知識圖譜包含的節點和關係除了可以直接用於劇本的召回,還可以進一步在精排階段進行應用。在精排中,我們基於劇本殺知識圖譜,結合用戶行爲,參考 Deep Interest Network(DIN)[7] 模型結構,嘗試對用戶訪問劇本的序列和訪問商品的序列進行建模,構建雙通道 DIN 模型,深度刻畫用戶興趣,實現劇本的個性化分發。其中商品訪問序列部分,通過商品與標準劇本的關聯關係將其轉爲爲劇本序列,與候選劇本採用 Attention 方式進行建模,具體模型結構如下圖 11 所示:

圖 11

4.3 信息外露和篩選

基於劇本殺知識圖譜中的節點和關係,在劇本殺列表頁和在劇本列表頁增加相關標籤篩選項,並外露劇本的屬性和關聯的供給信息,相關應用如下圖 12 所示。這些標籤篩選項和信息的外露,爲用戶提供了規範的信息展示,降低了用戶決策成本,更加方便了用戶選店和選劇本。

圖 12

4.4 評分和榜單

在劇本詳情頁,內容和標準劇本的關聯關係參與到劇本的評分計算中(圖 13(a))。在此基礎上,基於劇本維度,形成經典必玩和近期熱門的劇本榜單,如圖 13(b) 所示,從而爲用戶的劇本選擇決策提供了更多的幫助。

圖 13

五、總結展望

面對劇本殺這一新興行業,我們快速響應業務,以標準劇本爲核心節點,結合行業特點,通過劇本殺供給挖掘、標準劇本庫構建、供給與標準劇本關聯,構建相應的知識圖譜,從 0 到 1 逐步推進劇本殺的供給標準化建設,力求以簡單而有效的方法來解決劇本殺業務的問題。

目前,劇本殺知識圖譜已在劇本殺多個業務場景中取得應用成果,賦能劇本殺業務持續增長,顯著提升了用戶體驗。在未來的工作中,我們也將不斷進行優化和探索:

參考文獻

[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[2] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[J]. arXiv preprint arXiv:1603.01360, 2016.

[3] Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.

[4] Tan M, Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114.

[5] Sun C, Huang L, Qiu X. Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence[J]. arXiv preprint arXiv:1903.09588, 2019.

[6] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.

[7] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1059-1068.

作者簡介

李翔、陳煥、志華、曉陽、王奇等,均來自美團到店平臺技術部到綜業務數據團隊。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/4o4NpSk4WOzA--HVaWx1zQ