美團商品知識圖譜的構建及應用

商品知識圖譜作爲新零售行業數字化的基石,提供了圍繞商品的精準結構化理解,對業務應用起到了至關重要的作用。相比於美團大腦中原有的圍繞商戶的圖譜而言,商品圖譜需應對更加分散、複雜、海量的數據和業務場景,且面臨着信息來源質量低、數據維度多、依賴常識以及專業知識等挑戰。本文將圍繞零售商品知識圖譜,介紹美團在商品層級建設、屬性體系建設、圖譜建設人效提升等方向的探索,希望對大家有所幫助或啓發。

背景

美團大腦

近年來,人工智能正在快速地改變人們的生活,背後其實有兩大技術驅動力:深度學習知識圖譜。我們將深度學習歸納爲隱性的模型,它通常是面向某一個具體任務,比如說下圍棋、識別貓、人臉識別、語音識別等等。通常而言,在很多任務上它能夠取得很優秀的結果,同時它也有一些侷限性,比如說它需要海量的訓練數據,以及強大的計算能力,難以進行跨任務的遷移,並且不具有較好的可解釋性。在另一方面,知識圖譜作爲顯式模型,同樣也是人工智能的一大技術驅動力,它能夠廣泛地適用於不同的任務。相比深度學習,知識圖譜中的知識可以沉澱,具有較強的可解釋性,與人類的思考更加貼近,爲隱式的深度模型補充了人類的知識積累,和深度學習互爲補充。因此,全球很多大型的互聯網公司都在知識圖譜領域積極進行佈局。

美團連接了數億用戶和數千萬商戶,背後也蘊含着豐富的日常生活相關知識。2018 年,美團知識圖譜團隊開始構建美團大腦,着力於利用知識圖譜技術賦能業務,進一步改善用戶體驗。具體來說,美團大腦會對美團業務中涉及到的千萬級別商家、億級別的菜品 / 商品、數十億的用戶評論,以及背後百萬級別的場景進行深入的理解和結構化的知識建模,構建人、店、商品、場景之間的知識關聯,從而形成生活服務領域大規模的知識圖譜。現階段,美團大腦已覆蓋了數十億實體,數百億三元組,在餐飲、外賣、酒店、金融等場景中驗證了知識圖譜的有效性。

圖 2 美團大腦

在新零售領域的探索

美團逐步突破原有邊界,在生活服務領域探索新的業務,不僅侷限於通過外賣、餐飲幫大家 “喫得更好”,近年來也逐步拓展到零售、出行等其他領域,幫大家“生活更好”。在零售領域中,美團先後落地了美團閃購、美團買菜、美團優選、團好貨等一系列相應的業務,逐步實現“萬物到家” 的願景。爲了更好地支持美團的新零售業務,我們需要對背後的零售商品建立知識圖譜,積累結構化數據,深入對零售領域內商品、用戶、屬性、場景等的理解,以便能更好地爲用戶提供零售商品領域內的服務。

相比於圍繞商戶的餐飲、外賣、酒店的等領域,零售商品領域對於知識圖譜的建設和應用提出了更大的挑戰。一方面,商品數量更加龐大,覆蓋的領域範圍也更加寬廣。另一方面,商品本身所具有的顯示信息往往比較稀疏,很大程度上需要結合生活中的常識知識來進行推理,方可將隱藏在背後的數十維的屬性進行補齊,完成對商品完整的理解。在下圖的例子中,“樂事黃瓜味” 這樣簡單的商品描述其實就對應着豐富的隱含信息,只有對這些知識進行了結構化提取和相應的知識推理後,才能夠更好的支持下游搜索、推薦等模塊的優化。

圖 3 商品結構化信息的應用

商品圖譜建設的目標

我們針對美團零售業務的特點,制定了多層級、多維度、跨業務的零售商品知識圖譜體系。

圖 4 商品知識圖譜體系

多層級

在不同業務的不同應用場景下,對於 “商品” 的定義會有所差別,需要對各個不同顆粒度的商品進行理解。因此,在我們的零售商品知識圖譜中,建立了五層的層級體系,具體包括:

多維度

跨業務

美團大腦商品知識圖譜的目標是希望能夠對客觀世界中的商品知識進行建模,而非侷限於單個業務之中。在商品圖譜的五層體系中,標準商品、抽象商品、品類體系都是與業務解耦的,圍繞着客觀商品所建立的,包括圍繞這些層級建立的各維度數據也均是刻畫了商品領域的客觀知識。

在應用於各個業務當中時,我們將客觀的圖譜知識向上關聯至業務前臺類目,向下關聯至業務商品 SPU/SKU,則可以完成各個業務數據的接入,實現各個業務數據和客觀知識之間的聯通,提供更加全面的跨業務的全景數據視角。利用這樣的數據,在用戶方面我們可以更加全面的建模、分析用戶對於業務、品類的偏好,對於價格、品質等的敏感程度,在商品方面我們可以更準確的建模各品類的復購週期、地域 / 季節 / 節日偏好等。

商品圖譜建設的挑戰

商品知識圖譜的構建的挑戰主要來源於以下三個方面:

  1. 信息來源質量低:商品本身所具有的信息比較匱乏,往往以標題和圖片爲主。尤其在美團閃購這樣 LBS 的電商場景下,商戶需要上傳大量的商品數據,對於商品信息的錄入存在很多信息不完整的情況。在標題和圖片之外,商品詳情雖然也蘊含着大量的知識信息,但是其質量往往參差不齊,並且結構各異,從中進行知識挖掘難度極高。

  2. 數據維度多:在商品領域有衆多的數據維度需要進行建設。以商品屬性部分爲例,我們不僅需要建設通用屬性,諸如品牌、規格、包裝、口味等維度,同時還要覆蓋各個品類 / 類目下特定關注的屬性維度,諸如脂肪含量、是否含糖、電池容量等,整體會涉及到上百維的屬性維度。因此,數據建設的效率問題也是一大挑戰。

  3. 依賴常識 / 專業知識:人們在日常生活中因爲有很豐富的常識知識積累,可以通過很簡短的描述獲取其背後隱藏的商品信息,例如在看到 “樂事黃瓜” 這樣一個商品的時候知道其實是樂事黃瓜味的薯片、看到 “唐僧肉” 的時候知道其實這不是一種肉類而是一種零食。因此,我們也需要探索結合常識知識的語義理解方法。同時,在醫藥、個護等領域中,圖譜的建設需要依賴較強的專業知識,例如疾病和藥品之間的關係,並且此類關係對於準確度的要求極高,需要做到所有知識都準確無誤,因此也需要較好的專家和算法相結合的方式來進行高效的圖譜構建。

商品圖譜建設

在瞭解了圖譜建設的目標和挑戰後,接下來我們將介紹商品圖譜數據建設的具體方案。

層級體系建設

品類體系建設

本質品類描述了商品本質所屬的最細類別,它聚合了一類商品,承載了用戶最終的消費需求,如 “高鈣牛奶”、“牛肉乾” 等。本質品類與類目也是有一定的區別,類目是若干品類的集合,它是抽象後的品類概念,不能夠明確到具體的某類商品品類上,如 “乳製品”、“水果” 等。

品類打標:對商品圖譜的構建來說,關鍵的一步便是建立起商品和品類之間的關聯,即對商品打上品類標籤。通過商品和品類之間的關聯,我們可以建立起商品庫中的商品與用戶需求之間的關聯,進而將具體的商品展示到用戶面前。下面簡單介紹下品類打標方法:

  1. 品類詞表構建:品類打標首先需要構建一個初步的商品品類詞表。首先,我們通過對美團的各個電商業務的商品庫、搜索日誌、商戶標籤等數據源進行分詞、NER(參見文章《美團搜索中 NER 技術的探索與實踐》)、新詞發現等操作,獲得初步的商品候選詞。然後,通過標註少量的樣本進行二分類模型的訓練(判斷一個詞是否是品類)。此外,我們通過結合主動學習的方法,從預測的結果中挑選出難以區分的樣本,進行再次標註,繼續迭代模型,直到模型收斂。

  2. 品類打標:首先,我們通過對商品標題進行命名實體識別,並結合上一步中的品類詞表來獲取商品中的候選品類,如識別 “蒙牛脫脂牛奶 500ml” 中的 “脫脂牛奶”、“牛奶” 等。然後,在獲得了商品以及對應的品類之後,我們利用監督數據訓練品類打標的二分類模型,輸入商品的 SPU_ID 和候選品類 TAG 構成的 Pair,即 < SPU_ID,TAG>,對它進行是否匹配的預測。具體的,我們一方面利用結合業務中豐富的半結構化語料構建圍繞標籤詞的統計特徵,另一方面利用命名實體識別、基於 BERT 的語義匹配等模型產出高階相關性特徵,在此基礎上,我們將上述特徵輸入到終判模型中進行模型訓練。

  3. 品類標籤後處理:在這一步中,我們對模型打上的品類進行後處理的一些策略,如基於圖片相關性、結合商品標題命名實體識別結果等的品類清洗策略。

通過上述的三個步驟,我們便可以建立起商品與品類之間的聯繫。

品類體系:品類體系由品類和品類間關係構成。常見的品類關係包括同義詞和上下位等。在構建品類體系的過程中,常用的以下幾種方法來進行關係的補全。我們主要使用下面的一些方法:

  1. 基於規則的品類關係挖掘。在百科等通用語料數據中,有些品類具有固定模式的描述,如 “玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、“榴蓮是著名熱帶水果之一”,因此,可以使用規則從中提取同義詞和上下位。

  2. 基於分類的品類關係挖掘。類似於上文中提到的品類打標方法,我們將同義詞和上下位構建爲 <TAG, TAG> 的樣本,通過在商品庫、搜索日誌、百科數據、UGC 中挖掘的統計特徵以及基於 Sentence-BERT 得到的語義特徵,使用二分類模型進行品類關係是否成立的判斷。對於訓練得到的分類模型,我們同樣通過主動學習的方式,選出結果中的難分樣本,進行二次標註,進而不斷迭代數據,提高模型性能。

  3. 基於圖的品類關係推理。在獲得了初步的同義詞、上下位關係之後,我們使用已有的這些關係構建網絡,使用 GAE、VGAE 等方法對網絡進行鏈路預測,從而進行圖譜邊關係的補全。

圖 5 商品圖譜品類體系的構建

標準 / 抽象商品

標準商品是描述商品本身客觀事實的顆粒度,和銷售渠道和商戶無關,而商品條形碼是標準商品這層的客觀依據。標品關聯即將同屬於某個商品條形碼的業務 SKU/SPU,都正確關聯到該商品條形碼上,從而在標準商品層級上建模相應的客觀知識,例如標準商品對應的品牌、口味和包裝等屬性。下面通過一個案例來說明標品關聯的具體任務和方案。

案例:下圖是一個公牛三米插線板的標準商品。商家錄入信息的時候,會把商品直接關聯到商品條碼上。通過商戶錄入數據完成了一部分的標品關聯,但這部分比例比較少,且存在大量的鏈接缺失,鏈接錯誤的問題。另外,不同的商家對於同樣的標品,商品的標題的描述是千奇百怪的。我們的目標是補充缺失的鏈接,將商品關聯到正確的標品上。

圖 6 商品圖譜標品關聯任務

針對標品關聯任務,我們構建了商品領域的同義詞判別模型:通過遠監督的方式利用商戶已經提供的少量有關聯的數據,作爲已有的知識圖譜構造遠監督的訓練樣本。在模型中,正例是置信度比較高的標品碼;負例是原始數據中商品名或者圖像類似但不屬於同一標品的 SPU。構造準確率比較高的訓練樣本之後,通過 BERT 模型進行同義詞模型訓練。最後,通過模型自主去噪的方式,使得最終的準確率能夠達到 99% 以上。總體能做到品牌,規格,包裝等維度敏感。

圖 7 商品圖譜標品關聯方法

抽象商品是用戶認知的層面,作爲用戶所評論的對象,這一層對用戶偏好建模更加有效。同時,在決策信息的展示上,抽象商品粒度也更符合用戶認知。例如下圖所示冰淇淋的排行榜中,羅列了用戶認知中抽象商品對應的 SKU,然後對應展示不同抽象商品的特點、推薦理由等。抽象商品層整體的構建方式,和標準商品層比較類似,採用標品關聯的模型流程,並在數據構造部分進行規則上的調整。

圖 8 商品圖譜抽象商品聚合

屬性維度建設

對一個商品的全面理解,需要涵蓋各個屬性維度。例如 “樂事黃瓜味薯片”,需要挖掘它對應的品牌、品類、口味、包裝規格、標籤、產地以及用戶評論特色等屬性,才能在商品搜索、推薦等場景中精準觸達用戶。商品屬性挖掘的源數據主要包含商品標題、商品圖片和半結構化數據三個維度。

圖 9 商品圖譜屬性建設

商品標題包含了對於商品最重要的信息維度,同時,商品標題解析模型可以應用在查詢理解中,對用戶快速深入理解拆分,爲下游的召回排序也能提供高階特徵。因此,這裏我們着重介紹一下利用商品標題進行屬性抽取的方法。

商品標題解析整體可以建模成文本序列標註的任務。例如,對於商品標題 “樂事黃瓜薯片”,目標是理解標題文本序列中各個成分,如樂事對應品牌,黃瓜對應口味,薯片是品類,因此我們使用命名實體識別(NER)模型進行商品標題解析。然而商品標題解析存在着三大挑戰:(1)上下文信息少;(2)依賴常識知識;(3)標註數據通常有較多的噪音。爲了解決前兩個挑戰,我們首先嚐試在模型中引入了圖譜信息,主要包含以下三個維度:

圖 10 商品圖譜標題解析

接下來我們探討如何緩解標註噪音的問題。在標註過程中,少標漏標或錯標的問題無法避免,尤其像在商品標題 NER 這種標註比較複雜的問題上,尤爲顯著。對於標註數據中的噪音問題,採用以下方式對噪音標註優化:不再採取原先非 0 即 1 的 Hard 的訓練方式,而是採用基於置信度數據的 Soft 訓練方式,然後再通過 Bootstrapping 的方式迭代交叉驗證,然後根據當前的訓練集的置信度進行調整。我們通過實驗驗證,使用 Soft 訓練 + Bootstrapping 多輪迭代的方式,在噪聲比例比較大的數據集上,模型效果得到了明顯提升。具體的方法可參見我們在 NLPCC 2020 比賽中的論文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。

圖 11 基於噪音標註的 NER 優化

效率提升

知識圖譜的構建往往是針對於各個領域維度的數據單獨制定的挖掘方式。這種挖掘方式重人工,比較低效,針對每個不同的領域、每個不同的數據維度,我們都需要定製化的去建設任務相關的特徵及標註數據。在商品場景下,挖掘的維度衆多,因此效率方面的提高也是至關重要的。我們首先將知識挖掘任務建模爲三類分類任務,包括節點建模、關係建模以及節點關聯。在整個模型的訓練過程中,最需要進行效率優化的其實就是上述提到的兩個步驟:(1)針對任務的特徵提取;(2)針對任務的數據標註。

圖 12 知識挖掘任務建模

針對特徵提取部分,我們摒棄了針對不同挖掘任務做定製化特徵挖掘的方式,而是嘗試將特徵和任務解耦,構建跨任務通用的圖譜挖掘特徵體系,利用海量的特徵庫來對目標的節點 / 關係 / 關聯進行表徵,並利用監督訓練數據來進行特徵的組合和選擇。具體的,我們構建的圖譜特徵體系主要由四個類型的特徵組構成:

  1. 規則模板型特徵主要是利用人工先驗知識,融合規則模型能力。

  2. 統計分佈型特徵,可以充分利用各類語料,基於不同語料不同層級維度進行統計。

  3. 句法分析型特徵則是利用 NLP 領域的模型能力,引入分詞、詞性、句法等維度特徵。

  4. 嵌入表示型特徵,則是利用高階模型能力,引入 BERT 等語義理解模型的能力。

圖 13 知識挖掘特徵體系

針對數據標註部分,我們主要從三個角度來提升效率。

  1. 通過半監督學習,充分的利用未標註的數據進行預訓練。

  2. 通過主動學習技術,選擇對於模型來說能夠提供最多信息增益的樣本進行標註。

  3. 利用遠程監督方法,通過已有的知識構造遠監督樣本進行模型訓練,儘可能的發揮出已有知識的價值。

人機結合 - 專業圖譜建設

當前醫藥健康行業結構性正在發生變化,消費者更加傾向於使用在線醫療解決方案和藥品配送服務,因此醫藥業務也逐漸成爲了美團的重要業務之一。相比於普通商品知識圖譜的建設,藥品領域知識具有以下兩個特點:(1)具有極強的專業性,需要有相關背景知識才能判斷相應的屬性維度,例如藥品的適用症狀等。(2)準確度要求極高,對於強專業性知識不允許出錯,否則更容易導致嚴重後果。因此我們採用將智能模型和專家知識結合的方式來構建藥品知識圖譜。

藥品圖譜中的知識可以分爲弱專業知識和強專業知識兩類,弱專業知識即一般人能夠較容易獲取和理解的知識,例如藥品的使用方法、適用人羣等;而強專業知識則是需要具有專業背景的人才能夠判斷的知識,例如藥品的主治疾病、適應症狀等。由於這兩類數據對專家的依賴程度不同,因此我們分別採取不同的挖掘鏈路:

在藥品這類專業性強的領域,專業知識的表述和用戶習慣往往存在差異。因此我們除了挖掘強弱專業知識外,還需要填補專業知識和用戶之間的差異,才能將藥品圖譜更好的與下游應用結合。爲此,我們從用戶行爲日誌以及領域日常對話等數據源中,挖掘了疾病、症狀和功效的別名數據,以及藥品通用名的俗稱數據,來打通用戶習慣和專業表述之間的通路。

圖 14 人機結合的專業知識挖掘

商品圖譜的落地應用

自從谷歌將知識圖譜應用於搜索引擎,並顯著提升了搜索質量與用戶體驗,知識圖譜在各垂直領域場景都扮演起了重要的角色。在美團商品領域中,我們也將商品圖譜有效的應用在圍繞商品業務的搜索、推薦、商家端、用戶端等多個下游場景當中,接下來我們舉幾個典型的案例進行介紹。

結構化召回

商品圖譜的數據,對於商品的理解很有幫助。例如,在商品搜索中,如用戶在搜索頭疼腰疼時,通過結構化的知識圖譜,才能知道什麼藥品是有止疼功效的;用戶在搜索可愛多草莓、黃瓜薯片時,需要依賴圖譜的常識知識來理解用戶真正需求是冰淇淋和薯片,而不是草莓和黃瓜。

圖 15 基於圖譜的結構化召回

排序模型泛化性

圖譜的類目信息、品類信息、屬性信息,一方面可以作爲比較強有力的相關性的判斷方法和干預手段,另一方面可以提供不同粗細粒度的商品聚合能力,作爲泛化性特徵提供到排序模型,能有效地提升排序模型的泛化能力,對於用戶行爲尤爲稀疏的商品領域來說則具有着更高的價值。具體的特徵使用方式則包括:

  1. 通過各顆粒度進行商品聚合,以 ID 化特徵接入排序模型。

  2. 在各顆粒度聚合後進行統計特徵的建設。

  3. 通過圖嵌入表示的方式,將商品的高維向量表示和排序模型結合。

圖 16 基於圖譜的排序優化

多模態圖譜嵌入

現有的研究工作已經在多個領域中證明了,將知識圖譜的數據進行嵌入表示,以高維向量表示的方式和排序模型結合,可以有效地通過引入外部知識達到緩解排序 / 推薦場景中數據稀疏以及冷啓動問題的效果。然而,傳統的圖譜嵌入的工作往往忽視了知識圖譜中的多模態信息,例如商品領域中我們有商品的圖片、商品的標題、商家的介紹等非簡單的圖譜節點型的知識,這些信息的引入也可以進一步提升圖譜嵌入對推薦 / 排序的信息增益。

圖 17 基於多模態圖譜的推薦 - 背景

現有的圖譜嵌入方法在應用到多模態圖譜表徵的時候會存在一些問題,因爲在多模態場景下,圖譜中邊的含義不再是單純的語義推理關係,而是存在多模態的信息補充的關係,因此我們也針對多模態圖譜的特點,提出了 MKG Entity Encoder 和 MKG Attention Layer 來更好的建模多模態知識圖譜,並將其表徵有效的接入至推薦 / 排序模型中,具體方法可以參考我們在 CIKM 2020 發表了的論文《Multi-Modal Knowledge Graphs for Recommender Systems》。

圖 18 基於圖譜的排序優化 - 模型

用戶 / 商家端優化

商品圖譜在用戶端提供顯式化的可解釋性信息,輔助用戶進行決策。具體的呈現形式包括篩選項、特色標籤、榜單、推薦理由等。篩選項的維度受當前查詢詞對應品類下用戶關注的屬性類別決定。例如,當用戶搜索查詢詞爲薯片時,用戶通常關注的是它的口味、包裝、淨含量等,我們將會根據供給數據在這些維度下的枚舉值展示篩選項。商品的特色標籤則來源於標題、商品詳情頁信息與評論數據的提取,以簡潔明瞭的結構化數據展示商品特色。商品的推薦理由通過評論抽取與文本生成兩種渠道獲得,與查詢詞聯動,以用戶視角給出商品值得買的原因,而榜單數據則更爲客觀,以銷量等真實數據,反應商品品質。

在商家端,即商家發佈側,商品圖譜則提供了基於商品標題的實時預測能力,幫助商家進行類目的掛載、屬性信息的完善。例如,商家填寫標題 “德國進口德亞脫脂純牛奶 12 盒” 後,商品圖譜提供的在線類目預測服務可將其掛載到 “食品飲料 - 乳製品 - 純牛奶” 類目,並通過實體識別服務,得到商品的 “產地 - 德國”,“是否進口 - 進口”,“品牌 - 德亞”,“脂肪含量 - 脫脂”,“規格 - 12 盒” 的屬性信息,預測完成後,由商家確認發佈,降低商家對商品信息的維護成本,並提升發佈商品的信息質量。

作者簡介

雪智,鳳嬌,姿雯,匡俊,林森,武威等,均來自美團平臺搜索與 NLP 部 NLP 中心。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/mFulX3gxAu7qQrPNFLZ6Zg