海量標籤如何治理？

標籤評分是標籤治理的一個重要措施，通過給標籤打分，可清晰直觀的從各個維度評估標籤，掌握標籤真實使用情況，進行標籤持續優化，助力業務運營。同時，也能幫助數據團隊判斷哪些標籤更應該投入計算與存儲資源，合理規劃集羣資源。

一、爲何要使用標籤評分

經過前期標籤體系設計、標籤加工，標籤終於可以上線，讓業務人員使用，發揮價值了！

隨着標籤上線一段時間後，我們開始關心每天佔用計算資源與存儲空間，跑出來的上百個標籤，業務同學真的用到了多少，業務收益是否能覆蓋數據成本呢？標籤上線後，其質量怎麼樣，是否存在老規則不適用、需要持續優化的情況？

帶着這一問題，我們需要用一種方法來評估標籤上線後的使用情況，標識各個標籤的價值。參考電影評分、花唄評分等形式，我們決定也給標籤打個分、排個序，簡單明瞭。

二、標籤評分模型

標籤評分模型，經過考慮我們選取了 5 個維度作爲評分入參：

圖片

標籤總評分 = a * 標籤使用度評分 + b * 標籤關注度評分 + c * 標籤質量評分 + d * 標籤持續優化度評分 + e * 標籤安全度評分

其中標籤使用度、標籤關注度、標籤質量、標籤持續優化度作爲核心維度，標籤安全度可根據實際情況考慮是否納入。a、b、c、d、e 是權重，總和爲 100%。

1. 標籤使用度評分

標籤使用度，用以評估標籤被分析、外部系統的使用情況。

在袋鼠雲標籤產品中，標籤有這幾種使用場景：

（1）標籤引用：如原子標籤被衍生標籤應用、衍生標籤被組合標籤引用等，基於該場景，計算 “標籤引用次數” 指標。

（2）標籤分析：標籤在標籤圈羣、羣組畫像、羣組對比、顯著性分析等畫像分析功能中被分析的情況，計算 “標籤分析次數” 指標。

（3）標籤調用：標籤通過數據 API 被外部應用查詢的次數，計算 “標籤調用次數” 指標。

基於以上 3 個指標，我們首先採用 Sigmoid 函數將指標轉化爲評分，再將各個指標的評分加權彙總成標籤使用度評分。

圖片

2. 標籤關注度評分

標籤關注度，用以評估被搜索、查看、收藏的情況。

袋鼠雲標籤產品中，標籤關注度與以下場景有關：

（1）標籤搜索：標籤在標籤市場被用戶搜索的情況，計算 “標籤搜索次數” 指標。

（2）標籤查看：標籤被點擊查看基礎信息、分析頁面等的次數，計算 “標籤查看次數” 指標。

（3）標籤收藏：收藏該標籤的用戶數，計算 “收藏用戶數” 指標。

以上 3 個指標可反映標籤的關注熱度，我們依然採用 Sigmoid 函數將指標轉化爲評分，再將各個指標的評分加權彙總成標籤關注度評分。

圖片

3. 標籤質量評分

標籤質量，用以評估用戶被打標情況，反映標籤規則的合理性。

當我們定義了標籤和標籤值，經過計算之後，標籤值打在用戶身上的很少，那說明我們的規則執行不合理。比如我們定義了 “活躍度” 這個標籤，分爲 “高活躍、中活躍、低活躍度” 等，但真實被打上的這個標籤的用戶，低於 70%，還有很大一部分比例是空值，未打上該標籤，說明我們制定的標籤值規則有漏洞，需要完善。

系統將計算每個標籤的 “標籤覆蓋度”，將覆蓋度歸一化爲分數，轉化成評分。

圖片

4. 持續優化度評分

持續優化度，用以評估標籤上線後，是否後續再去優化該標籤。

在客戶的生命週期中，不斷有新用戶流入、沉默用戶流失；公司戰略調整、產品發佈等都會影響客戶行爲，這些變化我們需要以數據的方式呈現，所以我們需要不斷根據業務調整、客戶變化調整我們的標籤策略，以追求可通過標籤直接地、迅速地反映客戶情況，指導業務運營。

持續優化度，我們通過 “標籤優化次數” 指標來評估，指標籤上線後標籤被編輯再次發佈的次數。我們同樣採用 Sigmoid 函數將指標轉化爲評分。

圖片

5. 安全度評分

標籤安全度，不能反映標籤的熱度，但也將其作爲了標籤評分的一個維度，可根據企業情況考慮是否納入。

在標籤相關產品中，標籤安全相關的策略有：

（1）標籤的可見度：標籤可編輯、可查看的用戶範圍。

（2）標籤使用是否需要申請授權：標籤發佈後，其他人使用該標籤，是否需要申請審批。

（3）標籤是否進行行級權限控制：上面我們控制了標籤的列權限，行級權限反映該標籤是否設置了行級權限。

（4）標籤是否脫敏：標籤是否進行脫敏。

根據標籤的安全度策略配置情況，我們也採用評分的方式來評估。

圖片

基於以上 5 個維度的評分，我們根據前面提的公式加權彙總，得到總評分。

圖片

三、標籤評分的應用

基於標籤評分，爲了更加直觀的讓標籤管理員、業務人員查看熱門標籤、沉默標籤等，通過排行榜的方式呈現。

1. 熱門標籤排行榜

基於標籤的使用度、關注度、持續優化度 3 個角度來計算標籤的熱門評分，展示 TOP n 的熱門標籤。

圖片

熱門標籤說明這些標籤被經常使用，我們需要持續關注這些標籤的正常運行、質量，保障業務使用。

2. 沉默標籤排行榜

熱門的標籤的反向排序便是沉默標籤，沉默標籤說明這些標籤使用率很低，可考慮定期下線，節省集羣資源。

圖片

3. 綜合排行榜

綜合排行榜便根據標籤的綜合評分進行排序，從標籤使用度、關注度、持續優化度、質量、安全等幾個維度評估，全面評估標籤。

圖片

4. 標籤使用度、關注度、持續優化度、質量、安全分榜單排行

用戶可根據自己更加關注的維度，查看標籤使用度、關注度、持續優化度、質量、安全各個子維度的排行榜。同時，可查看各個標籤的具體指標，如使用度維度，可查看各個標籤的當前引用次數、分析次數、調用次數，針對具體指標具體分析，滿足不同的標籤分析場景。

圖片

標籤評分模型上線後，我們需要根據實際情況調整不同維度的權重，符合自身實際情況。當經過一段時間的應用，大家認可這套評估邏輯之後，便可以將靜態化的評分展示轉化爲動態化的告警、自動化治理等，可設置標籤質量告警、評分告警，自動通知標籤管理員、責任人等。

以上便是在產品中應用的評分邏輯，希望對大家有所幫助，也可提出不同思路優化評分模型，達到更好的標籤治理效果。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/IcFJ1FQ1YNuXlnTJGWieAw

猜你喜歡