騰訊文檔 AI 助手技術實踐

作者：tensorchen

本文從技術應用架構以及 AI 大模型賦能角度介紹騰訊文檔 AI 智能助手的探索和實踐之路。作爲一款集多功能爲一體的 AI 產品，騰訊文檔全品類與 AI 進行了深度融合，全面提升用戶生活和辦公中的效率。通過騰訊文檔 AI，你腦海中靈光一現的 Idea 可以快速轉化爲詳細的內容，在各種類型的文檔中同源流轉。同時，面對紛繁複雜的信息，騰訊文檔 AI 也可以加以分析處理，幫助你從海量的信息中提煉出有價值的內容，從而將他們轉化爲屬於你的認知。

第一章：大模型給效率工具帶來的挑戰

隨着 ChatGPT 的發佈和火爆，全世界的目光彷彿都聚焦在了大語言模型上；其強大的語言理解能力和生成能力、上下文記憶、學習糾錯、思維鏈推理等關鍵能力的湧現，都標誌着”AIGC“的發展到達了技術拐點。全世界的開發者手握一個如此威力巨大的雷神之錘，恨不得把所有的釘子都錘一遍，所以大模型火熱的開始階段，有了這樣的一個言論：” 世界上所有的 app 都可以結合大模型重做一遍 “。話語雖經不起推敲，但大模型在一些領域確實可以提高驚人的效率，尤其是效率工具領域，從以下幾個宏觀角度分析，確實給效率工具帶來了極大的機會。

● 技術上：文本生成領域技術發展相對成熟

大模型落地最開始的應用，就是用於文本生成，同時在文本生成技術上發展也是最快最成熟的，承載用戶創作的效率工具是天然落地的有利場景，可以極大提高用戶創作環節的門檻和效率。

● 用戶上：關注熱度極高

用戶關注度是大家極容易忽視的一個分析角度，當新技術、新概念問世後，無論新技術有多厲害，最終是要落地成爲產品服務用戶的。叫好不叫座的技術 / 產品，並不是真正的好技術 / 產品。

從百度關鍵詞搜索指數，可以看出 ChatGPT 問世以來，所覆蓋的用戶面足夠廣、用戶接受度和對其感興趣程度極高，搜索指數峯值達 85W，可算是今年的 “互聯網春晚”。過查詢歷史數據對比，可更加具象化的瞭解本次搜索熱度：

上一個爆火的元宇宙概念，搜索峯值指數不過 10W，不及本次 ChatGPT 的 1/8。

22 年除夕當天，春晚關鍵詞搜索指數 150W，本次 ChatGPT 的關注度峯值已達春晚的一半。

● 發展規律：工具始終在率先變革

歷史不會重複，但會押韻。從過往歷代新技術變革到現在，每次工具都會率先的進行變革，一代人有一代人的生產力工具。

同樣從全球 / 全國的競品數據表現來看，完全也印證這件事：用戶對文檔類工具與 AI 的結合接受度高，需求旺盛，是本次大模型爆發後重點落地的優勢領域。

全球訪問量前 100 的 AI 產品中，共有 12 個文檔類工具競品上榜；全國訪問量前 100 的 AI 產品中，共有 26 個文檔類工具競品上榜。

是新機遇但也確實是新挑戰，對傳統效率的革新並非一蹴而就，無論是用戶認知教育、產品能力建設落地及差異化競爭、商業化模式都是新的挑戰。本文會重點聚焦於 AI 技術在產品落地環節及模型部分，其餘部分不在此長篇幅展開，埋坑後續更新~

第二章：文檔 AI 技術思維及架構

本章從技術角度介紹整個騰訊文檔 AI 技術工程的具體實踐架構，以及自身對 AI 應用落地的技術思考。

2.1 AI 應用技術思維

在實際應用思維模式可以總結爲：

1. 對人困難的，對 AI 也困難

2. 能讓程序做的，就不要讓 AI 做

舉個可能不完全契合的例子：

人捕魚這件事：人思考決策使用漁網（工具）進行捕魚。普通人不會實際製作漁網，普通人制作漁網需要有人教授相關技能，過程費時費力，成效低，見效慢。

AI 起到的是授人的作用；工具起到是漁的作用

在文檔實際案例中，AI 協助用戶美化 PPT 這件事：AI 理解用戶需要美化 PPT，AI 決策使用 PPT 美化工具進行美化。AI 不會實際美化 PPT，AI 美化 PPT 需要有人教授 AI 相關技能（海量的高質量的 PPT 美化相關數據進行模型訓練），過程費時費力，成效低，見效慢。

"將整個 PPT 的字體調整爲宋體" 任務

AI: 用於解決對話中理解用戶調整字體的意圖和具體的字體類別

工具：文檔 PPT 調整字體工具進行實際的執行

"創建一個關於明朝歷史的 PPT" 任務

AI: 用於解決對話中理解用戶創建 PPT 意圖和主題明朝歷史

AI：基於明朝歷史這個主題生成大綱和詳細文本內容

工具（搜圖工具）：基於大綱進行圖片搜索，實施 PPT 配圖

工具（PPT 模版）：基於大綱，文本，圖片 + 模版，生成完整 PPT

騰訊文檔自身業務包含諸多品類，例如 Word，Excel，PPT，PDF，收集表（Form），思維導圖，流程圖，智能表格（SmartSheet），智能文檔（SmartCanvas）以及正在進行中的白板品類。

不同品類是以產出爲導向構建的產品形態，內容和形態疊加在一起，（Word 需要調整格式，PPT 大家需要學習美化）。其核心在於內容信息的表達。

因此，落地騰訊文檔 AI 應用時，從技術角度思考通常 應用 AI 解決內容相關問題，應用工程解決形態或者樣式問題。

2.2 文檔 AI 技術架構

● AICopilot：提供 AI 側邊欄對話入口服務，主要負責對話的意圖識別工具分發，意圖保持，柔性處理，緩存邏輯，會話存檔等能力。

● AIServer：提供各品類獨有浮層助手能力。

● AIAgent：定位於 AI 智能體，目前主要提供文檔各品類的能力工具集合，被上層服務的意圖識別後所實際的驅動的接口。

● AIEngine：文檔的 AI 引擎服務，涉及對 AI 相關能力的抽象和封裝，保持統一抽象定義（主要包含文生文，文生圖，TTS，ASR，OCR，Embedding 等 AI 能力的抽象），屏蔽不同 AI 能力間的差異，奠定文檔可以在不同 AI 能力進行無縫切換的基礎。

● AIOperation: 文檔 AI 相關的灰度策略，隱私授權（柔性），運營操作。

● AIExtension：AI 拓展服務，主要包含和規劃爲 AI 應用落地過程中的其他支撐能力，例如文本搜索，圖片搜索，Python 執行引擎。

2.3 文檔 AI 中臺架構

文檔 AI 中臺的概念初始於騰訊文檔這款產品本身就存在 10 種品類，期望以中臺解決方案的形式爲不同品類進行賦能，同時也是這樣實踐和落地。此不僅僅在於騰訊文檔產品本身，依據部門內整體產品矩陣，也更需要將文檔 xAI 基礎能力作爲中颱，交付和賦能不同的產品。

文檔 AI 中臺同具體模型和產品應用解除耦合，形成了可以爲不同產品賦能的文檔 xAI 解決方案，提供對文檔 AI 領域的整體解決方案，賦能不同的 AI 應用產品。

2.4 中書閣 AI 應用框架

在文檔 AI 應用和中臺落地過程中，也將 AI 技術和周邊能力生態抽象實現爲 AI 應用框架，其定位：AI 應用落地的應用框架建設。願景：AI For Everyone，降低 AI 應用技術門檻，提升 AI 應用研發效率。

理念：

**標準化：**主要承接 Oteam 前兩項內容 AI 應用標準和 AI 應用規範，其將通過 AI 應用框架的標準化建設最終輸出給業務研發者。
**可視化：**在大語言模型應用中往往遇到多次同大語言模型交互並調用外部工具，對其中的過程的可視化將有助於研發調試，問題定位以及運營分析等。

框架將提供 UI 平臺，提供 LLM 應用過程的可視化界面（包含耗時分析，Token 消耗等等內容）。

框架也將提供 LLM 的可觀測性，提供基於 OpenTelemetry 標準的監控，分佈式追蹤和日誌等數據的上報。

**多語言框架：**將提供多語言實現，以滿足不用業務應用場景和業務技術棧。

對非 AI 專業友好，框架站在使用者角度進行模塊和能力抽象，多語言提供 AI 應用開發聚焦在 AI 產品能力落地及效果優化。

第三章：文檔 AI 應用側技術實踐

3.1 問答場景應用

文檔產品最核心能力之一是信息傳達，海量的信息中對信息進行 AI 問答是關鍵 AI 落地場景之一，在文檔中涉及對 Word，PPT，Sheet，思維導圖，收集表，知識庫等場景內容的問題。

文檔的 AI 應用工程實現關鍵一點在於搭建文檔問答的基礎解決方案。解決此類的問題的關鍵在於如何讓大模型理解領域知識（特定文檔中的內容信息）。

通常有兩種解決方案:

● 方案一：領域知識通過 FT 方式進入模型的權重文件中或通過 LoRA 動態疊加到模型權重文件中。

● 方案二：通過 Context 的方式即時的將領域知識傳入模型。

用戶的文檔信息，是用戶自身的信息的集合，它主要服務於用戶自身。我們不可能爲每位用戶專門訓練模型，基於時效性的考慮用戶文檔經常變更，也不可能每次變更重訓模型，其次基於用戶隱私的考慮，我們也不可能將用戶數據拿來進行訓練。顯然方案一不可行。

那麼在文檔中實際進行落地的也是方案二：通過 Context 的方式即時的將領域知識傳入模型。

這種技術被稱爲 RAG，RAG （Retrieval-Augmented Generation）搜索增強生成技術，也就是一套基於特定知識庫的檢索召回和大模型模型生成的技術方案，用於處理大模型中各種複雜的知識密集型任務，如知識問答。

整體解決方案由如下模塊串聯完成：

l 文檔加載：定義統一的 Document 數據模型，將實現默認典型的數據源加載實現，業務方也可以根據接口自定義實現自身所需文檔數據源。

文檔分片：大語言模型上下文大小有一定限制，需要將大量數據進行分割操作。
文檔 Embedding：Embedding 過程將對應文本向量化，以提供更好的語義表達。
文檔向量存儲：使用向量數據庫存儲文檔向量信息。
文檔召回：根據用戶輸入的問題召回跟問題最相關的文檔信息。
問題解答：根據召回文檔資料 + 用戶輸入問題提供給大語言模型進行知識問答。

爲解決如下兩種場景，在原有架構上規劃進行進一步的升級。

解決元數據問答、總結、非總結類問題
解決涉及多模態文檔的問答

3.2 意圖識別應用

依在文檔 AI 實際產生應用效益，需要將用戶意圖實際轉化爲具體的行爲

挑戰一：上百種指令場景

挑戰二：意圖和任務流程各不相擁，通過會涉及多種工具的串聯

如下實際用戶使用的示例:

結合用戶不同輸入應用場景，落地 AI 功能，關鍵在於 意圖識別 和 任務編排

● 通過 PromptID 爲唯一任務索引

● 將能力標準化工具化

● 通過 As Code 形式對任務進行編排（參考 gitlab 的，利用 yml 進行任務編排上百種任務場景）

用戶意圖更大的挑戰是多意圖識別，用戶可能同時進行字體調整和字號調整，對於上述的解決放哪，我們是不可能使用單個 function call 解決問題的，function call 的參數有限，也無法預測所有的用戶行爲。

那麼可行的大概兩種：

方案一：多輪 Function Call

方案二：生成代碼

最終我們規劃使用生成代碼的方案，主要多輪 function call 實現上無法解決任務順序問題，而通過生成的代碼是可行的。

3.3 表格應用場景

表格場景最大的挑戰是表格內容容量，根據目前大模型的 context 容量，大概只能支持有限個單元格。超大表格解決方案，核心策略在於：將原有 AI 返回結果升級爲 AI 返回得出結果的方式方法（即代碼）。

第四章：文檔 AI 模型側技術實踐

4.1 創作場景模型

使用數據增強方法，強化薄弱能力

對於創作能力，使用 self instruct、evol instruct 等方法構造類似的種子指令、並通過複雜化進化和泛化，進行數據增強。可以有一套比較標準化的流程：

● 收集種子指令 ：收集新需求，人工編寫簡單種子指令；

● 指令多樣化：參考 self instruct、evol instruct 寬度變換的做法，對種子指令進行多樣性變換，覆蓋更多的領域、主題、形式等；

● 指令複雜化 ：參考 evol instruct 深度變換操作（例如：增加約束、增加參考示例、增加具體化操作等），爲種子指令添加約束，讓指令變得複雜，爲每個指令增加 3-10 個約束條件；

● 指令泛化：對進化後的指令同意改寫，進一步豐富表達方式和形式，每個指令改寫 3-5 種形式。

● 結果抓取：標註和抓取上述進化後的指令；

● 結果清洗：使用 self-refine、人工檢查等方式，抓取結果的準確率接近 100%。

對比學習方式，提升理解穩定性

針對差別較小，難以區分的任務，例如：約束漏點、否定約束、數字要求等任務、專門構造對比樣本，加入 sft 或者進行強化學習。這類樣本可以加入 sft 階段學習，可以構造 pair 數據，加入偏好學習階段。

● 局部對比：在約束數量較多的情況下，模型難以兼顧到所有約束。容易出現漏點問題。通過從指令中逐個去掉約束、其他部分不變的方式，增加局部對比的樣本，讓每個約束在指令中出現和沒有出現的情況對應什麼 response，模型都見到過。

● 否定對比：針對否定約束，通過去掉否定條件和對否定條件取反的方式，構造對比樣本

寫一篇郵件，關於提前預約我們的美容護膚師，享受專業的面部護理服務和個性化護膚方案推薦。郵件需包含郵件主題、收件人、發件人、正文等基本部分。在郵件中指出收件人需要在預約後的 48 小時內完成預約確認和安排護膚師的任務，並提醒收件人應通過電話或電子郵件回覆預約信息。不要出現 "順祝商祺"

● 數字變換對比：對指令裏的數字要求的數字進行變換，構造對比樣本

編寫一篇關於未來城市規劃的短文，強調可持續發展和綠色出行的重要性。同時，探討如何有效利用現有資源，以減少對環境的影響。請務必包括至少三個創新性的規劃策略，並在文中提供相應的實例或案例。

編寫一篇關於未來城市規劃的短文，強調可持續發展和綠色出行的重要性。同時，探討如何有效利用現有資源，以減少對環境的影響。請務必包括至少六個創新性的規劃策略，並在文中提供相應的實例或案例。

4.2 表格場景模型

公式生成

公式生成除了可以識別基礎公式需求外（“求 A 列的和”），還支持熱門領域專業術語的理解，例如：用戶問營運資金週轉率最大的產品，基於混元知識蘊含能力，混元知道【營運資金週轉率 = 銷售額 / 平均營運資金】，進而計算出每個產品的營運資金週轉率。

此外，在技術方案上使用了思維鏈（COT）+ 代碼生成（POT）的方式，解決公式嵌套帶來的效果不穩定的問題。

思維鏈（CoT）被認爲最具開拓性和影響力的提示工程技術之一，它可以增強大型語言模型在決策過程中的表現。

CoT 迫使模型將推理過程劃分爲中間步驟。這種方法類似於人類的認知過程，將複雜的挑戰分解爲更小、更易於管理的部分。

思維程序（PoT）是一種獨特的 LLM 推理方法。它不僅僅是生成自然語言答案，而是要求創建一個可執行程序，可以在 Python 等程序解釋器上運行，從而產生實際的結果。

PoT 提供了一個更清晰、更具表達力和基礎的答案推導模型，提高了準確性和理解力。

圖表生成

圖表生成的核心部分包括 6 個模塊，其中拒識、分步改寫、代碼生成三個模塊是基於大模型的推理模塊，背後模型均經過了模型精調。

具體地：

拒識模型能夠識別用戶問題和表格的相關性，對與表格無關的問題或非繪圖問題進行拒絕回覆
分步改寫模型針對不同表格和不同問題，將繪圖步驟拆解爲多個可執行步驟
代碼生成模型根據繪圖步驟生成 python 表格可視化代碼。

第五章：總結

結合騰訊文檔 AI 落地過程，總結一下 AI 助手開發過程中的一些經驗：

對人困難的，對 AI 也困難
能讓程序做的，就不要讓 AI 做
應用 AI 解決內容相關問題，應用工程解決形態或者樣式問題

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/MNY6647V4hPByNzghyDUfQ