大語言模型中的提示隱私保護

一、簡介：

大語言模型（LLM）擁有龐大的規模、預先訓練的知識和卓越的性能，被廣泛應用於各種任務。提示學習 (prompt learning) 和指令微調(instruction tuning) 是兩種重要的使得大模型能理解具體任務的技術手段。然而，這些 prompt 或 instruction 常常會包含隱私信息，使得難以直接共享。本文講解了兩篇大語言模型中的 prompt 和 instruction 的隱私保護論文，它們都致力於如何在保護隱私的前提下利用大模型生成高質量的 prompt 和 instruction。

二、Prompt 的隱私保護：

論文：Flocks of Stochastic Parrots: Differentially Private Prompt Learning for Large Language Models

會議：NeurIPS 2023

Motivation

現有研究表明，LLM 會記住用於訓練或微調 LLM 的數據信息，從而造成數據隱私泄露 [1,2]。除了這些在訓練 / 微調 LLM 時用到的數據隱私，當利用訓練好的 LLM 執行下游任務時，所用到的 prompt 同樣也會泄露用戶隱私。比如，prompt 可能會涉及知識產權，甚至有些 prompt 可能包含用戶個人隱私信息。爲了驗證這個猜想，本文首先基於文本分類任務的 prompt 進行了成員推理攻擊（MIA)，目的是判斷某個私有數據是否用在了 prompt 中。這裏 MIA 的核心思想是，如果一個私有數據用在了 prompt 中（member），那麼 prompted LLM 輸出此數據正確類別的概率會比 non-member 要高（這裏我感覺只適用於 soft prompt，離散 prompt 不存在訓練過程）。實驗結果如圖 1 所示：

可以發現，MIA 成功率比 random guess（紅線）要好很多。因此作者得出結論 prompt 本身也會泄露用戶隱私（感覺只能說 soft prompt 會泄露用戶隱私）。

Method

首先本文設定 LLM 是黑盒訪問，即不能改變 LLM 的參數，並且本文的任務限定爲文本分類任務。爲了防止隱私泄露，作者針對 soft prompt 和 discrete prompt 分別提出了方案。首先對於 soft prompt，因爲要發佈的是 prompted 之後的模型，本質目的是爲了讓 prompt 向量不記住原始數據的隱私，所以可以直接用現有的 DPSGD 算法 [3] 來進行 prompt 向量的更新，稱爲 PromptDPSGD。模型圖如下：

對於 discrete prompt，由於無法使用 DPSGD，作者考慮利用原始的 private prompts 去生成新的滿足差分隱私的 prompt 來發布（但本文限定在文本分類任務，所以合成操作只是合成了最後一個 token，即文本的 class，並沒有考慮任意文本形式的 prompt 生成）。它借鑑了 PATE（Private Aggregation of Teacher Ensembles）[4] 模型的思想。PATE 模型的提出是爲了讓機器學習 \ 深度學習模型滿足差分隱私性質。它首先將隱私數據劃分成多個部分，然後在每個部分數據集上訓練一個 teacher 模型，假設存在一些和隱私數據分佈一致的 public unlabeled data，PATE 利用每個 teacher 模型給這些 unlabeled data 打標籤，然後將所有 teacher 模型的結果做一個投票，並將投票的結果加入拉普拉斯噪音作爲 label。這樣就把隱私數據的知識傳遞給了 public data，並且可以證明滿足差分隱私的性質。爲了減少隱私預算，PATE 利用 labeled public data 再訓練一個 student model，這樣根據後處理規則，只有訓練 student model 的數據會消耗隱私預算，之後的查詢將不再消耗隱私預算。將 PATE 利用到 discrete prompt，作者提出 promptPATE，首先劃分隱私數據並在每部分數據中設計 private prompts 作爲 teacher，然後將這些 teacher prompts 拼接 unlabeled public data 輸入到 LLM 進行打標籤，同樣加入拉普拉斯噪音。最終從 labeled public data 中選取代表性的 prompt 作爲 student prompt 進行發佈。PromptPATE 流程圖如下所示：

Experiments

作者在四個文本分類數據集中驗證了 PromptDPSGD 和 PromptPATE 的效果。可以看出，對比 Prefix，full-tuning，LoRA 三種調整大模型的方式，PromptDPSGD 需要微調的參數更少，並且能達到相當的效果，同時還以合理的隱私預算滿足了差分隱私性質。

而對於離散的 prompt，作者比較了不同數據集的效果，以及 IID 和 OOD 下的遷移能力，可以看出 PromptPATE 在很少的隱私預算下達到了和不加隱私保護相當的效果，同時也發現當 prompt 樣本數增多時（n-shot）和利用更強大的語言模型時（如 GPT3-Curie），模型的效果會更好。

Conclusion

之前的工作對於 LLM 的隱私保護致力於防止大模型記住訓練數據的隱私，即在訓練或微調大模型的時候來保護這些訓練數據的隱私。而這篇論文是第一篇保護 prompt 本身的論文，或者說，是在訓練好大模型之後的階段，利用大模型來做下游任務時對於下游數據的隱私保護。模型主要貢獻點在於對離散 prompt 的保護，提出利用 PATE 合成滿足差分隱私的 promp，並在合理的隱私預算下取得了比較滿意的結果，但是本文在 motivation 層面比較模糊（prompt 是否含有隱私以及保護 prompt 隱私的挑戰點），而且提出的模型只針對於 few-shot 文本分類任務（只是合成 label），沒有做到任意形式的 prompt 合成。

三、Instruction 的隱私保護：

論文：Privacy-Preserving Instructions for Aligning Large Language Models

會議：ICML 2024

Motivation

上一篇論文致力於 prompt 本身的保護，假設對 LLM 是黑盒訪問，不涉及 LLM 參數的微調。這篇論文更進一步，提出對 instruction 的保護。作者首先給出了 instruction-tuning 的一般步驟：

相較於對 prompt 的保護，instruction 涉及微調大模型，因此整個過程包含了兩方面的隱私泄露：（1）製作 instruction 的時候，需要手動給 instruction 打標籤，這個時候收集的原始 instruction 中的隱私信息會泄露給打標籤的人，（2）在微調 LLM 的時候，LLM 本身會記住 instruction 中的隱私信息。簡單來說就是保護 instruction 本身和防止 LLM 參數記憶。

Method

和 promptPATE 類似，這篇論文也提出合成滿足差分隱私性質的 instruction 來替代原始 instruction 進行發佈。整個流程如下圖所示：

它共涉及兩個階段，第一個階段是滿足差分隱私的 instruction-tuning。這裏它同樣採用了 DP-Adam 來對大模型進行隱私保護微調，此過程滿足差分隱私（防止 LLM 記憶 user instruction），所以微調後的 LLM 也可以進行發佈。在得到微調後的 LLM 之後，就可以從 LLM 中採樣生成合成的 instructions，這也是和 promptPATE 不同的地方，promptPATE 是少量（few-shot）文本分類 prompt 的合成，這裏是大量任意文本形式的 instructin 合成（但這裏應該需要大量的 user instructions 才能生成可用的合成 instruction）。由於 LLM 的微調是基於 DP-Adam，根據差分隱私後處理特性，後續對 LLM 的採樣不消耗隱私預算。可以看出，相較於原始的 instruction-tuning，這裏第一階段利用 LLM 來生成滿足差分隱私的 instructions，避免了標註人員的介入，並且得到的 instructions 不包含用戶隱私，所以可以直接進行下游任務的 instruction-tuning。但是，此時得到的 instruction 效用比較低，並不能直接代替原始 instruction，所以作者又提出了第二階段的 instruction 校正。核心思想是讓合成 instruction 的分佈和原始 user instruction 一致。首先將合成 instruction 和 user instruction 都經過編碼器得到向量表示，然後對合成 instruction 進行 k-means 聚類分成 k 個簇。同時將 user instruction 的向量表示劃分到每個簇中（按照到各個簇中心的距離）。這樣就得到 real user instruction 的分佈和合成 instruction 的分佈，之後對合成 instruction 進行重新採樣來逼近 real instruction 分佈就可以了。注意此過程中 real instruction 的分佈會泄露數據隱私，所以在得到向量後需要加上高斯噪音再進行發佈以滿足差分隱私。這裏簇的大小 K 是隱私和效用的折中，教大的 K 會使分佈刻畫更準確但可能會更易受噪音影響（每個簇中的 real instruction 會變少），實驗也發現，效用會隨着 K 的增大先增加後平緩甚至減小。

Experiments

作者首先衡量了 real instructions 和合成 instruction 的分佈差異，分別利用 unigram 和 sentence-T5 兩個方法來衡量分佈，利用 MAUVE score 來衡量分佈差異。FLAN 是一個 public 的 OOD instruction datasets，可以看出雖然有很多 public instructions，in-domain sensitive instructions 仍舊是很重要的，public instructions 的分佈和 in-domain 的分佈差異很大。同時可以看出，filtering（第二階段的校正）有效緩解了分佈差異。

下圖同樣展示了校正後的分佈更貼近 real instruction 分佈。

對於合成 instruction 的效用，作者比較了 OOD instruction（FLAN)，沒有 fine-tuning 的 public 模型 Vicuna-v1.3，private instructions（Chatbot Arena) 和本文合成的數據集（Synthetic）的效果。可以看出合成數據集達到了和 real instructions 相當的效果，並且優於 FLAN 和 Vicuna-v1.3。這也說明了 in-domain private instructions 和對 LLM 進行 fine-tune 的重要性。

Conclusion

本文利用 user 的隱私 instruction 微調 LLM 合成滿足差分隱私的 instruction，然後再進行校正提高效用，最終就可以將合成的 instruction 進行發佈。但本文需要用戶端部署並微調 LLM，這對資源受限設備提出了挑戰。

四、總結

現有研究大多集中於研究如何防止 LLM 在訓練過程中記憶訓練數據中的隱私信息 [4,5]，這兩篇論文致力於保護 prompt/instruction 本身的隱私，屬於 LLM 應用中對不同對象的隱私保護。但對 prompt/instruction 的保護在隱私定義方面還比較模糊，在用戶的 instruction 中可能只有部分信息具有隱私，或者用戶會共享部分的信息，這種情況下需要設計更加個性化的 prompt/instruction 的隱私保護手段。同時還需要考慮在資源受限設備中的隱私保護手段（因爲很難將 LLM 部署到資源受限設備上，所以現有基於 LLM 的 prompt/instruction 發佈不可行）。後續可能研究方向還包括對多種模態數據的 prompt/instruction 隱私保護。

五、參考文獻

[1] Zhang C, Ippolito D, Lee K, et al. Counterfactual memorization in neural language models[J]. Advances in Neural Information Processing Systems, 2023, 36: 39321-39362.

[2] Mireshghallah F, Uniyal A, Wang T, et al. Memorization in nlp fine-tuning methods[J]. arXiv preprint arXiv:2205.12506, 2022.

[3] Abadi M, Chu A, Goodfellow I, et al. Deep learning with differential privacy[C]//Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 2016: 308-318.

[4] Wu F, Inan H A, Backurs A, et al. Privately aligning language models with reinforcement learning[J]. arXiv preprint arXiv:2310.16960, 2023.

[5] Carlini N, Tramer F, Wallace E, et al. Extracting training data from large language models[C]//30th USENIX Security Symposium (USENIX Security 21). 2021: 2633-2650.

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/qc0u8JglZ-mbROhadFU2-w

一、簡介：

二、Prompt 的隱私保護：

Motivation

Method

Experiments

Conclusion

三、Instruction 的隱私保護：

Motivation

Method

Experiments

Conclusion

四、總結

五、參考文獻

猜你喜歡