機(jī)器學(xué)習(xí)隱私問題綜述總結(jié)
作者:賀崇德
來源:SegmentFault 思否社區(qū)
社會(huì)進(jìn)步科技發(fā)展,人工智能地位突出。機(jī)器學(xué)習(xí)面臨著巨大的隱私泄露問題。
機(jī)器學(xué)習(xí)隱私基礎(chǔ)知識(shí)
機(jī)器學(xué)習(xí)隱私泄露:
不可靠的數(shù)據(jù)收集者泄露信息(直接泄露) 攻擊者分析機(jī)器學(xué)習(xí)模型輸出結(jié)果,逆向推出訓(xùn)練數(shù)據(jù)中的用戶敏感信息(間接泄露)
隱私保護(hù)的兩個(gè)方向:
以同態(tài)加密和安全多方計(jì)算為代表的加密方法 以差分隱私為代表的擾動(dòng)方法
兩個(gè)方向的對(duì)比:
加密方法運(yùn)算量大,性能開銷大,往往難以落地 擾動(dòng)方法僅用噪音添加機(jī)制,對(duì)性能影響較小,但會(huì)對(duì)模型預(yù)測(cè)準(zhǔn)確性產(chǎn)生影響。它面臨的主要挑戰(zhàn)是:設(shè)計(jì)合理的擾動(dòng)算法,平衡隱私保護(hù)和可用性。
機(jī)器學(xué)習(xí)的分類:
【集中學(xué)習(xí)】:數(shù)據(jù)首先被數(shù)據(jù)收集者收集,再由數(shù)據(jù)分析者分析,用戶失去數(shù)據(jù)控制權(quán) 【分布式學(xué)習(xí)】:訓(xùn)練數(shù)據(jù)和計(jì)算負(fù)載都分布在工作節(jié)點(diǎn)。各參與方穩(wěn)定,負(fù)載均衡,數(shù)據(jù)獨(dú)立同分布。 【聯(lián)邦學(xué)習(xí)】:數(shù)據(jù)在本地的同時(shí)訓(xùn)練出全局模型。各方自主決定何時(shí)加入或退出,各方負(fù)載不均衡,數(shù)據(jù)可能不是獨(dú)立同分布。
補(bǔ)充:
聯(lián)邦學(xué)習(xí):首先用戶抽取一組滿足條件的客戶端,被選中的客戶端從服務(wù)器下載當(dāng)前模型權(quán)重 參數(shù)和一個(gè)訓(xùn)練程序,然后客戶端在本地計(jì)算對(duì)模型參數(shù)的更新。接著,服務(wù)器收集客戶端上傳的參數(shù)。最后,服務(wù)器更新共享模型,如此迭代,直到收斂。
間接泄露信息的攻擊者攻擊方式:
重構(gòu)攻擊(攻擊者試圖重構(gòu)個(gè)體敏感信息或者重構(gòu)訓(xùn)練模型) 模型反演攻擊(試圖重構(gòu)用戶個(gè)體信息) 模型竊取攻擊(試圖重構(gòu)訓(xùn)練模型) 成員推斷攻擊(試圖驗(yàn)證某個(gè)成員是否為訓(xùn)練模型成員)
機(jī)器學(xué)習(xí)敵手模型
敵手目標(biāo):訓(xùn)練數(shù)據(jù)隱私、模型隱私、預(yù)測(cè)結(jié)果隱私 敵手知識(shí):白盒、黑盒 敵手能力:強(qiáng)敵手、弱敵手 敵手策略:模型逆向攻擊、模型提取攻擊、成員推斷攻擊
機(jī)器學(xué)習(xí)安全威脅及防御技術(shù)
常見安全威脅:
訓(xùn)練階段的安全威脅 投毒攻擊(放入有害數(shù)據(jù)或者修改數(shù)據(jù)) 預(yù)測(cè)階段的安全威脅 對(duì)抗攻擊(敵手精心設(shè)計(jì)對(duì)抗樣本,使模型分類錯(cuò)誤) 詢問攻擊(主要針對(duì)黑盒攻擊)
機(jī)器學(xué)習(xí)安全防御技術(shù)
正則化(為代價(jià)函數(shù)添加正則項(xiàng)/懲罰項(xiàng)) 對(duì)抗訓(xùn)練(添加對(duì)抗樣本訓(xùn)練) 防御精餾 直接拒絕對(duì)抗樣本(數(shù)據(jù)清洗)
機(jī)器學(xué)習(xí)隱私威脅及保護(hù)
機(jī)器學(xué)習(xí)常見的隱私威脅
訓(xùn)練階段的隱私威脅 竊取訓(xùn)練數(shù)據(jù) 聯(lián)邦學(xué)習(xí)易受不誠實(shí)的參與者的攻擊 預(yù)測(cè)階段的隱私威脅(在預(yù)測(cè)階段通過逆向攻擊可以提取訓(xùn)練數(shù)據(jù)或者訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)特性) 提取目標(biāo)模型信息 成員推理攻擊
注:機(jī)器學(xué)習(xí)各階段隱私保護(hù)問題
數(shù)據(jù)收集階段:保護(hù)原始數(shù)據(jù),避免因數(shù)據(jù)挖掘而泄露 數(shù)據(jù)預(yù)處理階段:保證數(shù)據(jù)處理各方不能泄露隱私 模型訓(xùn)練和測(cè)試階段:多個(gè)參與方之間如何安全的完成各種不同的機(jī)器學(xué)習(xí)計(jì)算工作 預(yù)測(cè)階段:保證模型隱私性及輸出結(jié)果的隱私性
機(jī)器學(xué)習(xí)隱私保護(hù)方案分類
按機(jī)器學(xué)習(xí)模型的種類分類
監(jiān)督學(xué)習(xí)的隱私保護(hù) 半監(jiān)督學(xué)習(xí)的隱私保護(hù) 無監(jiān)督學(xué)習(xí)的隱私保護(hù) 強(qiáng)化學(xué)習(xí)的隱私保護(hù)
按機(jī)器學(xué)習(xí)過程分類
機(jī)器學(xué)習(xí)模型的訓(xùn)練階段 機(jī)器學(xué)習(xí)模型的預(yù)測(cè)階段
按模型訓(xùn)練方式分類
集中式學(xué)習(xí)的隱私保護(hù) 分布式學(xué)習(xí)的隱私保護(hù) 聯(lián)邦學(xué)習(xí)的隱私保護(hù)
傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、聯(lián)邦學(xué)習(xí)的隱私保護(hù)
傳統(tǒng)機(jī)器學(xué)習(xí)隱私保護(hù)
隱私保護(hù)技術(shù):
加密 擾動(dòng)(代表性方法:差分隱私) 幾種差分隱私概念 敏感度:輸入數(shù)據(jù)中任意一條改變,輸出結(jié)果中變化的最大值。
全局隱私:統(tǒng)一收集,然后擾動(dòng)
本地隱私:數(shù)據(jù)收集前,先在本地?cái)_動(dòng)。
本地化差分隱私:以上兩種均不再適用。最新提出。
差分隱私保護(hù)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化:
輸入擾動(dòng)(分析前擾動(dòng)) 輸出擾動(dòng)(對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化得出的最優(yōu)參數(shù)擾動(dòng)) 目標(biāo)擾動(dòng)(向經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的目標(biāo)函數(shù)表達(dá)式中加入隨機(jī)項(xiàng)) 梯度擾動(dòng)(在利用梯度下降求解最優(yōu)模型參數(shù)過程中引入隨機(jī)噪音)
注:擾動(dòng)后要滿足差分隱私。
不足:復(fù)雜的多分類任務(wù)存在問題。深度學(xué)習(xí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化目標(biāo)函數(shù)是一個(gè)非凸函數(shù),故輸出擾動(dòng)和目標(biāo)擾動(dòng)不再適用
深度學(xué)習(xí)隱私保護(hù)
寬松差分隱私 絕對(duì)的差分隱私會(huì)導(dǎo)致天平傾向隱私,而導(dǎo)致系統(tǒng)不可用 集成模型 一種基于知識(shí)遷移的深度學(xué)習(xí)隱私保護(hù)框架。引入學(xué)生模型和教師模型
不足:隱私性降低,泄露風(fēng)險(xiǎn)的可能性變大。另外,差分隱私僅能實(shí)現(xiàn)單點(diǎn)的隱私保護(hù),若不同記錄之間存在關(guān)聯(lián),攻擊者仍可對(duì)滿足差分隱私的算法進(jìn)行攻擊。
聯(lián)邦學(xué)習(xí)隱私保護(hù)
加密 有一種基于秘密共享的安全多方計(jì)算協(xié)議---安全聚合 差分隱私機(jī)制 對(duì)上傳至服務(wù)器端的參數(shù)添加擾動(dòng)。但無法保證參數(shù)傳遞過程中的機(jī)密性。 區(qū)塊鏈技術(shù) 區(qū)塊鏈技術(shù)因其去中心化、安全可信、不可篡改 等特性,能夠監(jiān)測(cè)服務(wù)端或設(shè)備在聯(lián)邦學(xué)習(xí)中存在 的惡意行為,保證訓(xùn)練過程的透明,從而為隱私保護(hù) 提供一種新的解決思路 區(qū)塊鏈技術(shù)本身仍存在吞吐量有限、可擴(kuò)展性差等問題,故此類方法在實(shí)際場(chǎng)景中難 以支撐大規(guī)模的應(yīng)用,其有效性仍有待商榷
不足:處于起步階段,存在很多挑戰(zhàn)。
常用隱私保護(hù)密碼技術(shù)
通用安全多方計(jì)算
基礎(chǔ)知識(shí)
安全多方計(jì)算定義:有m個(gè)參與方,他們各自擁有各自的數(shù)據(jù)集,在無可信第第三方的情況下,如何安全地計(jì)算一個(gè)約定函數(shù)f,同時(shí)要求每個(gè)參與方除了計(jì)算結(jié)果外,得不到任何其他參與方的任何輸入信息。
任何一份函數(shù)都有一個(gè)等價(jià)的電路。對(duì)任意函數(shù)的安全多方計(jì)算可以轉(zhuǎn)換為等價(jià)電路c的安全多方計(jì)算。
邏輯電路的安全多方計(jì)算:只需解決“與門”、“或門”、“非門” 算數(shù)電路的安全多方計(jì)算:只需解決“加法門”、“乘法門”
安全性:(一般先設(shè)計(jì)半誠實(shí)安全的協(xié)議,然后轉(zhuǎn)換為惡意敵手安全)
半誠實(shí)模型安全 惡意敵手模型安全
通用安全多方計(jì)算協(xié)議的主流構(gòu)造方法
基于YAO混亂電路的構(gòu)造:安全兩方計(jì)算協(xié)議 基于秘密共享的構(gòu)造:安全多方計(jì)算協(xié)議
基礎(chǔ)密碼協(xié)議:
OT協(xié)議:不經(jīng)意傳輸協(xié)議/遺忘傳輸協(xié)議 OT協(xié)議是一個(gè)兩方計(jì)算協(xié)議,一方是發(fā)送方,一方是接收方 接收方獲得了一些信息,但發(fā)送方不知道接收方收到了了哪些信息。 惡意敵手模型下,會(huì)進(jìn)行大量OT計(jì)算,這使得OT協(xié)議常常成為兩方計(jì)算瓶頸。因此盡可能少的OT調(diào)用,或者使用OT擴(kuò)展技術(shù),用少的OT計(jì)算實(shí)現(xiàn)大量OT實(shí)例。 GC協(xié)議:混亂電路協(xié)議。一種通用高效的兩方計(jì)算協(xié)議 SS協(xié)議:秘密共享,秘密分割協(xié)議 GMW協(xié)議:一種高效的多方計(jì)算協(xié)議。與GC類似需要將計(jì)算描述為布爾電路。與GC不同,GMW每一層布爾門都需要一次交互。與GC相比,GMW需要更少的數(shù)據(jù)通信。
分析
多方計(jì)算方案只在學(xué)習(xí)過程中保護(hù)了訓(xùn)練的隱私而不能防止對(duì)結(jié)果模型的推理攻擊。
構(gòu)建關(guān)鍵:
根據(jù)不同協(xié)議特點(diǎn),選擇合適的基礎(chǔ)密碼學(xué)工具以保證安全性。 對(duì)機(jī)器學(xué)習(xí)模型中的非線性函數(shù)設(shè)計(jì)高效的替代表達(dá)式。
同態(tài)加密技術(shù)
如果一個(gè)加密算法能夠把明文空間及其運(yùn)算形成的代數(shù)系統(tǒng)同態(tài)映射到密文空間及對(duì)應(yīng)運(yùn)算形成的代數(shù)系統(tǒng),則稱公該加密算法為同態(tài)加密算法,
同臺(tái)加密算法不需要對(duì)密文解密,而可直接對(duì)密文進(jìn)行運(yùn)算,得到的運(yùn)算結(jié)果,等同于對(duì)應(yīng)明文所作相應(yīng)運(yùn)算計(jì)算結(jié)果的密文。不解密而進(jìn)行計(jì)算,對(duì)于隱私保護(hù),具備得天獨(dú)厚的優(yōu)勢(shì)。
部分同態(tài)加密PHE:加法同態(tài)、乘法同態(tài) 類同態(tài)加密SHE:僅支持有限次加法和乘法 全同態(tài)加密FHE:計(jì)算開銷大,仍不能成為實(shí)用方案
解決同態(tài)加密無法計(jì)算非線性運(yùn)算的缺陷:(造成了效率和精度的下降)
無需多項(xiàng)式近似的同態(tài)加密隱私保護(hù)方案。 同態(tài)加密安全可靠,但是它只能計(jì)算加法和乘法,不能計(jì)算非線性計(jì)算。所以一種方法是依靠數(shù)據(jù)持有者完成非線性計(jì)算。 基于多項(xiàng)式近似的同態(tài)加密隱私保護(hù)方案。 為了解決同態(tài)加密無法計(jì)算非線性運(yùn)算的問題,另一種解決方案是利用多項(xiàng)式逼近
隱私保護(hù)集合計(jì)算
使持有私有數(shù)據(jù)集合的參與方合作產(chǎn)生集合運(yùn)算的結(jié)果,而不泄露各自私有數(shù)據(jù)集的隱私。
隱私保護(hù)集合求交協(xié)議PSI
PSI協(xié)議允許 持有各自私有集合的兩方共同計(jì)算兩個(gè)集合的交 集,協(xié)議完成后,一方或者兩方得到正確的交集, 且不會(huì)得到交集以外的另一方集合中的任何信息 PSI協(xié)議可以通過通用安全多方計(jì)算協(xié)議來實(shí)現(xiàn),但更多的是采用特殊的算法來實(shí)現(xiàn)。
未來的挑戰(zhàn)與方向
未來挑戰(zhàn)與方向
存在問題:
存在大多數(shù)人忽視的盲區(qū)。 隱私保護(hù)方法較為單一。同態(tài)加密、安全多方、差分隱私存在固有缺陷,缺乏本質(zhì)創(chuàng)新。
可探索的方向:
推進(jìn)無監(jiān)督學(xué)習(xí)下的隱私保護(hù)研究 權(quán)衡差分隱私保護(hù)的模型可用性與隱私性 探索多種技術(shù)結(jié)合的保護(hù)方法 (差分隱私、加密方法、區(qū)塊鏈 各有優(yōu)缺) 支持單點(diǎn)和全局隱私保護(hù) 開發(fā)機(jī)器學(xué)習(xí)隱私保護(hù)框架(目前是針對(duì)特定的攻擊,需要通用的) 研究訓(xùn)練階段基于密文的高效機(jī)器學(xué)習(xí)隱私保護(hù)方法 目前的方法多用于預(yù)測(cè)階段,因?yàn)橥瑧B(tài)加密生成的密文大、復(fù)雜隨著運(yùn)算次數(shù)增多深度增加,一旦超過閾值將得不到正確結(jié)果。另一方面,深度學(xué)習(xí)本身運(yùn)算量大,沒有加密也需要高吞吐量的計(jì)算單元。 設(shè)計(jì)適用于機(jī)器學(xué)習(xí)各個(gè)階段的通用隱私保護(hù)體系結(jié)構(gòu) 提出針對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)隱私的切實(shí)可行解決方案 現(xiàn)有的隱私保護(hù)幾乎都是針對(duì)結(jié)構(gòu)化 數(shù)據(jù)的,而大數(shù)據(jù)很多都是非結(jié)構(gòu)化。
總結(jié)
機(jī)器學(xué)習(xí)不可分割,隱私泄露巨大威脅。
在數(shù)據(jù)隱私性、高效性、可用性的矛盾下,如何提供符合給定場(chǎng)景隱私保護(hù)方法,最小化隱私泄露風(fēng)險(xiǎn),將是個(gè)長(zhǎng)期挑戰(zhàn)。

