深(shen)圳(zhen)2022年9月(yue)15日 /美通(tong)社/ -- 聯(lian)邦(bang)學(xue)(xue)習(xi)(Federated Learning)旨在通(tong)過(guo)讓(rang)客戶端在不分享(xiang)其私(si)(si)人數(shu)據,保(bao)護數(shu)據隱(yin)(yin)私(si)(si)的前提下協(xie)作建立機器學(xue)(xue)習(xi)模型(xing)。最近(jin)的一些(xie)研究(jiu)證明了在聯(lian)邦(bang)學(xue)(xue)習(xi)過(guo)程中交換的信息會受到基于梯(ti)度的隱(yin)(yin)私(si)(si)攻(gong)擊(ji),因此,各種隱(yin)(yin)私(si)(si)保(bao)護方(fang)法(fa)已被采用來(lai)阻止此類攻(gong)擊(ji),保(bao)護數(shu)據隱(yin)(yin)私(si)(si)。然而,這(zhe)些(xie)防御(yu)性方(fang)法(fa)要(yao)么(me)引(yin)入數(shu)級(ji)更多的計(ji)算和(he)通(tong)信開銷(例如,同(tong)態加密(mi)),要(yao)么(me)在預測準確性方(fang)面(mian)導(dao)致模型(xing)性能(neng)(neng)大幅下降(jiang)(例如,使用差分隱(yin)(yin)私(si)(si))。微眾銀行AI團隊和(he)中山大學(xue)(xue)合(he)作發(fa)表的論文《FedCG:利(li)用條件生(sheng)成對(dui)抗(kang)網絡(luo)在聯(lian)邦(bang)學(xue)(xue)習(xi)中保(bao)護隱(yin)(yin)私(si)(si)并保(bao)持模型(xing)性能(neng)(neng)》提出了"FedCG",將條件生(sheng)成對(dui)抗(kang)網絡(luo)與分割學(xue)(xue)習(xi)相結合(he),實現(xian)對(dui)數(shu)據的有效隱(yin)(yin)私(si)(si)保(bao)護,同(tong)時(shi)保(bao)持有競爭(zheng)力的模型(xing)性能(neng)(neng)。該論文已被國際人工智能(neng)(neng)頂級(ji)學(xue)(xue)術會議IJCAI 2022主(zhu)會收錄。
論文信息
作者:Yuezhou Wu, Yan Kang, Jiahuan Luo, Yuanqin He, Lixin Fan, Rong Pan, Qiang Yang
標題:FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning
論文全文鏈接://www.ijcai.org/proceedings/2022/324
FedCG將每個客(ke)戶端(duan)的本地網(wang)絡分(fen)解(jie)為(wei)私有特(te)征(zheng)提取器(qi)(extractor)和公共分(fen)類器(qi)(classifier),并將特(te)征(zheng)提取器(qi)保留在(zai)本地以(yi)保護隱(yin)私。每個客(ke)戶端(duan)用一個生(sheng)成(cheng)器(qi)(generator)來(lai)擬合(he)特(te)征(zheng)提取器(qi)的輸出表征(zheng)。FedCG的創新(xin)之處在(zai)于它與服務器(qi)共享(xiang)客(ke)戶端(duan)的生(sheng)成(cheng)器(qi)而不是提取器(qi),以(yi)聚合(he)客(ke)戶端(duan)的共享(xiang)知識,提高模型性能(neng) (如圖1)。
這種策略有兩(liang)個直(zhi)接的優勢:首先,與服務器(qi)可(ke)以(yi)得到完整的客戶(hu)(hu)端(duan)(duan)模型的聯(lian)邦學習方法(fa)(例如,FedAvg 和(he) FedProx)相比,FedCG沒(mei)有暴(bao)露直(zhi)接與原始數據(ju)(ju)接觸(chu)的模型 (也即,extractor),因此客戶(hu)(hu)端(duan)(duan)數據(ju)(ju)泄露的可(ke)能性顯著降低(di)。其次,服務器(qi)可(ke)以(yi)使用(yong)知(zhi)識蒸餾(Hinton, Vinyals, and Dean 2015)聚合(he)客戶(hu)(hu)端(duan)(duan)的生(sheng)成器(qi)和(he)分類(lei)器(qi),而無需訪問任何公共數據(ju)(ju)。
一、FedCG訓練步驟
FedCG的訓練(lian)步驟分(fen)為兩階段客戶端(duan)(duan)(duan)更新(如圖2)和服(fu)務器(qi)(qi)端(duan)(duan)(duan)聚(ju)合(如圖3)。在(zai)兩階段客戶端(duan)(duan)(duan)更新中(zhong),首先(xian)利用從服(fu)務器(qi)(qi)下發的全局生(sheng)(sheng)成器(qi)(qi)來優化分(fen)類網絡(包括特征提取器(qi)(qi)和分(fen)類器(qi)(qi)),然(ran)后再訓練(lian)一個(ge)本(ben)地生(sheng)(sheng)成器(qi)(qi)來擬(ni)合特征提取器(qi)(qi)的輸出表征G(z,y)≈F(x|y),用這個(ge)本(ben)地生(sheng)(sheng)成器(qi)(qi)來代(dai)替(ti)特征提取器(qi)(qi), 在(zai)服(fu)務器(qi)(qi)端(duan)(duan)(duan)聚(ju)合所有客戶端(duan)(duan)(duan)的知識同時保護數據隱私(si)。
在服務器端聚合中,通過知識蒸餾的方式聚合一個公共分類器 Cg 和一個公共生成器 Gg。然后,服務器下發公共(gong)分類器和公共(gong)生成器給(gei)每個客戶端(duan)。
二、FedCG實驗結果
如表(biao)1所示(shi),總體來說,FedCG 在(zai)(zai)4個(ge)數(shu)(shu)據(ju)集(ji)(ji) (共6個(ge)數(shu)(shu)據(ju)集(ji)(ji)) 上(shang)取得最高(gao)準確率. 在(zai)(zai)IID 場(chang)景 : 在(zai)(zai) FMNIST 上(shang)達到最高(gao)準確率。在(zai)(zai)Non-IID 場(chang)景: 在(zai)(zai) 3 個(ge)數(shu)(shu)據(ju)集(ji)(ji)上(shang)都達到最優,特(te)別(bie)是(shi)在(zai)(zai) Office 數(shu)(shu)據(ju)集(ji)(ji)上(shang),FedCG比第(di)二高(gao)準確率的 FedProx 高(gao)出 4.35% 。
注:粗體字表(biao)示最好的(de)(de)性能。*表(biao)示沒(mei)有(you)測量結(jie)果。括號內的(de)(de)數字表(biao)示客戶(hu)端數量。
IID 場景(jing): 所(suo)有(you)(you)的(de)(de)FL方法(fa)在(zai)所(suo)有(you)(you)的(de)(de)客(ke)(ke)戶端(duan)(duan)上都(dou)以較大(da)(da)的(de)(de)優(you)勢超過了本地模型。在(zai)FMNIST數據集上,FedCG在(zai)所(suo)有(you)(you)客(ke)(ke)戶端(duan)(duan)的(de)(de)表現都(dou)是最(zui)好的(de)(de)(見(jian)圖(tu)(tu)(tu)4(a))。FedCG的(de)(de)表現與那些共享所(suo)有(you)(you)本地模型的(de)(de)FL方法(fa)相(xiang)差不(bu)大(da)(da)(見(jian)圖(tu)(tu)(tu)4(b))。Non-IID 場景(jing): 在(zai)所(suo)有(you)(you)3個Non-IID數據集中,沒(mei)有(you)(you)一種FL方法(fa)能在(zai)每個客(ke)(ke)戶上都(dou)擊敗本地模型(見(jian)圖(tu)(tu)(tu)4(c),圖(tu)(tu)(tu)4(d)和圖(tu)(tu)(tu)4(e))。 FedCG在(zai)最(zui)多的(de)(de)客(ke)(ke)戶端(duan)(duan)上取(qu)得了最(zui)好的(de)(de)效果。同(tong)時也是擊敗local最(zui)多的(de)(de)算法(fa)。
注:在(zai)5個(ge)(ge)數據集上的(de)(de)實(shi)驗中,在(zai)每(mei)個(ge)(ge)客戶端上FEDAVG、FEDPROX、FEDDF、FEDSPLIT和FEDCG(紅色)與LOCAL相(xiang)比,都取得了精度提高。縱軸是準確性方面的(de)(de)性能差(cha)異(%)。正(zheng)的(de)(de)(負(fu)的(de)(de))收(shou)益意味著FL方法比LOCAL方法取得了比LOCAL模型(xing)更好(更差(cha))。
如表(biao)2所示,隱(yin)(yin)私(si)分析的(de)(de)實(shi)驗結果表(biao)明,使用FedAvg,隨(sui)著 DP 噪聲添加得(de)越多,能更好(hao)的(de)(de)保(bao)護隱(yin)(yin)私(si),但(dan)會導(dao)致較(jiao)大(da)的(de)(de)準(zhun)(zhun)確(que)率(lv)損(sun)失;使用FedSplit,能保(bao)護隱(yin)(yin)私(si), 但(dan)有較(jiao)大(da)的(de)(de)準(zhun)(zhun)確(que)率(lv)損(sun)失;使用FedCG,能在保(bao)護隱(yin)(yin)私(si)的(de)(de)條件下(xia),取得(de)一個(ge)較(jiao)高的(de)(de)準(zhun)(zhun)確(que)率(lv)。
三、總結
FedCG的(de)(de)目的(de)(de)是保(bao)護數據隱私,同時(shi)保(bao)持有競爭力的(de)(de)模(mo)型(xing)性能(neng)。FedCG將每個(ge)客(ke)(ke)(ke)戶的(de)(de)本(ben)地網(wang)絡分解為一個(ge)私有特(te)征(zheng)提取器和一個(ge)公共分類器,并(bing)將特(te)征(zheng)提取器保(bao)持在本(ben)地以保(bao)護隱私。它(ta)與服務器共享客(ke)(ke)(ke)戶端的(de)(de)生(sheng)成器,以聚合共享知識,從而提高客(ke)(ke)(ke)戶端本(ben)地分類網(wang)絡的(de)(de)性能(neng)。實驗表明 FedCG具有高水(shui)平的(de)(de)隱私保(bao)護能(neng)力,并(bing)且可(ke)以實現有競爭力的(de)(de)模(mo)型(xing)性能(neng)。