應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

隱私保護(hù)之殤:數(shù)據(jù)匿名也有“bug”?

2020-10-09 09:23 FreeBuf

導(dǎo)讀:事實(shí)上,匿名與隱私從理論概念上來講完美融合,但是從技術(shù)及應(yīng)對(duì)方案上來看,融合之路并非想象中那樣簡(jiǎn)單。

曾經(jīng),“在互聯(lián)網(wǎng)上,沒人知道你是一條狗。”

現(xiàn)在,“你站在橋上看風(fēng)景,看風(fēng)景的人在樓上看著你?!?/p>

我們無(wú)處藏身。

因一場(chǎng)不可思議的隱私泄露,Netflix曾被一位同性戀用戶起訴。

2006年,該公司公布了大約來自50萬(wàn)用戶的一億條租賃記錄,其中包括用戶的評(píng)分和評(píng)分日期,并懸賞百萬(wàn)美金,希望吸引工程師通過軟件設(shè)計(jì)來提高其電影推薦系統(tǒng)的精準(zhǔn)度。雖然Netflix做出此舉前,已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了匿名化處理,但是這名“匿名”同性戀用戶還是被認(rèn)出。

匿名化也保護(hù)不了隱私數(shù)據(jù)?在數(shù)據(jù)容易裸奔的科技時(shí)代,匿名化剛給大家吃了定心丸,“打臉”來得這么快?

事實(shí)上,匿名與隱私從理論概念上來講完美融合,但是從技術(shù)及應(yīng)對(duì)方案上來看,融合之路并非想象中那樣簡(jiǎn)單。

匿名化的前世今生

數(shù)據(jù)匿名的社會(huì)意識(shí)應(yīng)該是近幾年才日漸擴(kuò)散的,但其實(shí)來自技術(shù)層面的暢想與實(shí)踐早就開始了。

實(shí)驗(yàn)室總是先走一步,1997年,美國(guó)學(xué)者Samarati和Sweeney提出了k-anonymity匿名模型,為后續(xù)各種技術(shù)解決方案的涌現(xiàn)開了先河。當(dāng)然,屆時(shí),數(shù)據(jù)匿名這個(gè)話題更多是停留在技術(shù)圈內(nèi)的狂歡。

隨著大數(shù)據(jù)、智能技術(shù)近年的發(fā)展與滲透,數(shù)據(jù)泄露、隱私侵犯等問題日漸凸顯,并且受影響的群體日漸幾何級(jí)增長(zhǎng)。一方面數(shù)據(jù)作為智能時(shí)代的基石,不可能因噎廢食,完全放棄,另一方面,政府、企業(yè)、個(gè)人都因該問題而持續(xù)困擾,市場(chǎng)格局也容易產(chǎn)生波動(dòng),這于長(zhǎng)遠(yuǎn)發(fā)展不利。

此時(shí),匿名化技術(shù)成為可以折中的方案。不過,數(shù)據(jù)匿名化需要技術(shù)投入,如果僅靠企業(yè)主觀驅(qū)動(dòng),效果有限。所以,整個(gè)匿名數(shù)據(jù)的發(fā)展中,真正打破僵局的是法律領(lǐng)域的關(guān)注。

最為代表的則是令互聯(lián)網(wǎng)企業(yè)心有余悸的GDPR。2018年正式實(shí)行的GDPR,將個(gè)人數(shù)據(jù)的保護(hù)力度提至前所未有的高度,亦對(duì)數(shù)據(jù)處理企業(yè)等主體施加了甚為嚴(yán)苛的保護(hù)義務(wù)和法律責(zé)任。其中,有一條,GDPR提到:控制者在確定處理方式和處理過程中,應(yīng)當(dāng)采取適當(dāng)技術(shù)和組織措施,諸如假名化(pseudonymisation)處理,將額外數(shù)據(jù)與個(gè)人數(shù)據(jù)分別保存,除非使用額外數(shù)據(jù),否則個(gè)人數(shù)據(jù)無(wú)法指向特定數(shù)據(jù)主體。

顯然,GDPR白紙黑字地將個(gè)人數(shù)據(jù)的保護(hù)上升到法律層面,這已經(jīng)將此前數(shù)據(jù)使用過程中涉及的大部分曖昧地帶清晰化。此外,真正具有威懾力的是其“殘忍”的懲罰力度。眾所周知,如果科技巨頭越雷池一步, GDPR是真的會(huì)開出開天價(jià)罰單。

最有意思的案例即是,GDPR開始生效的第一天就“開門紅”,一下起訴了兩大科技巨頭:Facebook和谷歌。兩家公司被指控強(qiáng)迫用戶同意共享個(gè)人數(shù)據(jù),且分別面臨39億歐元和37億歐元(共計(jì)約88億美元)的罰款風(fēng)險(xiǎn)。

當(dāng)然除了GDPR,各政府都相繼出臺(tái)了相關(guān)嚴(yán)厲的個(gè)人數(shù)據(jù)保護(hù)法。如英國(guó)更新了數(shù)據(jù)保護(hù)法案,加上了個(gè)人數(shù)據(jù)的重視力度,中國(guó)也出臺(tái)了數(shù)據(jù)安全法草案,明確了保護(hù)責(zé)任。,FTC在2012年發(fā)布的隱私保護(hù)指南中更是擴(kuò)大了個(gè)人數(shù)據(jù)的邊界,突破了傳統(tǒng)定義中的與具體的自然人相關(guān)聯(lián),擴(kuò)展到了用戶所使用設(shè)備標(biāo)識(shí)等。

在這樣的背景下,對(duì)于企業(yè)來說,天價(jià)罰單是割肉之痛,政府的監(jiān)管是不可逾越的紅線,此外,用戶隱私保護(hù)意識(shí)的覺醒也是不可推辭的需求。

GDPR在對(duì)匿名化的界定中也提到:“匿名化是指將個(gè)人數(shù)據(jù)移除可識(shí)別個(gè)人信息的部分,并且通過這一方法,數(shù)據(jù)主體不會(huì)再被識(shí)別。匿名化數(shù)據(jù)不屬于個(gè)人數(shù)據(jù),因此無(wú)須適用條例的相關(guān)要求,機(jī)構(gòu)可以自由的處理匿名化數(shù)據(jù)”。

數(shù)據(jù)匿名則成為了許多企業(yè)或者數(shù)據(jù)應(yīng)用主體的重點(diǎn)投入方向。有業(yè)內(nèi)專家表示,匿名數(shù)據(jù)的收集主要用于幫助公司發(fā)現(xiàn)產(chǎn)品錯(cuò)誤,這是互聯(lián)網(wǎng)通過分析非個(gè)人可識(shí)別信息來改善整體產(chǎn)品體驗(yàn)最常見的解決方案之一。

數(shù)據(jù)匿名的“bug”

那么,常見的數(shù)據(jù)匿名方式有哪些?廣義上可以分為兩類:一是擾動(dòng)方式,即讓原始數(shù)據(jù)值失真,如數(shù)據(jù)屏蔽脫敏、噪聲添加等,二是非擾動(dòng)方式,即使數(shù)據(jù)集不完整,通過按照在記錄個(gè)體層面維持?jǐn)?shù)據(jù)真實(shí)性的方式改變?cè)趦艋瘮?shù)據(jù)集中報(bào)告數(shù)據(jù)值的粒度來工作,如數(shù)據(jù)抑制和數(shù)據(jù)泛化。前文提到的k-anonymity匿名模型則是非擾動(dòng)的一種重要方法。它要求發(fā)布的數(shù)據(jù)中存在一定數(shù)量(至少為k) 的在準(zhǔn)標(biāo)識(shí)符上不可區(qū)分的記錄,使攻擊者不能判別出隱私信息所屬的具體個(gè)體,從而保護(hù)了個(gè)人隱私。

數(shù)據(jù)匿名一直在發(fā)展,問題也逐漸顯露。所謂,“道高一尺魔高一丈”,匿名化一一定程度上保護(hù)了隱私,但“有心人”依舊可以從匿名數(shù)據(jù)中進(jìn)行身份確認(rèn)。

2016年,一位德國(guó)研究員在曾第33屆Chaos Computer Club會(huì)議上公布了自己的研究成果:盡管是已經(jīng)匿名化的點(diǎn)擊流,也可以順藤摸瓜找到用戶清晰畫像,數(shù)量少于十個(gè)的不同域名就足以讓你暴露。披著匿名的外衣,這些數(shù)據(jù)被稱為“Dark Data”,是非常容易滋生邪惡的新孕育地。

此外,去年,英國(guó)Nature Communications雜志發(fā)表的一項(xiàng)研究表示,英國(guó)科學(xué)家利用一種新開發(fā)的統(tǒng)計(jì)方法發(fā)現(xiàn),一個(gè)人的身份可以從一個(gè)不完整的匿名化數(shù)據(jù)庫(kù)中被識(shí)別出來。研究人員開發(fā)了一個(gè)機(jī)器學(xué)習(xí)模型,使用郵編、性別、出生日期三個(gè)信息,有81%的概率可以在“匿名”數(shù)據(jù)集中準(zhǔn)確地追蹤到某一個(gè)人。

事實(shí)證明,數(shù)據(jù)匿名方法不僅面臨自身技術(shù)迭代更新的壓力,也有新技術(shù)不斷帶來的沖擊,如人工智能相關(guān)算法可能利用零星數(shù)據(jù)可以訓(xùn)練出較為精準(zhǔn)的用戶畫像。

基于差分隱私的方案

道阻且長(zhǎng),行之將至。目前法律、市場(chǎng)、技術(shù)各方面都為數(shù)據(jù)匿名做好了一定的基礎(chǔ)建設(shè),接下來則是需要更多的投入與更新。首先,從此那個(gè)參與角色的角度來看,依舊需要政府組織牽頭,從法律層面為整個(gè)業(yè)態(tài)施加強(qiáng)行規(guī)范化的壓力,企業(yè)則需要更多資源投入匿名化建設(shè),而個(gè)人則需從日常細(xì)節(jié)上提升網(wǎng)絡(luò)隱私意識(shí),如有意識(shí)地使用匿名化瀏覽器、及時(shí)清理清除cookie和Web數(shù)據(jù)等,

另外,則是來自技術(shù)角度的迭代更新,針對(duì)安全性不足的數(shù)據(jù)匿名現(xiàn)狀,已經(jīng)出現(xiàn)了基于差分隱私的數(shù)據(jù)匿名化隱私保護(hù)模型研究。差分隱私(differential privacy)是密碼學(xué)中的一種手段,旨在提供一種當(dāng)從統(tǒng)計(jì)數(shù)據(jù)庫(kù)查詢時(shí),最大化數(shù)據(jù)查詢的準(zhǔn)確性,同時(shí)最大限度減少識(shí)別其記錄的機(jī)會(huì)。

實(shí)際上,差分隱私也利用了統(tǒng)計(jì)學(xué)。該技術(shù)可以實(shí)現(xiàn):向一個(gè)人的使用習(xí)慣樣本中增加噪聲,保證數(shù)據(jù)相對(duì)模糊與匿名,隨著越來越多人呈現(xiàn)出相同的使用習(xí)慣,開始識(shí)別總結(jié)出共性。一個(gè)人的數(shù)據(jù)可能不準(zhǔn)確,但是大量用戶的數(shù)據(jù)可以得出相對(duì)準(zhǔn)確的結(jié)論。這種情況下,即使有人攻擊了數(shù)據(jù)庫(kù),也只能看到系統(tǒng)化的共性信息,不能精確識(shí)別具體的個(gè)人信息。蘋果、Facebook、華為都在用該技術(shù)來來幫助發(fā)掘其大量用戶的使用習(xí)慣。

值得一提的是,《MIT科技評(píng)論》評(píng)選的2020年十大突破技術(shù)中,差分隱私榜上有名。

不過,由于差分隱私是一項(xiàng)仍在探索中的技術(shù)。門檻較高,所以投入成本也想要較高。其處理過程對(duì)于人才資源的需求較大,同時(shí)也帶來新的問題,多人的介入與隱私保護(hù)也會(huì)出現(xiàn)一定的沖突。為解決此問題,市面上一些企業(yè)注入了自動(dòng)化機(jī)器學(xué)習(xí)的方法。

顯然,隱私保護(hù)問題的解決一定是多學(xué)科、多技術(shù)流派融合的。

唯一不變的就是變化,“安全是動(dòng)態(tài)話題”已經(jīng)是老生常談,數(shù)據(jù)隱私的安全也是一樣。匿名數(shù)據(jù)只是為目前的數(shù)據(jù)裸奔問題提供了一個(gè)相對(duì)明朗可行的解決方法,并不是絕對(duì)安全的保護(hù)屏障。我們能做的只有隨變化而變化,甚至是走在變化的前面。