1.一個電表引發的隐私矛盾
2009年,美國總統奧巴馬站在演講台上說:“我們要建立一個更堅強、更智能的電網……”
随即,美國能源部門宣布投資34億美元資助智能電網技術的開發,“投資智能電網”自此成為美國的一項國策。
在這個龐大的智能電網計劃裡,電表是重要的一環。
電廠送出來的電,沒用完的,要麼轉送到别處,要麼就直接浪費掉了,所以能源部門就設想:隻要成千上萬的智能電表分布到每一個角落,每隔15分鐘上傳一次數據,電網就能根據實際用電量來實時調度電力,用多少就送多少,減少浪費。
這個設想當然很好,可智能電表的推廣進展很快受阻。
“我感到自己正在被監視。”
“電廠有什麼權力這麼做?!”
類似的聲音此起彼伏,人們害怕頻繁上傳用電量會暴露自己的隐私。
乍一看,有點杞人憂天,就像之前國内有人擔心輻射,甯願手機沒有信号,也不準運營商在自家附近建基站。
但電表隐私問題還真不是杞人憂天,研究人員發現:每15分鐘上傳一次的電量數據,真的可以用來搞監視!
王爽當時在美國讀計算機博士,他發現,利用一些特定的算法,很容易就能通過用電數據推算整個屋子裡的活動情況:“你什麼時間做飯、用電腦、看電視、洗衣服等等,全都能計算出來。”
這些用電數據一旦被濫用,壞人可以拿來監視别人,商家可以做所謂的“大數據營銷”。例如,商家先得知你家是否用了某種醫療器械、你的私人時間是如何度過的,再給你不同的商品定價和廣告策略。
事情到這,就陷入一個死循環:國家要節能,電網就得高效,電網要高效,數據必不可少,可人們又不願意給數據。
當時有人想到一個妥協方案:降低上傳數據的頻率——原本15分鐘上傳一次,現在改成每天上傳,或每周上傳。
但這樣一來,電網調度的實時性和效率也會大大降低,頻率降得太低,跟抄表員十天半個月上門來抄電表也沒多大區别。
“有沒有可能,既能讓電廠用到這些數據,又不暴露個體的隐私數據?”
王爽發現,電廠想要的其實隻是統計信息,比如一片區域在特定時間内的總用電量、平均用電量、高峰用電量等等,并不需要個體數據。
而這類問題在數學上是有解的。
舉個例子:
爺爺想知道家裡的仨葫蘆娃這個月一共掙多少錢,但是哥仨誰都不想暴露自己的收入,怎麼辦?(你可以思考5秒再往下讀)
有一個辦法是這樣的:
第一個葫蘆娃在腦子裡想一個很大的随機數,加上自己的收入,把求和結果告訴第二個葫蘆娃。
第二個葫蘆娃再加上自己的收入,給求和結果第三個葫蘆娃,第三個葫蘆娃加上自己的收入,把結果交給第一個葫蘆娃。
第一個葫蘆娃再減去自己一開始的那個随機數,就得到三個人的總收入,交給爺爺。
整個過程中,大家誰也沒暴露自己的收入,卻一起計算出了總數。
王爽很快研究出一套方案,可以做到既讓電廠拿到各項統計數據(中間計算結果),又不暴露單個用戶的用電量。
他把方案寫成論文,發在學術期刊上。(當然比上面葫蘆娃的例子複雜得多的多,葫蘆娃隻是為了幫大家理解為什麼“既使用數據,又不暴露數據”是可以做到的)。
由于這篇論文,王爽和“隐私計算”結下不解之緣。不過嚴格來說,當時還沒有“隐私計算”這個領域,充其量是“混沌初開”。
那時王爽也沒意識到,若幹年後,隐私将成為各行各業的難題,對整個世界産生深遠影響,電表引發的矛盾,隻是科技發展與隐私保護之間矛盾的一個小小縮影。
要科技發展,還是要保護隐私?這個矛盾是深刻而本質的,它深埋在各個領域,就像一顆定時炸彈,即将被“雲計算、大數據、人工智能”等新興技術引爆。
在一次學術活動上,王爽遇到一位師哥,師哥來自加州大學聖地亞哥分校(美國全國性一級大學)醫學院,聽說王爽在研究隐私保護技術,又臨近博士畢業,正在找實習,便盛情邀約。
師哥告訴他,醫療行業的隐私問題由來已久,當年,就連麻薩諸塞州(就是大名鼎鼎的麻省理工學院所在的“麻省”)的州長都是醫療隐私問題的受害者。
2.連州長都遭殃的醫療數據之困
1997年,美國麻省政府的一個部門為了幫助醫療科研人員,公布了一份政府雇員的醫療記錄。
為了防止暴露個體隐私,他們專門給數據“打了個碼”——删掉了姓名、地址和社會安全号碼(相當于身份證号碼),但保留了出生日期、性别和郵政編碼這些看似無關痛癢的信息。
麻省理工學院當時有一位學者叫拉坦娅·斯維妮( Latanya Sweeney),她拿到醫療記錄一看,眉頭一皺:這馬賽克簡直是打了個寂寞啊!
她打聽到麻省州長住在劍橋市,就花20美元從劍橋市政府買了一份選民名冊,從裡頭找到州長的資料,有姓名、地址、郵編、生日、性别等等(美國很多州選民的這些基礎信息都是公開的),再跟那份“打了碼”的醫療記錄進行對比,發現跟州長同一天生日的人有6個,性别是男的有3個,最終,她又用“郵編”把目标鎖定到其中一個人。
她把“這個人”的醫療記錄摘出來,一封郵件發到州長辦公室,也不知道州長看到自己得過什麼病,吃過什麼藥,被人扒得一清二楚,該作何感想。
之後,拉坦娅又公布出一個驚人結論:隻需要三個信息(郵政編碼、出生日期和性别)就有63%~87%的可能性唯一确定某個州中的一個美國人。
這件事直接讓麻省政府部門“炸開了鍋”,沒過多久,麻省乃至整個美國的醫療信息隐私政策都發生重大調整,開始“嚴打”,所有醫療記錄披露都需要嚴格遵守《健康保險隐私及責任法案》(簡稱“HIPAA法案”)所規定的相關隐私保護條例。
人們從此意識到,隐私數據處理并不是随便删一删數據,打一打碼就行,它是一門技術活,搞不好的話,分分鐘就會被人破譯出來。
這也是為什麼師哥會邀請王爽這樣的計算機專家來醫學院實習——名曰“實習”,實則“救火”和“把關”。
它山之石,可以攻玉。在加州大學聖地亞哥分校(以下簡稱UCSD)醫學院實習的三個月,王爽處理起數據是得心應手,一邊工作還一邊順手發了幾篇硬核學術論文,這一頓猛如虎的操作,把一幫學醫的教授都看懵了,實習期剛結束,就讓王爽留下來繼續工作。
雖然成績還不錯,但王爽發現一個問題:有一些“特殊的數據”很難用“老方法”來處理。
所謂“老方法”概括起來就兩點:匿名和泛化。
匿名,就是把敏感的信息(比如名字)用***替代,原來是張三,改成張*或**。
泛化,就是把一個确定的内容變成一個範圍,原來是28歲,現在是20~30歲,這樣别人就很難通過數據比對來定位到某個人。
對于“結構化”數據(簡單理解就是平時能用表格來表示的數據),這兩種方法比較奏效,但是對“非結構化”數據就不太好辦,比如醫生在病曆裡寫了一段口語化的備注:“這個病人從15歲到50歲期間抽煙,平時睡覺不太好,得過阿爾茲海默症……”
像這種數據,每個病人的格式都不一樣,這時,你就不知道應該給什麼地方打碼,什麼地方不打碼。
而且匿名和泛化,肯定造成信息量丢失(嚴謹一點叫“增加信息熵”)。正如一部電影,馬賽克打得越多越厚,觀賞性就越低(你懂的)。一份數據,從頭到尾全部碼上,就徹底失去了數據的使用價值。
但這還不是最難的。
如果說處理非結構化數據是棘手,那處理人類基因序列數據,簡直就是“無從下手”!
3.美好而脆弱的基因密碼
基因序列是個神奇的東西。
正如一個計算機程序可以用無數個1和0構成的代碼序列來表示,一個人的基因也可以用無數個ATCG(四種堿基)構成的代碼序列來表示。換言之,你的基因序列就是你的“底層代碼”。
一個程序出了問題,程序員會在代碼裡定位到具體原因,基因也是一樣,你也許聽過,一些基因檢測技術隻需要取一些唾液、血液或毛發,就能診斷出你是否患某種病,或是提示風險,給出建議。
之所以這麼神奇,背後是無數科研人員做了大量數據統計和分析的結果。
一個人大約共有30億個基因位點,我們身體的性狀:單雙眼皮、直卷發、皮膚顔色以及身體疾病,大多都能找到對應的基因位點。
科研人員通過大量的數據統計分析,才把各種疾病、身體性狀和特定的基因位點一一對應上。
分析過程中會大量用到機器學習之類的AI(人工智能)技術,把大量基因位點和疾病、症狀的對應數據“喂給AI模型吃”,AI模型就會自動學會判斷疾病和基因位點之間的聯系,就像要教會AI識别狗,得用很多張狗的照片去訓練它一樣,喂的數據越多,效果就越好。
如果樣本數據的量不夠,訓練出的AI模型就像一個學藝不精的醫生,經常出錯。
2011年底,王爽所在的項目要研究如何用基因數據來診斷心髒病,遇到一個難題:
加州大學體系下有5家醫院,每一家都有一些心髒病人,單獨做分析,樣本數量都不夠,可醫院之間又不敢貿然交換數據,因為基因序列數據太特殊了。
常規的醫療數據,可以用匿名和泛化來處理,基因序列數據不行。
“一個人有30億多個基因位點,隻要挑出具有代表性的十幾個位點,就能唯一确定一個人,準确率比指紋高得多。”王爽說。
這就好比,你全身每一寸肌膚都寫着你的名字,要怎麼打碼?不可能給30億個基因位點全部打上碼吧?而且萬一碼掉的基因位點恰好跟這種病有關怎麼辦?
可是如果保護做不到位,導緻基因序列醫療數據洩露,後果更嚴重。
王爽團隊的一位同事做過一項試驗,一個人喝完一杯水,杯子留在桌上,他隻需要提取杯子上殘留的唾液,做個基因檢測,就能有一定概率知道這個人姓什麼。
方法說起來特簡單,美國是一個移民國家,人們喜歡溯源自己的家族,市面上有很多公開的基因族譜數據,像什麼“史密斯家族”、“唐納德家族”,隻要拿着你的基因和族譜數據一比對,就能知道你在不在這個數據庫裡。
如果隻是知道姓什麼,并不可怕,可怕的還在後頭。
王爽當時手頭有許多大型的醫療科研項目,見到過各種各樣的數據,其中一個項目包含4萬多志願者的全基因組序列,以及他們的錄音、360度的全息拍照。
假如這批數據被洩露,隻需要被洩露者的一滴唾液,就能精準恢複出他的各項身體信息:膚色、眼睛顔色、體重、身高、聲音等等。
這意味着,我拿到你的一滴唾液,隻要放到各種數據庫裡比對,就能知道你的各種信息,比如放到一個艾滋病或自閉症的研究數據庫裡比對,就能知道你是不是參與過這個項目。
最最極端的情況是:某一家特别有錢和權勢的組織,從各個渠道收集到所有流落在市面上的基因數據庫,聚合到一起,它就能分析出所有人的基因信息:你的(以及你父母、孩子的)相貌,你的病,你家族的遺傳病,你的先天特征……一切和你的基因有關的一切,都可以被掌握。
屆時,很可能會出現比“大數據殺熟”更可怕的情況:“基因殺熟”。
保險公司可以根據你的基因來評估你的投保風險,甚至拒保,詐騙團夥根據你的基因來設計精巧的騙局。
……
……
……
更可怕的就不說了,反正挺賽博朋克的。
總之,醫院每交換一次數據,風險就多一分,因為數據可以無限複制,對方會怎麼處理你的數據,能不能保護好,這些都不可控。
隐私問題一度讓項目進展非常緩慢,項目組左右為難。
但是基因醫療肯定不能放棄,因為它确實有很多傳統醫療不可比拟的優勢。
比如做羊水檢查,需要用一根針管從孕婦肚皮上紮到子宮抽出羊水,對胎兒有一定危險,而基因檢測就不需要。
還有一些疾病,傳統方法束手無策,基因醫療卻能另辟蹊徑。
王爽開始琢磨:有沒有辦法在不給出原始數據的情況下,又讓對方利用到數據的價值?
他想起自己寫過的電表隐私論文,在那個方案裡,電廠在不需要直接碰觸居民電表裡的原始數據,卻能得到中間計算結果……
有了!一道靈光閃過,王爽欣喜若狂,“真相隻有一個!”他沖進實驗室和同事們分享自己的思路。
王爽教授(和柯南)
很快,一套名叫“隐私保護下的分布式機器學習”的方案擺在衆人面前,在這套方案裡,醫院不需要把數據拿出來,喂給模型吃,而是反過來,把模型放到醫院的服務器,訓練出一個小的AI模型。
再把幾家醫院分别訓練出的“小模型”放到一起,訓練出一個更厲害更準确的大AI模型,整個過程中誰也不會暴露自己的原始數據,卻又用到所有數據,做到數據的“可用而不可見”。
打個不嚴謹的比方,每一個爺爺都有一本“葫蘆娃”訓練秘籍,都隻能訓練出單色葫蘆娃,但是爺爺們又都需要一個全能的葫蘆小金剛來保護自己。
所以爺爺們先各自訓練出一批單色葫蘆娃,再讓七個葫蘆娃合體成七彩葫蘆小金剛,每個爺爺都可以領走一個,至于葫蘆娃秘籍,依然保留在各自手中,不需要告訴任何人。
至此,每一家醫院既能得到一個優質的AI模型,又保住了患者的隐私。應了那句:小孩子才做選擇,成年人當然是隐私和便利……
盡管說起來很簡單,實際做起來還是會碰到各種無法預料的情況。
“比如,其中一個計算中心網絡不穩定,或是中途想退出這個項目,掉線了怎麼辦?”
還記的文章開頭那個“計算三個葫蘆娃的總工資”嗎?這就相當于第三個人加完自己的工資,交給第一個人,準備讓他減去最初那個随機數,結果第一個人忽然說:“我溜了,你們自己算吧。”于是其他人又得從頭來一遍。
為了避免類似情況,王爽不斷改進了方案,做到讓每一個中心都可以動态地加入或離開,整個研究不會受影響。
原本非要7個葫蘆娃才能合體,現在随便來幾個都能合體。
安全領域有一個說法:未知攻,焉知防。
為了保護好數據,王爽還要帶着團隊自己扮演攻擊者的角色,想盡各種辦法來破解自己的方案,“黑”掉自己的數據,提出各種安全假設,左右手互博。
至此,基因序列研究的隐私困境終于被解開,一個包含加州大學5所附屬醫院的多中心聯合分析網絡建立起來。
之後,越來越多的醫院聞訊加入,到2013年,一個橫跨美國西海岸将近20個醫共體(全稱“醫療服務共同體”,是一種醫療合作組織形式)的網絡建成,串聯起上百家醫院,超過3000萬個病患數據像孤星彙成銀河。
這“銀河”對一些病人來說,也許是活着的希望。
之後,王爽又參與了其他研究項目,把這套思路延伸在其他罕見病的基因研究,以及醫療影像和其他非結構化數據上。
然而這個世界上不可能有一勞永逸的解決方案,故事到這裡,隐私計算的大廈還遠遠沒有建成。
4.隐私計算界的奧林匹克
“隐私計算光靠一兩個團隊的話,進展肯定太慢。”2013年底,王爽意識到這個問題。
次年,他開始頻繁接觸各路密碼學和安全專家,卻發現整個密碼學界、安全界跟醫學界完全處于“脫鈎”狀态。
“懂醫學的人不懂安全,懂安全的不懂醫學。”
王爽舉了個例子,一位密碼學專家設計了一套非常精巧的方案,在密碼學上是完全正确的,可是他假設的場景在實際當中根本不存在,醫院根本就沒有這個需求。
比如:醫院接到一個病人,想在數據庫裡尋找是否有相似的病人,以前用過什麼診療方法,效果如何。此時,如果技術方案的設計者不理解“什麼是相似的病人”,就很可能出錯。
什麼是相似的病人?是病人的身份證編号相似?哈希值相同?年齡、性别相同?還是生理指标?多大程度上的相同才能叫“相似”?
隔行如隔山,但王爽知道,這座山必須打通,工業界和學術界要充分交流,隐私計算才能長足發展。
2014年,他主持創辦了一個讨論社區“iDASH 隐私安全研習大會(iDASH Privacy & Security Workshop)”,每年把大家拉到一塊交流學習。
之所以叫iDASH,是因為王爽當時作為核心人員參與了總額超過四千萬美元的美國國家生命醫療計算中心(iDASH)項目,這個社區的建設經費是項出的,所以就冠名了。
王爽一邊攢局,一邊帶着團隊十幾個做數據隐私安全的博士、研究生們,當起了“翻譯”,把醫學領域實際碰到的各種問題,抽象成一個個的“信息學應用題”,擺到密碼學和安全研究者們面前。
“你直接跟他說兩個相似的病人,他不知道怎麼做,但是當我們把相似性嚴格定義成一個可以度量的概念,比如求一個特定的“最短路徑”,公式規則我都全都給定義好,他們就秒懂,直接解題就行,慢慢地,他們也會理解這個可以臨床上能解決哪些問題。
他們從同事、朋友、合作夥伴那裡四處收集到各種臨床上的難題,後來一琢磨:不如把這些難題變成考題,搞一場隐私計算的“華山論劍”,讓各路高手來切磋切磋如何?
iDASH隐私保護競賽就這麼辦了起來。
2014年,第一屆iDASH比賽還沒有任何名氣,王爽隻能“刷臉”,靠着自己的學術魅力,發郵件、朋友圈“人傳人”,拽着身邊的朋友跟合作夥伴來參加,有的朋友一開始隻是賣個面子來參加,結果發現:诶?這比賽可真有意思!反響很好。
等到2015年第二屆,美國基因研究領域的權威媒體GenomeWeb和自然(《Nature》)雜志也跑來報道。很快,整個學術圈子裡研究隐私計算或基因的人基本都知道這個比賽。
2016年第三屆,微軟、英特爾、IBM等商業公司也開始派隊伍參賽,原因說來也巧,王爽有一個經常一起約飯吃燒烤的鄰居,正好在微軟負責系統安全,一聽他搞了個比賽,也幫忙吆喝,所以iDASH比賽很快在互聯網科技圈傳開。
又過了一年,iDASH比賽出現中國公司的身影。最早是百度,2017年,百度美國研究中心出資贊助iDASH競賽。那一屆還發生過一個有趣的事:當時有個賽題是在可信計算環境下完成人類基因組分析,百度安全實驗室當時研發了一個工具包叫Rust SGX,結果法國隊基于這個工具包做的方案奪了冠,也不知道百度團隊當時被自己研究的武功招式擊敗,是該開心還是憂傷……
那一年,和百度一起贊助iDASH的另一家公司叫人類長壽公司(Human longevity),創始人叫Craig Venter,是人類基因組研究計劃的先驅和代表人物之一,曾被時代雜志評為世界最有影響力的人之一,2010年他和同事一起創造出曆史上第一個人造細胞。
前文提到的王爽參與的那個包含4萬個志願者的基因和全息影像數據的項目,就是跟這家公司合作的。
現年75歲的Craig Venter
王爽并沒有料到,這場切磋交流将一年比一年聲勢壯大,隊伍一年比一年多,幾年下來,俨然成了隐私計算領域的奧林匹克。
也正是那幾年,隐私計算領域的各個技術流派逐漸清晰。
同态加密、可信計算、差分隐私、多方安全計算、聯邦學習等等……就像是一場武林大會,吸引來少林、武當、峨眉、昆侖,各路門派豪傑齊聚。盡管大家都是要保護隐私,但具體的場景和方法區别非常大,很多時候要結合多種技術。
王爽記得,第一屆的iDASH有一條賽道是基于“差分隐私”的隐私保護——看看誰能在數據裡加最少的噪音,又能盡可能保持數據在分析中的可用性,還能充分保證第三方不能從結果裡竊取到相關信息。
而說到隐私計算的技術流派,還有一個跟王爽有關的小插曲。
2016年,谷歌在官方博客發了一篇文章,講他們如何在不碰觸用戶手機數據的情況下,依然能利用這些數據做機器學習。
大緻原理是,不把用戶手機裡的數據拿出來,而是把一個小的AI模型放到用戶手機裡,訓練完之後,隻上傳中間計算結果,不上傳原始數據,成千上萬個用戶的模型再聚到一起,訓練出一個大的模型。
谷歌當時為這種思路造了一個新詞:Federated Learning(聯邦學習)
截取自谷歌博客
王爽在網上刷新聞,看到許多媒體都在報道說:谷歌開創了一種新的機器學習範式叫“聯邦學習”,他捏着下巴微微點頭:“嗯……Federated ,聯邦,這個詞用的真巧妙,就用了一個單詞,我以前咋就妹想到捏~?(注:王教授是東北銀)”
以前,王爽在論文裡用的是Privacy preserving distributed learning(隐私保護下的分布式學習),那之後也改用Federated learning(聯邦學習)以便于交流。
他當時還不知道,兩年後,自己就從學術界踏入工業界,開始由一個純粹的科學家變成一個創業者,跟一些客戶提起聯邦學習時,人們都以為是谷歌在2016年開創的,卻不知道有一位華人科學家早谷歌五年就在實踐同樣的思路,而這位科學家正站在自己面前。
後來我有一次問王教授:“你當時看到谷歌那篇博客文章,有覺得谷歌搶走了本該屬于你的榮譽嗎?”他說沒有。
“當時我還在學術界,對這些詞彙上的東西不是很在意,而且解決的問題也不一樣,谷歌解決的問題其中在2C(面向消費者)領域,我解決的問題主要在2B(面向商業)領域,雖然理念上确實差不多。”
5.回中國,還是在美國?
iDASH隐私競賽之所以很快“出圈”,一個重要的原因是2015年底,号稱史上最嚴的隐私數據保護法案GDPR(《通用數據保護條例》)的最終稿公布,并計劃2018年開始正式實施。
法案規定,企業如果沒做好隐私保護,導緻用戶隐私洩露,最高可以罰年營收的4%,科技巨頭們掐指一算,當場吓尿:我們一年營收幾百甚至上千億美元,4%得是多少啊?!
他們開始四處尋找技術方案。
也因為人們隐私保護意識的覺醒,王爽參與的隐私保護項目越來越多,幾年時間,他掌握的技術方案不論是在安全性,還是計算效率和複雜度上都在飛速提升,能應對的問題範圍也越來越廣。
2018年,他萌生了創業的念頭。
他回顧自己在學術圈的日子:想得到的榮譽都已經得到,已經打了通關。一邊帶學生做項目,一邊發論文,三年時間就“不小心”解鎖了“教授”成就,幾年時間下來,發了上百篇學術論文,各種獎項拿到手軟。
主持和參與的科研項目也都是大型項目,比如總額超過四千萬美元的美國國家生命醫療計算中心項目(iDASH)、美國衛生保健研究與質量局(AHRQ)項目,以及多項美國國立衛生研究院(NIH)項目,還有NIH聯合英偉達(NVIDIA)、亞馬遜(Amazon)的雲計算項目等等。
他想起自己剛來美國讀博士時,2007年,英偉達公司推出GPU計算平台CUDA,他是第一批研究這個框架的人,當時他想到可以基于CUDA做一套商業化方案,用GPU去加速高性能計算應用,但當時為了優先完成學業就放棄了創業計劃,直到後來有一家公司做了這件事,并大獲成功,他才意識到自己錯過了幾個億。
如今,又一個機會擺在他面前。
2018年,王爽三十多歲,這位外表看着沉穩,不善言談的教授,心中依然有一團小火苗。
這團火苗很快就被幾位朋友徹底點燃。
2018年3月,王爽受邀到麻省理工學院做學術報告,台下可謂是高朋滿座,包括多位圖靈獎得主、院士、密碼學專家。當時,著名物理學家張首晟教授也坐在台下,這是王爽第二次見張教授,兩年前,張教授曾經邀請王爽到斯坦福大學做過一次關于數據隐私的報告,當時張教授就認定,隐私計算是未來解決數據流通的一項核心技術,但當時相關法律法規還不完善,所以那次他們主要在學術層面做交流。
報告結束後,張首晟又邀請王爽到斯坦福做一次報告,張教授在斯坦福大學組織了一個論壇,用于交流最前沿的技術,參加者不光有教授,還有一些投資人。
那次論壇上,張教授向王爽引薦了啟明創投的創始人邝子平,以及在生物醫藥行業做了十多年矽谷資深科學家的鄭灏博士,幾人一拍即合,相談甚歡,一緻認定隐私計算的風口即将到來。邝子平當場表示,隻要他們願意出來創業,啟明創投一定投資。
沒猶豫太久,王爽向學校遞了辭職信,鄭灏也從矽谷的公司辭職出來,一起創辦公司。
王爽是董事長兼CTO,鄭灏既有世界500強公司的工作經曆,又經曆過一家公司從幾個人一路做到上市的過程,擔任CEO,兩人性格互補。
此時擺在他們面前最大的抉擇是:留在美國創業,還是回中國?
隐私保護風口在歐美國家出現得更早,隐私保護法律法規方面,國外的進度明顯比國内更快,這意味着創業成功率更高。
而且他們在美國工作生活多年,熟識的朋友、團隊(比如王爽的學生們)、人脈圈子也是美國這邊更多。
國内的學術環境、氛圍和一些流程也跟國外也不太一樣。
工資待遇、房價什麼的就更不消說。
沒等他們猶豫,美國宣布對進口太陽能電池闆和洗衣機征收全球保障關稅——“中美對抗”自此開始。
王爽和鄭灏深知數據是一件非常敏感的事,也察覺到問題的嚴重性,他們必須立刻做決定:要麼回祖國工作,要麼服務于美國公司。
在國内上大學期間,王爽曾獲得首屆“中國青少年科技創新獎”,這是在鄧小平誕辰100周年之際,按照鄧小平的遺願,用他生前的全部稿費140多萬元捐贈設立的獎項,鼓勵中國青少年的科技創新。
在人民大會堂,王爽見到國家領導人、中科院院士和許多科技界前輩,與鄧小平的子女面對面,接受頒獎并合影留念,和其他來自全國各地的54名獲獎學生一同念頌誓詞《青春的心聲》,整個活動隆重,莊嚴,在王爽心裡留下難以磨滅的記憶。
第一次踏上飛往美國的飛機時,他就知道自己有一天會回來。
2018年,恰逢“海外青年高層次人才引進計劃”開始,王爽在遞交了申請,很快通過選拔,成為當年醫療隐私計算領域唯一的上榜者,國家對于王爽過去學術成就的認可,更加堅定了王爽回國發展的決心。
“中國人的隐私,會被重視起來嗎?”
這個問題的答案将決定他的隐私計算技術能否在中國的商業土地上生根發芽,枝繁葉茂。
“我相信,一定會的。”
6.隐私計算的東風
“我們是2019年回來的,到2020年,隐私計算忽然之間就變成一個風口了。”王爽說。
每一個“忽然之間”,放大之後都是一系列驚天動地的大動作。我簡單整理了一個2019~2020年期間相關法律法規的時間軸,你可以從這個時間密度上感受一下國家這塊的重視程度。
更不用提2021年9月1日生效的《數據安全法》和11月1日生效的《個人信息保護法》了……
隐私保護和網絡安全類似,是一個“合規”驅動力很強的市場,法律不禁止,大家就瘋狂試探。
如今,中國終于迎來一個隐私數據的強監管時代。
王爽是幸運的,但這份幸運源于堅信和堅持,很多年前,人們還不把隐私當回事的時候,他就在埋頭研究。
“我2011年開始做隐私計算,一直到2017年,期間每次回國交流,都感覺大家對隐私保護還沒形成一個剛需。”王爽回憶,那時回國作報告,表示感興趣、想合作的大多是科研層面的,大家想發高分論文,管理層基本沒有合作動力,大家隻是嘴上說隐私很重要,身體很誠實。
“2018年,國内某大型酒店集團洩露了1億多人的數據,結果隻是治安處罰50萬元,那可是1億人的數據啊,放在歐盟可能要罰幾個億美金,犯錯的成本太低了,以至于大家都沒有意識去做好數據的保護。”
與其說是趕上,不如說是等來了東風。
中國的個人信息保護法比歐盟的GDPR和美國的CCPA(美國加州的消費者隐私保護法)的懲罰力度更“狠”,GDPR隻罰營收的4%,中國最高罰5%,而且除了罰錢,還要承擔刑事責任,直接抓去坐牢。
“2020年4月,中央出台了一個文件,把數據納入生産要素,跟人一樣的生産要素,和勞動力、土地一樣重要,但是數據這個生産要素很奇特,它的好處是隻要有人用就可以創造價值,壞處是一旦給出去以後,生産要素就不是你的了,就變成了别人的生産要素,它的複制成本很低,可以被轉賣。”
王爽說,他相信隐私計算會成為這個時代數據價值的底座,幫助解決“一個數據反複創造價值”的問題,“我給出去的是數據的價值,而不是數據本身,這就是數據可用不可見。”
“2019年跟運營商講隐私計算,大家還不知道隐私計算是什麼,聯邦學習是什麼,我需要從頭給他講一遍這個東西的原理,能解決什麼問題。到2020年下半年,我再跟需求方一說隐私計算,大家都已經知道個大概。”王爽說。
醫學領域的,金融領域的,安防領域的,雲計算領域……越來越多行業主動提出對數據隐私保護的需求。
為了解決這些需求,锘崴科技梳理出三條産品線:隐私查詢、隐私建模和隐私推理。
正在讀這篇文章的你,很有可能不經意之間已經用到過這三類産品,隻是你并不知道。
隐私查詢,就是可以做到我去一個數據庫裡查了一個數據(比如一種病的資料),但是我又不想讓别人知道我查了這個數據。
稅務部門要限制高消費,讓機場要判斷每一個乘客能不能上飛機,但是又不能直接把黑名單給每個機場,機場也不能把所有乘客名單給稅務部門,這時就可以用“隐私查詢”來完成數據的比對,不會洩露額外數據。
隐私建模,就是前文提到的“葫蘆娃合體”的例子,多中心聯合訓練一個算法模型,但是誰也不暴露自己的數據。
很多醫院做聯合分析研究,金融機構做大數據風控都可以用到。
2020年海軍軍醫大學第二附屬醫院拿下兩個上海市科技進步一等獎,其中一是關于強直性脊柱炎和類風濕關節炎的研究,成果的背後是研究團隊聯合全國多個中心的數據一起分析,才篩選出24個易感基因,讓這種疾病取得突破性進展,而聯合研究用到的隐私計算方案,就是锘崴科技提供的。
隐私推理,就是在使用别人已經訓練好的模型時,需要向模型輸入一些信息源,但是你又不想把數據給對方,這時,隐私推理就能在不給對方數據的情況下,又能用對方的模型來處理數據。
銀行可以用“隐私推理”實現各方不通信的情況下完成征信操作。
王爽告訴我,這三個應用基本可以覆蓋目前隐私計算在數據領域的絕大多數需求。
隻是在實踐過程中,依然有許多細節調整工作,因為每個領域都有一些特殊的要求,需要去适配不同的解決方案,不同場景對數據處理的精度、執行的效率、保護安全性都不一樣,所以需要用不同算法方案去靈活組合,才能更好地解決用戶的痛點。
“隐私保護永遠都是在安全性、可用性、性能構成的三角形裡找到一個平衡點,最安全的就是不用這個數據,隻要使用,就有隐私洩露的風險。”王爽說,“隐私計算就是為大家在可控的風險下,合規地使用數據提供了一個工具。”
7.結語:一個補丁
為了解決貧窮、落後、困窘,人類創造出“科技”這把武器,以更好的适應環境乃至改造環境。
但人性之惡,讓一些人把科技的槍口瞄向自己人,攫取他人創造的價值,牟取不義之财。
隐私問題,是科技發展到一定階段的産物。
人們對隐私洩露的恐懼,本質上是恐懼科技,人們害怕隐私落入壞人之手,成為對付自己的武器。
“隻有魔法才能打敗魔法”,發展的問題,永遠隻能靠發展來解決。人類的科技車輪一旦開始,便碾過一切無法停止,所以我們隻能用“隐私計算”這個新技術來解決舊技術帶來的問題。
從這個角度來看,“隐私計算”是科技世界的一個“補丁”,锘崴科技以及它的同行們正在“Debug the world”。
這件事和我們每個人息息相關,他們能不能成功,能做到何種程度,也取決于我們每個人對這件事的态度。
有話要說...