網站首頁 | 網站地圖

大國新村
首頁 > 中國品牌 > 品牌智庫 > 正文

以技術手段破解數據合規(guī)難題

數據是新型生產要素,對助推傳統(tǒng)產業(yè)轉型升級、打造新產業(yè)新業(yè)態(tài)新模式、壯大經濟發(fā)展引擎,都起到重要的作用。根據“十四五”規(guī)劃綱要,“統(tǒng)籌數據開發(fā)利用”“推進數據跨部門、跨層級、跨地區(qū)匯聚融合”成為我國數字化轉型的頂層設計。在激發(fā)要素潛能和隱私保護的雙重驅動下,大批在提供隱私保護前提下實現數據價值挖掘的數據處理模式相繼涌現,包括多方安全計算、可信執(zhí)行環(huán)境為代表的隱私計算技術,以低代碼、零代碼為核心的“軟件即服務”(SaaS)平臺等。

數據合規(guī)從技術層面來說具有多方面優(yōu)勢,體現在以技術手段促進組織形式與價值創(chuàng)造的分離。例如,多方安全計算可在非信任主體間數據相互保密的前提下,進行高效融合計算,實現“數據占有權和使用權的分離”;可信執(zhí)行環(huán)境可通過硬件隔斷形成封閉運行環(huán)境,兌現更高標準的隱私保護承諾,實現“數據供給和數據保護的分離”;低代碼和零代碼可為開發(fā)者提供可視化應用開發(fā)環(huán)境,降低或去除應用開發(fā)對原生代碼編寫的需求,實現“算法手段和算法目的分離”。

數據合規(guī)的前沿技術風險

前端風險在于誘發(fā)人機對抗。技術手段下數據合規(guī)具有“白盒特性”,各參與方都可以直接獲取完整的技術參數,惡意攻擊者同樣可以利用該特性偽裝成誠實參與方竊取運算結果、扭曲模型訓練、破解可信環(huán)境或生成惡意低代碼。參與方自愿提供數據、消耗算力參與數據合規(guī)實踐,其具有強烈的自利動機,輕則通過參與獲得技術使用權,重則掠奪中間數據和源頭數據。依據危害性由低到高的順序,將數據合規(guī)的參與方劃分成三種類型。此種劃分方式表明,隨著利益需求的不斷變化,各參與方的角色定位也可能發(fā)生改變。

中端風險在于加劇算法歧視。算法歧視主要源于數據集偏差或數據缺陷,在數據合規(guī)場景中,不同來源數據間的強搭和錯配可能對聯合數據造成沖擊與擾亂,使算法歧視規(guī)模性放大。除了數據投毒等極端手段,誠實但好奇參與方的數據輸入因數據梯度同其他參與方相差過大,也可能間接導致模型被“污染”,輸出歧視性結果。單次歧視的即時危害雖不易被察覺,卻足以在更長時間維度和更長數據鏈條上產生積累式影響。例如,當不同學校的畢業(yè)生數據被用于訓練招聘篩選系統(tǒng),或者當男性占絕對多數的IT行業(yè)數據和其他行業(yè)數據被共同用于訓練升職評價系統(tǒng)時,同身份緊密捆綁的群體歧視將借由算法“共訓”之名,從數據向模型蔓延。

后端風險在于催生逆向淘汰。在各類促進數據合規(guī)的技術大規(guī)模部署前,面對受眾,智能應用被限制在各自為政的領域,彼此之間沒有交流與協(xié)作,更多的是算法間的良性循環(huán),即效率高、服務好、安全穩(wěn)定的智能應用將獲得更高市場份額,榨取用戶剩余的智能應用將面臨被淘汰或整改的命運,因嚴重違法違規(guī)收集使用個人信息而被強制下架的各類APP即為典型事例。由于披上了“合規(guī)”的外衣,數據合規(guī)科技可能逐漸導致“算法趨同”,在技術黑箱的掩護之下,過去算法間的“朝上競爭”極有可能向“逐底競爭”轉變。對數據規(guī)整性要求不高、通信成本更低、算法可解釋性匱乏的智能應用,或將隨著技術手段下數據合規(guī)的不斷發(fā)展,逆向淘汰相對保守的傳統(tǒng)智能應用。

破解數據合規(guī)的應對措施

為應對前端風險,應引入聲譽概念作為衡量參與方信任度的核心指標。多權重主觀邏輯模型使基于聲譽的可信賴客戶端之間的“朝上競爭”成為可能,配合區(qū)塊鏈技術的不可篡改特性,分布式信譽管理將成為現實。例如,主導方可圍繞深度強化學習設計激勵策略,在開源分布式特殊場景中推行資源“按勞分配”,以達到邊緣節(jié)點的最佳訓練水平;利用區(qū)塊鏈技術跟蹤全局模型更新,對積極貢獻用戶給予豐厚獎勵,實現局部模型的更高穩(wěn)定性。此外,契約理論可被用于各參與方算力投入和模型質量的衡量。不過,技術互嵌的解決方案有時也存在相互掣肘,技術方需“量力而行”。例如,區(qū)塊鏈技術的公共賬本特性存在通信延遲、數據吞吐量大等問題,必然對通信設備、服務器帶寬以及主機算力等提出更高要求。為此,可通過對通信成本和模型準確性之間進行表征的多節(jié)次方程式對二者的權衡取舍予以指導。

為應對中端風險,應構建數據清洗過程適用的缺省性數據篩選機制。避免算法歧視“群體化”需要深入數據處理的社會性聚合機制,尤其需拷問作為多方安全計算、聯邦學習和低代碼參與方的自身稟賦、行業(yè)特點和地域限制在何種程度上影響了數據樣本的生成。無論如何清洗,來源于同一主體的數據通常會被打上難以察覺的烙印,具有隱性的身份化表征,在無形之中限定了數據合規(guī)的應用格局。不同數據間集體身份在數據合規(guī)實踐中相互排斥和博弈越明顯,得出的運算結果、訓練出的公共模型和成型的低代碼模塊就越有可能產生歧視。簡言之,原本稀松平常的數據,可能由于同其他非適配數據的聯合,導致數據池難以自洽。在數據處理的過程鏈條上,被污染的數據池無法充分發(fā)揮技術潛力,甚至可能造成數據共享機制和自動化決策機制一同組成的整體解決方案的走樣。歧視源于數據,因此,主導方應在數據清洗過程中主動去除冗余、不相關、不合格數據,在降低通信成本的同時提升運算精度,避免各參與方因“數據饑渴”而“來者不拒”,以期從源頭“掐斷”算法歧視群體化的苗頭。

為應對后端風險,應確立智能應用開發(fā)和投入市場的基礎倫理標準。引導科技向善、避免智能應用出現“劣幣驅逐良幣”的有效手段,是通過法律將標準和原則植入技術的底層行動邏輯。在投入市場前,任何技術應用都應滿足倫理先行原則,不得游走于現有法律體系的灰色地帶進行監(jiān)管套利。因匯聚了海量大數據,技術方極有可能經不住誘惑,利用算法壓榨個體,攝取不成比例的回報。倫理先行原則表明,技術目標的選擇不應是簡單的效益至上或是性能擇優(yōu)。在數據合規(guī)場景中,各參與方的效益增長勢必會同步拉動社會公共利益的福祉提升。此外,對于數據主體而言理應共享技術紅利,技術方必須兌現用戶授權時所抱有的信賴利益,否則數據主體有權主張數據處理合同自始無效。

[責任編輯:潘旺旺]