【摘要】隨著數據的累積,不同科技企業(yè)在數據資源的儲備量上的差異愈加明顯,數據壟斷逐漸形成,并催生了“堰塞湖”,導致各企業(yè)間的數據難以互通,用戶隱私泄露問題隨之凸顯。因此,通過有效的數據治理來緩解數據壟斷形勢、促進數據安全與公平的共享流通刻不容緩。一方面應完善當前的數據治理模式,發(fā)揮現有治理手段的作用;另一方面要積極開拓透明化的數據治理框架,解決以數據壟斷為主的數據倫理問題,構建健康有序的中國大數據生態(tài)。
【關鍵詞】數據壟斷 數據治理 數據透明 【中圖分類號】F49 【文獻標識碼】A
大數據時代,海量數據的累積催生了數據挖掘、機器學習等新興技術,同時也為這些技術預測未來、作出決策提供了基礎,為社會創(chuàng)造了前所未有的價值。隨著數據的累積,數據作為驅動人工智能等技術發(fā)展的重要資源,逐漸成為各科技公司爭奪的主要對象,不同科技企業(yè)在數據資源的儲備量上的差異也愈加明顯,數據壟斷逐漸形成,并催生了“堰塞湖”,各企業(yè)間的數據難以互通,并且由于數據本身與個人隱私的密切關系,用戶隱私泄露問題亦隨之凸顯。筆者帶領團隊基于3000萬真實用戶數據和30萬APP數據,對當前的數據收集情況進行了量化分析發(fā)現,當前數據壟斷形勢異常嚴峻,對數據進行有效治理迫在眉睫,而數據透明化應是未來數據治理的主題和必經之路。
當前移動應用軟件市場的數據壟斷現狀
為量化當前移動應用市場的數據壟斷情況,筆者基于3000萬真實用戶數據和30萬APP數據,使用權限分析法對2018與2019兩年大數據收集現狀進行分析。分析的主要對象包括:數據生產者,即產生數據的個人或機構,在移動應用場景中通常指移動用戶;數據收集者,即以主動或被動的方式收集數據的個人或機構,在移動應用場景中通常指APP開發(fā)商;數據使用者,即以任何形式處理或使用數據的個人或機構,在移動應用場景中它可以是數據收集者,也可以是通過數據流通、共享等方式獲取數據的第三方;數據監(jiān)管者,即在數據收集、流通、使用過程中對數據進行合法監(jiān)管的個人或機構,通常包括相關政府機構和可信第三方等。分析結果顯示,當前移動應用市場數據壟斷形勢十分嚴峻,10%的數據收集者可獲取99%的用戶權限數據,數據收集的不平衡現象遠甚于社會財富分配中的二八定律。
首先,從總體數據壟斷現狀來看,為詳細闡明該數據收集現狀,筆者根據獲取權限數據的數量級對數據收集者進行劃分,將獲取1億及以上權限數據的收集者定義為“億級權限數據收集者”,獲取1億以下1千萬以上權限數據的數據收集者定義為“千萬級權限數據收集者”,并以此類推。主要結論如下:根據2019年總體數據收集狀況,當前數據壟斷形勢嚴峻,極少數數據收集者壟斷了絕大部分權限數據。2019年度數據壟斷的“主力軍”是占據所有數據收集者數量1%的“百萬級、千萬級、億級的權限數據收集者”,他們可獲取約92%的權限數據。對比2018年度與2019年度數據壟斷狀況,前10%的權限數據收集者獲取的權限數據量占比略有減少,但總體上數據壟斷態(tài)勢居高不下。具體而言,不同級別權限數據收集者的數量與獲取數據量的對比分布如圖1所示,“百萬級、千萬級、億級的權限數據收集者”本身的數量極小,但權限數據獲取量均在10%以上,而其余大量的數據收集者可獲取的數據量不足3%。該狀況從不同比例數據收集者獲取權限數據分布情況中體現得更為明顯,如圖2所示。表1給出2018年度與2019年度權限數據收集的對比情況,其變化量為負值說明這些權限數據收集者獲取數據量占比有所減少,但權限數據收集者數量超過5%后,其獲取數據量的變化微乎其微。可見,我國總體數據壟斷形勢依舊嚴峻。
其次,從分類數據壟斷現狀來看,筆者所在團隊對Google Play及國內第三方應用網站中APP分類進行調研,將當前市場上的APP劃分為20類,分別是安全類、生活類、社交類、辦公類、理財類、購物類、教育類、兒童類、旅游出行類、攝影圖片類、視頻類、工具類、通信類、新聞類、醫(yī)療類、音樂類、游戲類、娛樂類、閱讀類和運動類?;谠摲诸?,得出如下結論:每類APP的數據壟斷形勢都十分嚴峻,前10%的數據收集者均收集了不少于97%的權限數據。各類APP中,工具類、社交類和游戲類為數據壟斷的重災區(qū),教育類和閱讀類的數據壟斷狀況較總體水平有所緩解。具體情況如圖3所示,工具類、社交類和游戲類的前0.1%數據收集者收集了約80%的權限數據,前1%的數據收集者收集了約95%的權限數據,而前5%的數據收集者就收集了約99%的權限數據。在形勢較為緩和的教育類和閱讀類,前1%的數據收集者收集了約75%的權限數據,低于該比例數據收集者對應的總體占比。
最后,從主要數據收集者壟斷現狀來看,筆者對數據獲取量排名前5的數據收集者對比分析,以展示當前主要數據收集者的壟斷現狀。為保護數據收集者的個體隱私,該分析隱藏這5個數據收集者的名稱,僅提供統(tǒng)計性結果。這5個數據數據者,最多的可獲取8%的權限數據,最少者可獲取3%的權限數據,累計可獲取近24%的數據。也就是說,僅這5個數據收集者,就可獲取約1/4的用戶數據。其中,3個數據收集者所開發(fā)APP涉及了18個以上的APP類別,其余2個數據收集者側重于單個領域,其開發(fā)APP僅涉及了不足5個類別。這5個數據收集者的共同點是:其開發(fā)APP對應的用戶量群體均十分龐大。
以當前數據收集者們的數據獲取量為依據,分析數據壟斷的成因
在嚴峻的數據壟斷形勢下,探究數據壟斷成因十分關鍵。當前數據壟斷的形成與數據自身的特點、數據收集者們的商業(yè)運營模式以及人工智能時代的網絡效應密切相關。
第一,數據易聚集、難確權的特性,使得數據壟斷易形成。大數據時代,海量數據通過移動設備、傳感器網絡等源源不斷地自動產生,數據的生產成本較低,同時其本身的價值密度也較低,海量數據的價值需通過數據挖掘、機器學習等技術提取。而這些技術本質上是數據驅動型技術,需基于大量數據的輸入才能獲取高準確性、高可用性的輸出結果,造成數據本身易聚集的特點。此外,數據本身的特殊性使其既不同于石油、礦藏類的自然產物,也不同于專利、作品等精神產物,難以確定其所有權。在當前數據不能依據法律法規(guī)確權的現狀下,數據收集的合理合規(guī)性得不到有效保證,易形成數據壟斷。
第二,數據寡頭多產品、跨領域、高用戶量的商業(yè)運營特點,是數據壟斷形成的重要因素。數據寡頭即當前數據壟斷的主要對象,對應的就是排名前0.1%的數據收集者。當前數據寡頭們通過業(yè)務擴張、資本運作、并購等方式完成企業(yè)擴張,導致其具有多產品、跨領域的商業(yè)特點,并據此吸引或維系海量用戶,從而具有海量數據收集的能力,形成數據壟斷。分析結果表明,在移動應用市場,數據收集者們開發(fā)APP的數量越多、使用量越高、涉足的領域越多,其獲取的權限數據量越大,越有可能成為數據寡頭,形成數據壟斷。顯然,前0.1%的權限數據收集者的這三個因素比其他權限數據收集者明顯高出數倍。
第三,人工智能時代的網絡效應促進數據壟斷形成。人工智能技術數據驅動的特點使其本身就具有網絡效應。隨著人工智能技術產品使用的用戶量激增,該技術可獲取更多用戶的數據輸入,從而可創(chuàng)建可用性更高的數據模型,增加其自身價值的同時吸引并服務于更多用戶。當前移動應用市場上的數據寡頭均為大型科技公司,他們均受益于人工智能等技術的支持。相應地,基于其海量的用戶數據,他們可持續(xù)發(fā)展優(yōu)化其產品與服務,進一步維持并吸引新用戶。而本身處于弱勢的數據收集者們則限于其產品或服務的升級能力,迫于數據寡頭發(fā)展的壓力逐漸流失用戶,滾雪球效應產生,數據壟斷現象隨之加劇。
緩解數據壟斷形勢、促進數據安全與公平的共享流通,三種數據治理模式更為有效
嚴峻的數據壟斷形勢給當前移動互聯(lián)網的發(fā)展帶來了巨大的挑戰(zhàn)。數據壟斷使得寡頭公司擁有大部分的用戶數據,在數據驅動的發(fā)展模式下,壓縮了該領域內其他公司的生存空間,不利于小型企業(yè)的發(fā)展。數據壟斷一定程度上破壞了市場自由競爭的規(guī)則,數據寡頭公司基于海量數據資本掌握市場主導權。對小型企業(yè)的打壓,使得消費者失去同類服務的可替代選項。數據壟斷有可能阻斷小型企業(yè)的技術創(chuàng)新,而大型企業(yè)利用其豐富的數據可開發(fā)多領域的生產經營活動,技術壁壘進一步抑制了新技術的產生。數據壟斷使得寡頭企業(yè)一家獨大,掌握對用戶數據的控制權,易加劇數據濫用、隱私泄露、用戶歧視等其他數據倫理問題的產生。因此,一方面,應規(guī)范數據的收集、流通和使用,促進數據資源的合理配置;另一方面,應積極探索用戶隱私保護的數據共享方式,促進數據共享流通?,F有的數據治理模式包含以下三種:
一是局部模式。在數據流通前,從數據源頭基于隱私保護技術對數據進行處理,一定程度上能夠限制企業(yè)收集大規(guī)模數據的行為。當前應用的隱私保護技術主要包括基于擾動的匿名化、差分隱私技術和基于密碼學的安全多方計算等,這些技術提供的隱私保護程度越高,收集數據的準確性越差,計算成本也就越高。數據收集者必須平衡隱私保護與數據有效價值之間的關系,從而緩解當前低成本的數據收集壟斷局勢。在該治理模式下,數據寡頭仍持有大部分數據的控制權,數據壟斷有所緩解但并未根除,并且需要權衡好數據治理與產業(yè)輸出之間的關系。
二是中介模式。在數據流通過程中增加第三方中介平臺,參與數據流通,促進數據共享。當前的中介平臺主要包括數據交易平臺、數據眾包平臺和數據共享平臺三種模型,分別適用于不同情景。自2015年國務院印發(fā)《促進大數據發(fā)展行動綱要》以來,全國范圍內涌現出多個數據交易平臺,包括以數據包交易為主的政府類數據交易所,如貴州大數據交易所、上海數據交易中心、長江大數據交易中心等,以及以API接口模式為主的民營平臺,如聚合數據、京東萬象、數據堂等。數據眾包平臺為企業(yè)或個人提供有償的數據供應及下載途徑,目前有百度數據眾包、有道眾包、螞蟻眾包等平臺。數據共享平臺包括數據直接共享和數據間接共享兩種方式。直接數據共享平臺依據必要的設施規(guī)則,推動公共部門之間不對稱信息的流通和企業(yè)之間數據的合理共享,較為典型的是英國人工智能實驗室與開放數據研究所合作建立的“數據信托”實驗點,其目的是促進多集團之間的數據共享。間接數據共享平臺拒絕對源數據的直接共享,支持對本地數據訓練得到的模型參數進行共享,而后由多方參與者共同訓練效果較強的機器學習模型。該方法符合當前數據驅動的技術發(fā)展情景與用戶隱私保護的需求,具代表性的是微眾聯(lián)邦學習項目與華為NAIE聯(lián)邦學習平臺。從總體發(fā)展現狀來看,第三方中介的項目眾多,但目前數據交易、共享的規(guī)模并不大,具有很大的發(fā)展空間。
三是全局模式。對數據產生、流通和使用的整個生命周期進行監(jiān)管,弱化數據寡頭對數據的掌控權,增強數據生成者(即用戶)和數據監(jiān)管者對數據的控制權。該模式主要分為中心化和去中心化兩種形式。中心化全局模式是指建立統(tǒng)一的數據監(jiān)管平臺,對數據進行統(tǒng)一管理,如庫克提議美國聯(lián)邦貿易委員會組建的“數據清算所”,通過監(jiān)管數據流通狀況來確保用戶對數據的控制權。去中心化全局模式指借助區(qū)塊鏈、智能合約等去中心化技術與平臺,對數據收集、流通、共享、使用、結算等過程存證,構建可驗證、可追蹤、可溯源的數據共享與監(jiān)管機制,目前已有眾多政府機構與學術機構在此方面展開研究。全局模式相較其他兩種治理模型成本更高,目前該數據治理體系正在構建中,其應用尚不成熟。
數據透明是解決數據壟斷問題的根本途徑,是未來數據治理的必經之路
上述數據治理模式以政府和IT企業(yè)為主要參與者,針對數據壟斷、阻塞、不互通等問題提出局部或全局的治理方案,重點在于可監(jiān)控的數據資產平衡分配。然而,當下的數據壟斷問題不僅僅是數據資產的分配失衡問題,更是人工智能時代數據倫理的問題,數據壟斷的加劇會導致數據隱私、數據歧視等其他倫理問題的發(fā)生。筆者認為,當下大數據的“堰塞湖”已然形成,數據壟斷愈發(fā)嚴重,數據隱私與公平問題層出不窮,歸根結底是數據收集、流通、共享、使用和決策過程中的不透明性所致。因此,數據透明是解決上述問題的根本途徑,是未來數據治理的必經之路。
數據透明,并不表示數據對所有人公開可見,它指的是數據在其生命周期中對其從屬主體透明化,即在數據收集、流通、共享、使用和決策過程中,保證數據對其擁有者、使用者和監(jiān)管者顯示部分或全部的透明性。在整個數據透明框架中,數據的隱私必須加以考慮并得到保證。對數據壟斷而言,數據透明的應用可促進數據收集、流通和使用記錄的生成,從而完成數據的審計、溯源與問責。該方式既可達到數據監(jiān)管的目的,又可為數據共享方向與方式提供評估依據,結合數據訪問控制技術可全方面監(jiān)控并防止數據壟斷的生成。
宏觀上,基于數據透明的數據治理應聚焦于以下三個方面內容:第一方面,保證數據質量與價值。數據作為大數據時代科技企業(yè)的主要資源,在使用數據治理手段協(xié)調各個社會主體利益時,應基于數據透明機制保證數據的真實性、正確性,統(tǒng)一多源數據標準,評估有效數據價值,從而保證數據驅動決策的可靠性。第二方面,評估和監(jiān)管個人隱私數據的使用。用戶作為大數據生產者,極易在數據流通過程中丟失對自身數據的控制權?;跀祿该鳎稍u估和監(jiān)管個人隱私數據的流向及用途,使用戶重拾數據控制權,有效避免數據過度收集與聚積,預防個人隱私數據泄露。第三方面,監(jiān)管并促進數據流通與共享。這也是阻斷數據壟斷的重要舉措,但在實施時需兼顧數據隱私,考慮各參與主體間的信任模型,平衡各方利益。
具體而言,基于數據透明的數據治理可借助區(qū)塊鏈技術實現。基于區(qū)塊鏈公開透明、去中心化和不可篡改的特性,可在數據生命周期中的各階段分別進行有效的數據治理。在數據存儲階段,基于區(qū)塊鏈和智能合約存儲數據,可達到支持審計的目的,防止該過程中數據偽造、數據篡改、數據標準不統(tǒng)一等問題的出現。在數據收集與共享階段,可使用區(qū)塊鏈保存數據的收集與共享日志,對數據流通過程進行追蹤溯源;同時結合策略承諾、違法檢測、隱私審計,可在隱私保護技術失效的情況下通過溯源問責保護隱私,并為實施數據監(jiān)管、防止數據壟斷提供技術支持。在數據使用與決策階段,可基于區(qū)塊鏈對數據計算節(jié)點進行驗證,通過經濟懲罰等手段防止惡意參與方的加入,同時驗證決策結果的可靠性,確保數據的高效合理產出。
2020年4月6日,中共中央、國務院印發(fā)的《關于構建更加完善的要素市場化配置體制機制的意見》提出,要加快培育數據要素市場的概念,并強調了數據的開放與共享。這使得解決數據壟斷問題、評估和監(jiān)管數據的合理分配與使用,變得更加緊迫和必要。同時,它也對數據共享流通方式和數據質量等提出了更高的要求。將數據作為要素應該放在數據治理的框架下加以考量,需要綜合考慮數據生命周期內相關參與主體的權利與義務。在未來數據治理的過程中,我們一方面要完善當前的數據治理模式,發(fā)揮現有治理手段的作用;另一方面要積極開拓透明化的數據治理框架,解決以數據壟斷為主的數據倫理問題,構建健康有序的中國大數據生態(tài),促進大數據產業(yè)合理規(guī)范發(fā)展。
(作者為中國人民大學信息學院教授、博導)
【參考文獻】
①《中共中央 國務院關于構建更加完善的要素市場化配置體制機制的意見》,中國政府網,2020年4月6日。
②《國務院關于印發(fā)促進大數據發(fā)展行動綱要的通知》,中國政府網,2015年9月5日。
③《習近平:實施國家大數據戰(zhàn)略,加快建設數字中國》,《人民日報》,2017年12月10日。
責編/韓拓 美編/陳媛媛
聲明:本文為人民論壇雜志社原創(chuàng)內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。