摘 要:依托大數(shù)據(jù)、互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,數(shù)字經(jīng)濟(jì)已經(jīng)成為我國(guó)高質(zhì)量發(fā)展的新引擎,對(duì)經(jīng)濟(jì)發(fā)展、社會(huì)治理、人民生活等方方面面都產(chǎn)生了重要影響。但是,對(duì)大數(shù)據(jù)這一數(shù)字經(jīng)濟(jì)的關(guān)鍵要素,目前在治理方面仍存在不少挑戰(zhàn)。為此,要著力防范“大數(shù)據(jù)自大”陷阱,加強(qiáng)大數(shù)據(jù)治理,為充分發(fā)揮大數(shù)據(jù)在國(guó)家治理現(xiàn)代化中的作用打下堅(jiān)實(shí)基礎(chǔ)。
關(guān)鍵詞:大數(shù)據(jù)治理 大數(shù)據(jù)自大 政策建議
【中圖分類(lèi)號(hào)】D63 【文獻(xiàn)標(biāo)識(shí)碼】A
由于大數(shù)據(jù)具備“海量、實(shí)時(shí)、多類(lèi)型”等特征, 依托大數(shù)據(jù)、互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,我國(guó)數(shù)字經(jīng)濟(jì)蓬勃發(fā)展,已經(jīng)成為高質(zhì)量發(fā)展的新引擎。但是,對(duì)大數(shù)據(jù)這一數(shù)字經(jīng)濟(jì)的關(guān)鍵要素而言,目前在治理方面仍存在不少挑戰(zhàn),尤其是存在過(guò)于強(qiáng)調(diào)大數(shù)據(jù)發(fā)展優(yōu)勢(shì)而忽略其中可能存在問(wèn)題的傾向。為此,本文旨在著重探討大數(shù)據(jù)治理中需要防范的“大數(shù)據(jù)自大”陷阱。
“大數(shù)據(jù)”和“傳統(tǒng)數(shù)據(jù)”收集過(guò)程的差異
大數(shù)據(jù)在收集和分析方式上與傳統(tǒng)數(shù)據(jù)存在較大差異。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的收集主體是國(guó)家統(tǒng)計(jì)部門(mén)(“統(tǒng)計(jì)”在英文中與“國(guó)家”同一詞根)和特定研究機(jī)構(gòu)。無(wú)論是人口普查還是抽樣調(diào)查,在收集數(shù)據(jù)前往往需要經(jīng)過(guò)確定收集數(shù)據(jù)的目標(biāo)、根據(jù)該目標(biāo)設(shè)計(jì)問(wèn)卷或者確定收集方法、組織數(shù)據(jù)采集團(tuán)隊(duì)、對(duì)數(shù)據(jù)收集做好質(zhì)量控制等步驟。對(duì)于抽樣調(diào)查,還需要詳細(xì)的確定抽樣框的步驟。尤其重要的是,傳統(tǒng)數(shù)據(jù)的統(tǒng)計(jì)必須遵守相關(guān)法律法規(guī),如《中華人民共和國(guó)統(tǒng)計(jì)法》《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施條例》等。因此,傳統(tǒng)數(shù)據(jù)的收集主體相對(duì)清晰,數(shù)據(jù)收集目標(biāo)相對(duì)明確,存在規(guī)范的收集流程;一旦統(tǒng)計(jì)數(shù)據(jù)出現(xiàn)質(zhì)量問(wèn)題,也有明確責(zé)任人。
與傳統(tǒng)數(shù)據(jù)的收集相比,大數(shù)據(jù)往往不是為了特定目標(biāo)收集,而是企業(yè)運(yùn)營(yíng)過(guò)程中產(chǎn)生的副產(chǎn)品。例如,谷歌作為搜索引擎,最初只是為用戶(hù)提供便捷的搜索工具,但隨著用戶(hù)搜索量的增加,用戶(hù)搜索的信息本身沉淀為搜索大數(shù)據(jù)。又如淘寶最初只是讓消費(fèi)者和廠商可以在線(xiàn)上達(dá)成交易的平臺(tái),但雙方的交易形成了交易大數(shù)據(jù)。簡(jiǎn)而言之,大數(shù)據(jù)的收集不再是某一主體為了特定目標(biāo)而主動(dòng)展開(kāi)的統(tǒng)計(jì)項(xiàng)目,收集過(guò)程往往由數(shù)據(jù)采集平臺(tái)和機(jī)構(gòu)自行決定,因此對(duì)外界來(lái)說(shuō)是“黑箱”。由于目前我國(guó)還沒(méi)有相應(yīng)法律法規(guī)來(lái)規(guī)范大數(shù)據(jù)收集過(guò)程中的責(zé)、權(quán)、利問(wèn)題,大數(shù)據(jù)的質(zhì)量以及基于大數(shù)據(jù)的分析如果出現(xiàn)問(wèn)題也存在難以追責(zé)的現(xiàn)象。
“大數(shù)據(jù)自大”的提出
“大數(shù)據(jù)自大(Big Data Hubris)”問(wèn)題最早由Lazer等學(xué)者在2014年發(fā)文討論谷歌公司預(yù)測(cè)美國(guó)流感發(fā)病率項(xiàng)目時(shí)提出。2008年11月,谷歌公司啟動(dòng)了GFT(谷歌流感趨勢(shì))項(xiàng)目以預(yù)測(cè)美國(guó)疾控中心報(bào)告的流感發(fā)病率。2009年,GFT團(tuán)隊(duì)在《自然》發(fā)文稱(chēng),只需分析數(shù)十億搜索中45個(gè)與流感相關(guān)的關(guān)鍵詞,GFT就能比美國(guó)疾控中心提前兩周預(yù)報(bào)2007—2008季流感的發(fā)病率。2014年, Lazer等學(xué)者在《科學(xué)》發(fā)文指出,2009年GFT沒(méi)有能預(yù)測(cè)到非季節(jié)性流感A-H1N1;從2011年8月開(kāi)始的108周里,GFT有100周高估了美國(guó)疾控中心報(bào)告的流感發(fā)病率,高估程度達(dá)1.5倍—2倍多。
Lazer等學(xué)者認(rèn)為,“大數(shù)據(jù)自大”是這一預(yù)測(cè)錯(cuò)誤的主要原因之一。這里,它是指一家機(jī)構(gòu)認(rèn)為自己擁有的“海量數(shù)據(jù)”就是“全量數(shù)據(jù)”,因此在分析定位上認(rèn)為大數(shù)據(jù)比科學(xué)抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)更優(yōu)越。雖然近年來(lái)大數(shù)據(jù)與各類(lèi)傳統(tǒng)數(shù)據(jù)相結(jié)合的分析受到了一定程度的重視,但是在實(shí)踐中卻仍然存在“大數(shù)據(jù)自大”現(xiàn)象。
“大數(shù)據(jù)自大”的現(xiàn)實(shí)表現(xiàn)
忽略大數(shù)據(jù)可能存在的結(jié)構(gòu)變化
由于大數(shù)據(jù)相關(guān)技術(shù)在我國(guó)運(yùn)用的時(shí)間還比較短,在對(duì)經(jīng)濟(jì)和金融相關(guān)的預(yù)測(cè)中,尚不存在可以跨越較長(zhǎng)經(jīng)濟(jì)周期的大數(shù)據(jù)。而大數(shù)據(jù)分析所依據(jù)的機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)模型,都假定了訓(xùn)練數(shù)據(jù)的生成機(jī)制和真實(shí)數(shù)據(jù)的生成機(jī)制是相似的,即不存在結(jié)構(gòu)性變化。這一假定在較短時(shí)間內(nèi)可能成立,但是如果經(jīng)濟(jì)出現(xiàn)結(jié)構(gòu)性變化,就會(huì)產(chǎn)生過(guò)去運(yùn)行良好的模型忽然預(yù)測(cè)不準(zhǔn)的現(xiàn)象。例如,在經(jīng)濟(jì)繁榮時(shí)期訓(xùn)練出的判斷個(gè)人是否會(huì)逾期或者形成不良貸款的風(fēng)控模型,在經(jīng)濟(jì)下行時(shí)期就可能低估實(shí)際不良率的發(fā)生,導(dǎo)致對(duì)風(fēng)險(xiǎn)的預(yù)備不足。
忽略大數(shù)據(jù)可能不具備代表性
第一,不同平臺(tái)或者機(jī)構(gòu)有其特定的消費(fèi)人群。因此分析結(jié)論可能僅適用于該平臺(tái)或機(jī)構(gòu)、未必可以代表全國(guó)或某一地區(qū)的狀況。然而一個(gè)常見(jiàn)現(xiàn)象是,網(wǎng)絡(luò)新聞平臺(tái)采用該平臺(tái)的瀏覽大數(shù)據(jù)來(lái)分析各省人群的閱讀習(xí)慣差異,餐飲行業(yè)平臺(tái)采用在這個(gè)平臺(tái)上產(chǎn)生的大數(shù)據(jù)來(lái)分析不同城市的夜間經(jīng)濟(jì),報(bào)告結(jié)果往往直接闡述為“XX省的讀者更偏好娛樂(lè)類(lèi)新聞”“XX市夜間經(jīng)濟(jì)特征”等。當(dāng)相關(guān)企業(yè)將這類(lèi)報(bào)告報(bào)送有關(guān)部門(mén)時(shí),解讀這類(lèi)報(bào)告中的趨勢(shì)和特征就需要注意,這類(lèi)報(bào)告的分析包含了兩部分因素:一是全國(guó)或者某一地區(qū)人民閱讀或者餐飲的真實(shí)特征和趨勢(shì);二是該平臺(tái)自身需求所帶來(lái)的結(jié)構(gòu)性變化。如果忽略了第二種因素,就可能會(huì)導(dǎo)致對(duì)一些行業(yè)發(fā)展?fàn)顩r產(chǎn)生誤判。
第二,在大數(shù)據(jù)供給層面存在算法調(diào)整問(wèn)題。以谷歌公司為例,其商業(yè)模式的主要目標(biāo)是更快速地為使用者提供準(zhǔn)確信息。為了實(shí)現(xiàn)這一目標(biāo),數(shù)據(jù)科學(xué)家與工程師不斷更新谷歌搜索的算法,讓使用者可以通過(guò)后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要,但在數(shù)據(jù)生成機(jī)制方面卻導(dǎo)致不同時(shí)期的數(shù)據(jù)之間可能不可比。如果數(shù)據(jù)分析團(tuán)隊(duì)和算法演化團(tuán)隊(duì)沒(méi)有充分溝通,數(shù)據(jù)分析團(tuán)隊(duì)不清楚知曉算法調(diào)整對(duì)數(shù)據(jù)生成機(jī)制的影響,就會(huì)誤將數(shù)據(jù)變動(dòng)解讀為市場(chǎng)真實(shí)變動(dòng)而帶來(lái)誤判。
第三,數(shù)據(jù)生成動(dòng)機(jī)可能會(huì)隨時(shí)間推移而發(fā)生變化。前文已述,大數(shù)據(jù)不再是由政府特定部門(mén)或者特定機(jī)構(gòu)主持收集,而是經(jīng)濟(jì)社會(huì)主體運(yùn)營(yíng)中產(chǎn)生的副產(chǎn)品,因此大數(shù)據(jù)的采集就和該主體自身的利益訴求密切相關(guān)。以社交媒體大數(shù)據(jù)為例,對(duì)這類(lèi)數(shù)據(jù)的分析常常建立在一個(gè)假定之上,即人們?cè)谏缃幻襟w分享的信息都是真實(shí)的、自發(fā)的、不會(huì)被自己發(fā)言的平臺(tái)所操縱。如果說(shuō)過(guò)去社交媒體企業(yè)記錄保存客戶(hù)信息的動(dòng)機(jī)僅僅是本公司發(fā)展業(yè)務(wù)需要,算法演化也單純是為了更好地服務(wù)消費(fèi)者,那么隨著大數(shù)據(jù)時(shí)代的推進(jìn),“數(shù)據(jù)為王”的特征就會(huì)越來(lái)越明顯,社交媒體會(huì)看到除了可以給使用者植入廣告以增加收入之外,還可以操縱數(shù)據(jù)的生成與報(bào)告以增加自身的影響力。
技術(shù)唯上,忽略大數(shù)據(jù)分析的現(xiàn)實(shí)環(huán)境
大數(shù)據(jù)為我國(guó)發(fā)展新業(yè)態(tài)提供了嶄新機(jī)遇,但也存在一味強(qiáng)調(diào)大數(shù)據(jù)的技術(shù)優(yōu)勢(shì),而忽略大數(shù)據(jù)技術(shù)和各地區(qū)經(jīng)濟(jì)社會(huì)發(fā)展實(shí)際狀況相結(jié)合時(shí)可能產(chǎn)生問(wèn)題的現(xiàn)象。例如,金融科技發(fā)展過(guò)程中,大數(shù)據(jù)征信獲得了長(zhǎng)足進(jìn)展。基于大數(shù)據(jù)技術(shù),車(chē)抵貸有了新的執(zhí)行方式。相較于過(guò)去抵押車(chē)之后車(chē)就要放到固定地點(diǎn)不能移動(dòng)的安排,現(xiàn)在由于車(chē)輛都安裝了GPS,貸款平臺(tái)可以實(shí)時(shí)監(jiān)控車(chē)輛去向,因此抵押人辦完抵押手續(xù)之后仍然可以將車(chē)開(kāi)走,一旦無(wú)法還款,平臺(tái)公司上門(mén)拖車(chē)即可。但是,在2018年以來(lái)開(kāi)展的掃黑除惡專(zhuān)項(xiàng)整治活動(dòng)中,借款人不還款、而出借方平臺(tái)因?yàn)閾?dān)心被當(dāng)作惡意催收,也不能按照GPS上門(mén)收車(chē)的現(xiàn)象開(kāi)始出現(xiàn)。又如,大數(shù)據(jù)分析技術(shù)的發(fā)展讓網(wǎng)約車(chē)成為人們?nèi)粘3鲂械男逻x擇。但2019年12月Uber的首份安全報(bào)告顯示,2018年共發(fā)生超過(guò)3000起性侵案件,而紐約警察局記錄的數(shù)據(jù)顯示,2018年交通系統(tǒng)發(fā)生的這類(lèi)案件為533起。上述兩例說(shuō)明,如果沒(méi)有尊重金融規(guī)律(風(fēng)險(xiǎn)較高的人即便可以抵押車(chē)也不見(jiàn)得是好的借款人)、沒(méi)有相應(yīng)的司法保障而單純依靠大數(shù)據(jù)分析的技術(shù)力量,那么在開(kāi)發(fā)新業(yè)態(tài)的同時(shí)也可能帶來(lái)新風(fēng)險(xiǎn)。
防范“大數(shù)據(jù)自大”的政策建議
第一,加快訂立大數(shù)據(jù)采集和分析方面的法律法規(guī)。雖然有《網(wǎng)絡(luò)安全法》、《統(tǒng)計(jì)法》等法律法規(guī),但目前我國(guó)在專(zhuān)門(mén)針對(duì)大數(shù)據(jù)采集、使用、分享等方面的法律法規(guī)還十分欠缺。例如,一些APP存在在使用者不知情的情況下,采集和使用與該APP無(wú)關(guān)的個(gè)人信息的做法,而這些行為目前并沒(méi)有明確的法律層面的懲戒措施。而歐盟的《通用數(shù)據(jù)保護(hù)條例(General Data Protection Regulations)》、荷蘭的《個(gè)人數(shù)據(jù)保護(hù)法》(Personal Data Protection Act,“DPA”)都指出,在沒(méi)有法律依據(jù)的情況下處理個(gè)人數(shù)據(jù)是不被允許的。
第二,提高大數(shù)據(jù)使用的透明度,加強(qiáng)對(duì)大數(shù)據(jù)質(zhì)量的評(píng)估。由于大數(shù)據(jù)體量大、分析難度高等問(wèn)題,不僅大數(shù)據(jù)的收集過(guò)程可能是“黑箱”,大數(shù)據(jù)分析也可能存在過(guò)程不透明的現(xiàn)象。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個(gè)關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法,但是谷歌并沒(méi)有公開(kāi)相應(yīng)數(shù)據(jù),也沒(méi)有解釋這類(lèi)數(shù)據(jù)是如何搜集的。同時(shí),與透明度相關(guān)的是大數(shù)據(jù)分析結(jié)果的可復(fù)制性問(wèn)題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù),因此就難以復(fù)制、評(píng)估采用該數(shù)據(jù)分析結(jié)果的可靠性。這種數(shù)據(jù)生成和分析的“黑箱”特征,容易成為企業(yè)或者機(jī)構(gòu)操縱數(shù)據(jù)生成過(guò)程和研究報(bào)告結(jié)果的溫床。唯有通過(guò)推動(dòng)大數(shù)據(jù)分析的透明化,才能在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展之初,建立健康的數(shù)據(jù)文化。
第三,在保護(hù)隱私和數(shù)據(jù)安全的基礎(chǔ)上,加大傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的開(kāi)放共享力度。大數(shù)據(jù)分析中,單個(gè)企業(yè)具有顆粒度較高但是代表性不足的數(shù)據(jù) “信息孤島”問(wèn)題,需要通過(guò)不同行業(yè)、不同類(lèi)型大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)之間加強(qiáng)開(kāi)放和共享來(lái)解決。目前,一些大數(shù)據(jù)企業(yè)已經(jīng)開(kāi)始著手推動(dòng)數(shù)據(jù)開(kāi)放平臺(tái)方面的工作,這是該方向可喜的變化。同時(shí)要看到,在傳統(tǒng)數(shù)據(jù)的收集和開(kāi)放運(yùn)用方面,我國(guó)還有很大提升空間。只有在對(duì)涉及我國(guó)基本國(guó)情的傳統(tǒng)數(shù)據(jù)進(jìn)行充分學(xué)習(xí)研究之后,我國(guó)學(xué)界和業(yè)界才能對(duì)經(jīng)濟(jì)政治社會(huì)文化等領(lǐng)域的基本狀況有較清晰的把握。而這類(lèi)的把握,是評(píng)估大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)可研究問(wèn)題的關(guān)鍵,對(duì)推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展有舉足輕重的作用。
結(jié)語(yǔ)
我國(guó)經(jīng)濟(jì)已由高速增長(zhǎng)階段轉(zhuǎn)向高質(zhì)量發(fā)展階段,大數(shù)據(jù)已經(jīng)成為數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵要素。如果忽略數(shù)據(jù)生成機(jī)構(gòu)可能存在的行為動(dòng)機(jī)、大數(shù)據(jù)相關(guān)技術(shù)使用的現(xiàn)實(shí)國(guó)情、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的互相配合和交叉驗(yàn)證,那么大數(shù)據(jù)分析就有可能落入存在嚴(yán)重偏差的陷阱。因此在政策導(dǎo)向上,需要盡快推動(dòng)對(duì)大數(shù)據(jù)采集和使用的法律法規(guī)建設(shè),同時(shí)推動(dòng)大數(shù)據(jù)開(kāi)放共享、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的研究與合作,使大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)互為補(bǔ)充、相得益彰,共同助力我國(guó)經(jīng)濟(jì)的高質(zhì)量發(fā)展。
【本文作者為北京大學(xué)國(guó)家發(fā)展研究院教授】
參考文獻(xiàn)
[1]胥愛(ài)歡: 《互聯(lián)網(wǎng)金融創(chuàng)新挑戰(zhàn):大數(shù)據(jù)、跨界經(jīng)營(yíng)與權(quán)利異化》,《西南金融》,2016年第6期。
責(zé)編:司文君 / 周素麗
聲明:本文為《國(guó)家治理》周刊原創(chuàng)內(nèi)容,任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)國(guó)家治理周刊微信號(hào)獲得授權(quán),轉(zhuǎn)載時(shí)務(wù)必標(biāo)明來(lái)源及作者,否則追究法律責(zé)任。