中國人民大學信息學院教授 孟小峰
【摘要】人工智能幾經(jīng)沉浮,終于在60年之后迎來了新的黃金發(fā)展期。計算社會科學是一門因數(shù)據(jù)而生的學科,人工智能將成為其重要的研究工具。同時,計算社會科學也將推動人工智能“了解智能”。在新的時代背景下,把人工智能和計算社會科學結合起來發(fā)展,勢在必行。但是,這將產(chǎn)生數(shù)據(jù)層、算法層、應用層和生態(tài)系統(tǒng)四個方面的挑戰(zhàn),本文將對這些挑戰(zhàn)進行分析,并提出相應的解決方案,旨在通過“技術+制度”的方式,進一步推動人工智能和計算社會科學向前邁進。
【關鍵詞】人工智能 計算社會科學 數(shù)據(jù) 算法 生態(tài)系統(tǒng)
【中圖分類號】 TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.004
引言
人工智能的發(fā)展。目前,學術界公認人工智能的提出肇始于1956年的達特茅斯會議。經(jīng)歷了60余年沉浮,人工智能發(fā)展再攀高峰。從計算模式的角度來思考人工智能發(fā)展過程,可以發(fā)現(xiàn),計算機模式幾乎每15年就會發(fā)生一次重大變革。1950年,首臺計算機出現(xiàn);1965年,大型機進入人們視野;1980年,個人電腦開始普及;1995年,互聯(lián)網(wǎng)創(chuàng)造了“地球村”;2010年,云計算與大數(shù)據(jù)重新定義數(shù)據(jù)價值;2015年,“智能萬物互聯(lián)”的概念被提出。在此期間,人工智能于1956年被提出,并以“符號主義”的形式走進人們視野;20世紀80年代,“聯(lián)結主義”展示出強大生命力;在互聯(lián)網(wǎng)時代,統(tǒng)計學習理論得到發(fā)展,誕生了SVM等經(jīng)典模型。但是,直至云計算與大數(shù)據(jù)締造的大數(shù)據(jù)時代,人工智能才真正開始應用于實踐,形成了人工智能潮流。這與前期的理論積累和以深度學習為代表的人工智能算法、大數(shù)據(jù)時代的數(shù)據(jù)規(guī)模以及云計算帶來的強大算力密不可分。
那么,到底什么是人工智能呢?提出“機器學習(machine learning)”一詞的Arthur L. Smuel認為,[1]人工智能旨在使機器通過學習人的智能來解決復雜問題。所以,人工智能具有了解智能和實踐智能兩層內涵。其中,前者指真正了解人類解決復雜問題的智能過程;后者指機器能夠重現(xiàn)大腦在給定場景下的活動。由于前者,人工智能是一個典型的交叉學科問題,具體涉及計算機科學、數(shù)學、神經(jīng)科學、認知學等。而依據(jù)后者,即機器重現(xiàn)大腦的程度,可以將人工智能的發(fā)展分為弱人工智能、強人工智能和超人工智能三個階段。其中,弱人工智能可以在特定場景下完成基礎的角色性任務,如根據(jù)圖片對失蹤兒童本人進行識別;強人工智能則用于實現(xiàn)隨場景遷移的智能,如根據(jù)失蹤兒童照片找到其父母;而超人工智能則指超越于人類的智能。目前,強人工智能的應用并不常見,而超人工智能尚未真正出現(xiàn),所以,我們正處于弱人工智能階段。因此,本文的人工智能指“弱人工智能”。
雖然人工智能歷經(jīng)沉浮,迎來了新的黃金發(fā)展期。但是其本身存在“實現(xiàn)智能過程非智能”的問題,即實現(xiàn)機器學習等人工智能的手段依舊大量依靠人工。在機器學習系統(tǒng)中,[2]真正的機器學習代碼僅占很小一部分,而大部分工作都消耗在環(huán)境配置、數(shù)據(jù)采集、數(shù)據(jù)驗證、機器學習資源管理、特征提取、過程管理工具、分析工具、服務基礎設施和監(jiān)測上。而且隨著相關應用的落地,人們也會產(chǎn)生一些疑問:人工智能可以學習人的顯性知識,但應當如何學習常識等隱性知識以及知識抽象等能力呢?人工智能收集的個人信息可以應用于公安系統(tǒng),從而保障人身安全,但同時個人隱私又應當如何保護呢?因此,政府不僅通過“國家新一代人工智能開放創(chuàng)新平臺白名單”等形式大力鼓勵相關技術研發(fā),也出臺了《新一代人工智能治理原則》等進一步督促其健康發(fā)展。在人工智能潮流的背景之下,人們的生產(chǎn)和生活方式發(fā)生了很大變化,那么,計算社會科學又會迎來什么樣的挑戰(zhàn)和機遇呢?
計算社會科學的發(fā)展。后工業(yè)化時代的復雜社會問題催生了計算社會科學的誕生。正是其所在的大數(shù)據(jù)時代使“我們的社會開啟了一場可與印刷和互聯(lián)網(wǎng)帶來的革命相比肩的偉大旅程”。[3]2009年,David Lazer等多位科學家發(fā)表了題為《計算社會科學》(Computational Social Science[4])的文章,成為計算社會科學這一交叉學科誕生的標志。2012年,歐洲學者Conte R.等人發(fā)表的《計算社會科學宣言》(Manifesto of Computational Social Science[5])更是計算社會科學領域的“宣言”。
計算社會科學[6]是一種基于系統(tǒng)科學、網(wǎng)絡科學、復雜性科學等科學理論,利用人工智能、數(shù)據(jù)挖掘等計算科學方法,以社會、經(jīng)濟等領域大數(shù)據(jù)作為研究對象,交叉融合各學科理論,為人類更深入地認識社會、改造社會,解決政治、經(jīng)濟、文化等領域復雜社會問題的理論和方法論體系。簡而言之,計算社會科學是一門基于社會學原理,使用自然科學和信息科學工具,揭示社會發(fā)展規(guī)律,從而解決社會問題的學科。
計算社會科學是復雜社會背景和大數(shù)據(jù)時代共同催生的產(chǎn)物。但在大數(shù)據(jù)和互聯(lián)網(wǎng)的春風下,數(shù)據(jù)產(chǎn)生方式以及數(shù)據(jù)本身的特征將進一步發(fā)生轉變,未來二三十年的人類社會將從大數(shù)據(jù)時代過渡到萬物互聯(lián)時代,從而奠定智能社會的重要技術基礎。那么,計算社會科學將面臨哪些挑戰(zhàn)?又該如何實現(xiàn)這些挑戰(zhàn)的機遇化?為了充分利用萬物互聯(lián)時代的技術基礎,計算社會科學又將如何變革?
人工智能與計算社會科學的相輔相成。毫無疑問,進一步發(fā)展的人工智能將成為未來智能社會科技的重要組成。那么,在當前的人工智能潮流中,計算社會科學應當以什么姿態(tài)面對智能,又應當如何突破自身限制,繼續(xù)向前發(fā)展?在回答這個問題之前,我們首先需要明確人工智能與計算社會科學之間的關系。
人工智能將成為計算社會科學的重要研究工具。如上所述,計算社會科學是一門典型的交叉學科:從理論基礎、研究對象、研究問題,到研究工具,其每個環(huán)節(jié)都受益于其他學科的發(fā)展。計算社會科學扎根于傳統(tǒng)的社會學理論,基于大數(shù)據(jù)時代的豐富采樣和分析手段來研究和解決問題。人工智能的出現(xiàn),不僅豐富了計算社會科學的分析手段,還增強了其預測能力。如基于文本等內容的網(wǎng)絡輿情分析就是人工智能推動計算社會科學研究的典型案例。
計算社會科學將推動人工智能“了解智能”。如前所述,人工智能的提出旨在使機器通過學習人類在特定場景下的智能來解決復雜問題,具體包括了解智能和實踐智能兩方面。目前的人工智能僅處于弱人工智能階段。它面臨隱性知識無法得知和抽象能力無法學習等問題,也無法像人類那樣進行感性決策。而這些問題的關鍵在于機器對世界的感知和理解無法達到人類水平。因此,要真正“了解智能”,就需要對人及其思維展開進一步研究。而計算社會科學正是一門研究人及其群體的典型學科。因此,計算社會科學將推動人工智能“了解智能”。
經(jīng)過上述分析,可以發(fā)現(xiàn),無論是人工智能還是計算社會科學,它們都存在進一步發(fā)展的阻力或障礙。但是,人工智能可以成為計算社會科學的重要研究工具,而計算社會科學也將推動人工智能“了解智能”。那么,如果將二者結合起來,是否會遇到新的挑戰(zhàn)?又應當如何面對這些挑戰(zhàn)呢?
挑戰(zhàn)
由于彼此之間相輔相成,因此可以考慮將人工智能作為計算社會科學的重要研究工具之一,而計算社會科學得到的相關結論也可以幫助人工智能在實踐智能之前“了解智能”。那么,二者結合起來之后是否會將各自的問題放大,甚至產(chǎn)生新的問題呢?按照人工智能的實踐過程,下面將根據(jù)問題產(chǎn)生背景將人工智能浪潮中計算社會科學所面對的挑戰(zhàn)分為四層,即數(shù)據(jù)層、算法層、應用層,以及三者共同構成的生態(tài)系統(tǒng)。
以隱私為核心的數(shù)據(jù)層挑戰(zhàn)。數(shù)據(jù)既是人工智能得以廣泛應用的重要基礎,也是計算社會科學誕生的背景和驅動力所在?;跀?shù)據(jù)從產(chǎn)生到應用的生命周期來看,數(shù)據(jù)層將面對數(shù)據(jù)收集時的壟斷問題、數(shù)據(jù)分析和利用之前的融合問題,以及貫穿整個數(shù)據(jù)生命周期的隱私問題。
首先是數(shù)據(jù)壟斷?;诩s3000萬用戶的APP使用數(shù)據(jù)、162個維度的用戶畫像,以及近30萬個APP信息,包括名稱、類別、開發(fā)者、版本、權限、大小和評分等,我們得到了數(shù)據(jù)擁有者與收集者的隱私風險指數(shù),并通過群體分析、組合分析和成因分析得到了區(qū)域、人群、行為等多角度的隱私風險分析結果。其中,數(shù)據(jù)收集者的隱私風險量化結果表明,10%的收集者獲取了99%的權限數(shù)據(jù),形成了遠超傳統(tǒng)“二八定律”的數(shù)據(jù)壟斷。而且這些數(shù)據(jù)壟斷者之間還在進行著類似于2017年順豐菜鳥之爭的數(shù)據(jù)爭奪戰(zhàn)。如何評價現(xiàn)有的數(shù)據(jù)壟斷和數(shù)據(jù)爭奪戰(zhàn)?真正產(chǎn)生這些數(shù)據(jù)的用戶又應當如何維護自己的權益?
其次是大數(shù)據(jù)融合。從PC時代到互聯(lián)網(wǎng)時代,再到大數(shù)據(jù)時代,數(shù)據(jù)產(chǎn)生方式從被動到主動再到自動,當前數(shù)據(jù)也呈現(xiàn)出多源異構、分布廣泛和動態(tài)演化等特征,數(shù)據(jù)的關聯(lián)、交叉和融合更為迫切。價值挖掘是大數(shù)據(jù)應用的重要驅動力。而“大數(shù)據(jù)價值鏈”[7]則反映了大數(shù)據(jù)所含價值的挖掘過程。具體而言,其是一個“離散數(shù)據(jù)集成化數(shù)據(jù)知識理解普適機理凝練解釋客觀現(xiàn)象、回歸自然”的螺旋式上升過程,每個環(huán)節(jié)都是大數(shù)據(jù)的一次增值。那具體應當如何實現(xiàn)呢?
最后是數(shù)據(jù)隱私。數(shù)據(jù)獲取、分析和運用中,必然會帶來隱私問題。與傳統(tǒng)隱私問題相比,大數(shù)據(jù)隱私的來源和波及范圍更廣,相應產(chǎn)生的影響也更為深遠,尤其是個人隱私。其目前面臨的問題與20世紀臭名昭著的塔斯基吉梅毒實驗十分相似,都表現(xiàn)出BCD特征。第一,Beyond Users,即凌駕于用戶之上的目標。大數(shù)據(jù)收集者不僅將數(shù)據(jù)用于改善用戶體驗,也通過數(shù)據(jù)交易提高收益。而梅毒實驗工作人員不惜以被試身體健康為代價,收集用于推動梅毒研究的實驗數(shù)據(jù)。第二,Cheap Service,即為用戶提供廉價服務。大數(shù)據(jù)收集者通過為用戶提供廉價的產(chǎn)品來獲取更為昂貴的個人數(shù)據(jù)。而梅毒實驗工作人員則通過為被試提供廉價的食物來獲取更為昂貴的實驗數(shù)據(jù)。第三,Deceptive Means,即通過欺騙性手段挖掘更多用戶價值。大數(shù)據(jù)收集者可能會向用戶申請其提供服務并不需要的權限。而梅毒實驗工作人員為進一步獲取實驗數(shù)據(jù),聲稱(實際并沒有)為被試提供醫(yī)療服務。
以公平為核心的算法層挑戰(zhàn)。算法是人工智能的核心所在,那么算法本身有沒有問題呢?就算法的提出、訓練、測試和最終應用來看,公平問題較為突出。心理學家亞當斯的公平理論認為,人們對公平的感知取決于社會或歷史比較;社會學領域強調同工同酬;而哲學家羅爾斯則寄希望于通過“無知之幕”下的社會契約論來實現(xiàn)公平?!缎乱淮斯ぶ悄苤卫碓瓌t》中將“公平公正”列為原則之一,指出人工智能發(fā)展應促進公平公正,保障利益相關者的權益,促進機會均等。通過持續(xù)提高技術水平,改善管理方式,在數(shù)據(jù)獲取、算法設計、技術開發(fā)、產(chǎn)品研發(fā)和應用過程中消除偏見和歧視。
筆者認為人工智能算法中的公平主要包括兩個涵義:第一,面向數(shù)據(jù)集公平,即在算法相同的前提下,基于相似的數(shù)據(jù)集可以訓練出相似的模型。第二,面向數(shù)據(jù)個體公平,即對于訓練好的模型而言,輸入相似的數(shù)據(jù)個體可以得到相似的輸出結果。但實際應用并非如此。由于現(xiàn)實社會的復雜性,人天生帶有偏見,而這些偏見會被有意識或無意識地帶入訓練數(shù)據(jù)標注中;再加上訓練數(shù)據(jù)規(guī)模和質量的差異,很容易導致測試結果的不同;在這些因素的共同作用下,最終模型就會帶有偏見,進而將這種偏見體現(xiàn)在實踐應用的每個數(shù)據(jù)個體上。因此,理想情況下,公平的人工智能可以足夠反映客觀現(xiàn)實,即面向數(shù)據(jù)集公平;同時,也可以做到糾正主觀偏見,即面向數(shù)據(jù)個體公平。
以研究方法論為核心的應用層挑戰(zhàn)。人工智能可以提高計算社會科學的數(shù)據(jù)挖掘和預測等能力,但其研究方法論在根本上決定了這個學科能夠走多遠。計算社會科學固然可以推動人工智能對人類智能的“了解”,但最終效果依舊有賴于計算社會科學本身對人類的認知。因此,要真正發(fā)揮人工智能與計算社會科學的綜合效應,應當從計算社會科學的研究方法論入手。
計算社會科學是一門典型的交叉學科,它以前所未有的廣度、深度和規(guī)模大量收集和分析數(shù)據(jù),并通過計算建模的方法實現(xiàn)社會—技術系統(tǒng)的行為預測,是科學研究范式從實驗科學、理論科學發(fā)展到計算科學、探索科學的產(chǎn)物。誠然,雖來自于自然科學,這四大科學研究范式在提出之后卻同時推動了計算社會科學的發(fā)展。但是,計算社會科學和自然科學的研究對象具有本質差異,前者面向人,后者面向物。從學科分類體系來看,計算社會科學是總體邏輯思維,自然科學是類型邏輯思維。總體邏輯思維關注獨立各異個案的整體分布,其認為變異是社會現(xiàn)實的本質,研究工作是從變異中尋求規(guī)律,以經(jīng)驗為基礎,以量化為導向地去概括總體變異的系統(tǒng)模式。這種量化無法挖掘出普適規(guī)律來描述和解釋所有個體行為。類型邏輯思維則認為應該重點關注典型對象,只要理解了典型對象的規(guī)律,就可以將其概括并推廣到個體和具體問題。因此,實證主義等社會科學向自然科學看齊的研究方法并不能從根本上適應社會科學。計算社會科學需要在方法論上進行革新。
以數(shù)據(jù)治理為核心的生態(tài)系統(tǒng)挑戰(zhàn)。在人工智能與計算社會科學相輔相成的背景下,我們稱數(shù)據(jù)層、算法層和應用層均存在的問題為生態(tài)系統(tǒng)的大數(shù)據(jù)治理挑戰(zhàn)。“治理”(Governance)一詞最早起源于拉丁文“掌舵”(steering),起初用于“政府治理”。后受到企業(yè)認同和重視,出現(xiàn)了“企業(yè)治理”。隨著IT資源和數(shù)據(jù)資源的不斷豐富,出現(xiàn)了“IT治理”和“數(shù)據(jù)治理”的概念。而“大數(shù)據(jù)治理”則是“數(shù)據(jù)治理”的延伸,同時又具有其獨特性。Sunil Sores認為,[8]“大數(shù)據(jù)治理是廣義信息治理計劃的一部分,即制定與大數(shù)據(jù)有關的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策”。但正如信息安全領域經(jīng)典的“七分靠管理,三分靠技術”所言,筆者認為,“大數(shù)據(jù)治理”不應僅具有政策內涵,還應包括相關技術手段。這里的大數(shù)據(jù)治理挑戰(zhàn)具體包括數(shù)據(jù)獲取,數(shù)據(jù)發(fā)布,數(shù)據(jù)權利、責任、角色和風險,利益相關者,以及外部影響五個方面。[9]
第一,即使是在大數(shù)據(jù)時代,數(shù)據(jù)也并非無源之水。數(shù)據(jù)獲取需要大量社會資源的持續(xù)投入。第二,數(shù)據(jù)既沒有專利完善的保護措施,也沒有論文發(fā)表的成熟機制,因此在發(fā)布方面存在數(shù)據(jù)投資、保存和應用的制度和技術問題。第三,當數(shù)據(jù)成為重要資源,產(chǎn)學研政各界都將開始圍繞數(shù)據(jù)展開價值挖掘活動。但如何將數(shù)據(jù)所有權、使用權、許可權等權利,數(shù)據(jù)維護和監(jiān)督等責任,以及數(shù)據(jù)泄露和不完整等帶來的一系列風險分配給不同角色卻依舊懸而未決。第四,數(shù)據(jù)的利益相關者包括企業(yè)、高校、科研機構、學者、學生、圖書館、博物館、出版商、資助機構以及政府單位等。如何在不同利益相關者之間分配數(shù)據(jù)采集和繁雜的數(shù)據(jù)監(jiān)護[10]任務,并進一步構建大數(shù)據(jù)時代的數(shù)據(jù)人才基礎設施?第五,從產(chǎn)生到投入實踐,數(shù)據(jù)面臨的外部影響主要包括經(jīng)濟與數(shù)據(jù)價值、數(shù)據(jù)產(chǎn)權和倫理觀三個方面的問題。我們又應當如何緩解或解決這些新問題呢?
綜上,將人工智能應用于計算社會科學,并同時實現(xiàn)計算社會科學反哺人工智能,將會面臨數(shù)據(jù)層的數(shù)據(jù)壟斷、大數(shù)據(jù)融合和數(shù)據(jù)隱私問題,算法層的公平問題,應用層的計算社會科學研究方法論問題,以及整個生態(tài)系統(tǒng)都可能存在的大數(shù)據(jù)治理問題。如何克服這些挑戰(zhàn),從而真正發(fā)揮二者相輔相成的協(xié)同作用呢?
機遇
人工智能浪潮中的計算社會科學縱然面臨眾多挑戰(zhàn),但同時,相關技術的發(fā)展和制度的完善也為二者的協(xié)同進步奠定了基礎。下面將分別從數(shù)據(jù)層、算法層、應用層和生態(tài)系統(tǒng)四個方面闡釋解決方案。
基于隱私保護的數(shù)據(jù)層解決方案。作為計算社會科學和人工智能的基礎,數(shù)據(jù)層面臨的挑戰(zhàn)主要包括數(shù)據(jù)壟斷甚至爭奪、大數(shù)據(jù)融合和數(shù)據(jù)隱私三方面。針對這些問題,筆者建議從數(shù)據(jù)共享,大數(shù)據(jù)融合,以及隱私保護技術、聯(lián)邦學習和隱私保護制度著手進行現(xiàn)狀改善。
首先是針對數(shù)據(jù)壟斷的數(shù)據(jù)共享。從歷史角度來看,數(shù)據(jù)已經(jīng)從“About Enterprise”轉變?yōu)?ldquo;About People”,從而進一步擴大了數(shù)據(jù)生態(tài)的馬太效應,以至于目前10%的數(shù)據(jù)收集者掌握著用戶99%的權限數(shù)據(jù)。導致這種現(xiàn)狀的另一原因是數(shù)據(jù)收集者之間的數(shù)據(jù)收集方法、云計算技術水平、分析方法,以及經(jīng)濟實力等方面存在較大差異。可從規(guī)范數(shù)據(jù)收集和鼓勵數(shù)據(jù)共享兩個方面入手緩解該問題。規(guī)范數(shù)據(jù)收集將在隱私保護部分做進一步解釋,這里重點闡述鼓勵數(shù)據(jù)共享。一方面,組建數(shù)據(jù)共享中心。傳統(tǒng)意義上,數(shù)據(jù)共享意味著數(shù)據(jù)在不同使用者之間的物理拷貝和流通。但是,這種共享方式帶來的安全問題較多;且數(shù)據(jù)存儲和計算等成本非常高,經(jīng)濟實力較弱的數(shù)據(jù)收集者依舊無法承擔。因此,可以考慮組建數(shù)據(jù)共享中心,其成員不僅可以使用中心的數(shù)據(jù),也可以使用相關基礎設施和計算資源。另一方面,完善數(shù)據(jù)共享相關制度。目前,國內已組建了貴州、上海等大數(shù)據(jù)交易中心,并推出了“數(shù)+12”戰(zhàn)略的數(shù)據(jù)交易生態(tài)等。不過,還應當針對掌握大量用戶數(shù)據(jù)的企業(yè)出臺相關數(shù)據(jù)共享的激勵和合規(guī)政策。
其次是大數(shù)據(jù)融合相關技術。單個數(shù)據(jù)源的價值有限,要進一步實現(xiàn)價值提升,就必須進行大數(shù)據(jù)融合。其獨特性與問題包括:第一,割裂的多源異構數(shù)據(jù),如生物領域的基因組、蛋白質和文獻等;第二,數(shù)據(jù)規(guī)模與數(shù)據(jù)價值之間的矛盾,即相關數(shù)據(jù)越多,可挖掘的知識越多,數(shù)據(jù)價值就越高,但相應數(shù)據(jù)挖掘的難度也會更大;第三,跨媒體、跨語言的關聯(lián),如圖片、音視頻與文本數(shù)據(jù)的關聯(lián);第四,實體和關系的動態(tài)演化,如學者更換其所在單位;第五,知識的隱含性,如學者之間的“合作”關系可能暗含“師生”關系。作為大數(shù)據(jù)背景下的數(shù)據(jù)處理手段,“大數(shù)據(jù)融合”[11]用于從大數(shù)據(jù)中發(fā)現(xiàn)知識,并按照知識的語義邏輯關聯(lián)融合形成更接近人類思維的知識,是一種數(shù)據(jù)融合與知識融合雙環(huán)驅動的大數(shù)據(jù)價值發(fā)現(xiàn)方法。其中數(shù)據(jù)融合包括模式對齊、實體鏈接、數(shù)據(jù)一致性和數(shù)據(jù)溯源;而知識融合則指知識抽象和建模、關系推理、深度知識發(fā)現(xiàn),以及普適機理的剖析和歸納。
最后是數(shù)據(jù)隱私問題。數(shù)據(jù)從“About Enterprise”轉變?yōu)?ldquo;About People”帶來的第一個問題就是隱私泄露。目前,可以從技術和制度兩方面進行隱私保護。技術上主要包括基于擾動的隱私保護技術、基于密碼學的隱私保護技術和基于分布式訓練的聯(lián)邦學習技術。第一,基于擾動的隱私保護技術指差分隱私、K匿名等,其計算效率高,目前已有成熟應用。但是,這種隱私保護技術與決策可解釋性之間存在矛盾。一方面,為了保證決策可解釋性,就必須保證數(shù)據(jù)的準確性,這樣很容易出現(xiàn)隱私泄露問題;另一方面,要保護隱私,就一定會導致數(shù)據(jù)準確性降低,決策可解釋性隨之降低。因此,如何在大數(shù)據(jù)隱私和決策可解釋性之間達到良好平衡,是一個亟待解決的問題。第二,基于密碼學的隱私保護技術指同態(tài)加密、安全多方計算等,其安全性較高,數(shù)據(jù)可恢復,但效率較低,無法廣泛應用。第三,基于分布式訓練的聯(lián)邦學習技術,其旨在通過共享模型參數(shù)而非具體數(shù)據(jù)來完成機器學習訓練過程。相比于集中訓練方式,聯(lián)邦學習更適用于隱私保護場景,但其隱私攻擊既可能來自于服務端,也可能來自于其他惡意設備。而且目前仍處于起步階段,依舊存在通信帶寬受限、模型難收斂、強依賴于云服務等問題。
從制度上來看,國內外都已經(jīng)出臺了一系列隱私保護法律法規(guī)與條例。自2018年5月1日起,我國開始實施《信息安全技術個人信息安全規(guī)范》;2018年5月25日,歐盟推出《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR);2018年11月2日,美國參議院公布新的隱私立法草案;2019年4月16日,舊金山通過了《停止秘密監(jiān)視》條例的修訂;2019年5月28日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法(征求意見稿)》;2019年6月17日,國家新一代人工智能治理專業(yè)委員會發(fā)布《新一代人工智能治理原則——發(fā)展負責任的人工智能》,并強調人工智能發(fā)展應尊重和保護個人隱私。但是,隱私保護的美好愿景和現(xiàn)實生活中的大規(guī)模數(shù)據(jù)泄露之間存在根本矛盾,如Facebook數(shù)據(jù)泄露等事件一再出現(xiàn)。在這樣大規(guī)模數(shù)據(jù)泄露的背景之下,實現(xiàn)隱私保護是否真的可能?在未來會不會演變?yōu)闊o隱私(No Privacy)?
基于數(shù)據(jù)透明的算法層解決方案。根據(jù)前述分析可以發(fā)現(xiàn),雖然算法公平問題最終表現(xiàn)在決策階段,但成因可能在數(shù)據(jù)標注、模型訓練和測試等階段。因此,要解決公平問題,就需要從數(shù)據(jù)和算法兩方面入手。相應的計算機技術是數(shù)據(jù)透明。數(shù)據(jù)透明有廣義和狹義之分,廣義的數(shù)據(jù)透明包括狹義的數(shù)據(jù)透明和算法透明。其中,前者[12]指有效獲取數(shù)據(jù)在產(chǎn)生、處理及決策過程中所涉信息的能力;后者則指算法可解釋,即數(shù)據(jù)收集前,用戶需考慮個人數(shù)據(jù)將作何種用途;數(shù)據(jù)收集后,第三方需考慮數(shù)據(jù)來源的真實性;決策階段,要重點關注決策過程的可解釋性。
由于保證了數(shù)據(jù)利益相關者對數(shù)據(jù)的知情權等權利,以數(shù)據(jù)透明為基礎,可以建立和完善數(shù)據(jù)獲取和應用的問責機制、實現(xiàn)用戶控制。以數(shù)據(jù)生命周期為標準,可以將數(shù)據(jù)透明分為獲取透明、流通透明、使用透明和刪除透明。其中,獲取透明指基于訪問控制的數(shù)據(jù)收集;流通透明指基于區(qū)塊鏈的數(shù)據(jù)共享和交易;使用透明包括算法透明和可驗證性計算;而刪除透明則包含了覆蓋刪除和密碼學刪除。因此,當大規(guī)模數(shù)據(jù)泄露不斷出現(xiàn),隱私保護已不再現(xiàn)實,就可以使用數(shù)據(jù)透明來保證數(shù)據(jù)的合理運用。
就算法透明而言,《新一代人工智能治理原則——發(fā)展負責任的人工智能》中提出了“安全可控”原則,即人工智能系統(tǒng)應不斷提升透明性、可解釋性、可靠性、可控性,逐步實現(xiàn)可審核、可監(jiān)督、可追溯、可信賴。
綜上,建立數(shù)據(jù)透明的治理體系是解決人工智能時代隱私、效率和公平的關鍵,中國應該先行一步。
基于新型研究范式的應用層解決方案。計算社會科學從誕生到進一步發(fā)展的成長過程中曾受惠于四大科學研究范式。但是,由于與自然科學在研究對象、邏輯思維以及現(xiàn)實復雜性等方面存在本質區(qū)別,其面臨的方法論挑戰(zhàn)日益嚴峻。當下的計算社會科學能否實現(xiàn)新一輪的方法論革新,并將其上升為新型科學研究范式,實現(xiàn)科學研究范式轉移,進而惠及其他交叉學科,乃至自然科學?答案是肯定的。后大數(shù)據(jù)時代的計算模式將成為未來社會的重要基礎設施。而智能萬物互聯(lián)的信息技術將以更加豐富的方式描述現(xiàn)實世界,從而推動社會學等領域的專家學者更加了解人類賴以生存的社會系統(tǒng)。同時,中國的城市化、網(wǎng)絡化等發(fā)展趨勢與萬物互聯(lián)天然契合,將有望成為科學研究范式轉移實現(xiàn)的沃土。當技術和社會背景同時發(fā)生變革,誕生于二者交織背景下的計算社會科學應當如何化挑戰(zhàn)為機遇?
一方面,計算社會科學應當充分把握與生俱來的技術和社會優(yōu)勢,在“技術推動社會發(fā)展,社會豐富技術內涵”的相輔相成機制中進一步向前邁進。在未來萬物互聯(lián)和以城市化為中心的中國社會,社會科學將不再一味地依賴信息技術的發(fā)展。這里以萬物互聯(lián)的重要技術基礎5G為例進行闡釋。近來,5G技術的發(fā)展及其作用已經(jīng)被過分夸大,其未來發(fā)展不是帶寬問題,而是內涵問題??墒?,計算機信息技術只能滿足帶寬需求,因此,只有依靠計算社會科學,5G的內涵才能進一步得以豐富。
另一方面,計算社會科學不應一味向自然科學看齊,而要基于對現(xiàn)實世界的準確描述,構建自己的理論框架,形成自己的方法論。根據(jù)前述內容,我們有理由相信如果充分利用萬物互聯(lián)時代的優(yōu)勢,同時從社會背景和現(xiàn)實需求出發(fā)進一步豐富萬物互聯(lián)的技術內涵,進而使二者相互促進,以社會科學家為代表的學者們可能提出真正植根于社會科學的第五科學研究范式。新的研究范式將以大量社會科學活動為積淀,旨在挖掘新社會需求,豐富新技術內涵,在促進交叉學科研究的同時,推動社會前進。
基于數(shù)據(jù)治理的生態(tài)系統(tǒng)解決方案。歷史地看,數(shù)據(jù)發(fā)展共有兩條主線。第一條是Data about Enterprise,數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)集成都是典型代表;進入大數(shù)據(jù)時代之后,Data about People成為第二條主線,數(shù)據(jù)思維、數(shù)據(jù)智能與數(shù)據(jù)生態(tài)等名詞層出不窮?,F(xiàn)有數(shù)據(jù)生態(tài)的特殊性決定了數(shù)據(jù)確權、定價、交易等不能解決數(shù)據(jù)壟斷、隱私和公平等問題。
人工智能和計算社會科學均因數(shù)據(jù)而蓬勃發(fā)展。正如在“大數(shù)據(jù)融合”挑戰(zhàn)中所闡釋的那樣,要真正從多元異構、價值不一的數(shù)據(jù)中提取信息,并進一步轉化為知識,就需在傳統(tǒng)數(shù)據(jù)分析工具的基礎上進一步改進,運用大數(shù)據(jù)融合相關技術。但數(shù)據(jù)從產(chǎn)生到處理,到存儲,到進一步價值提升,再到最終應用等都會面臨數(shù)據(jù)產(chǎn)權等一系列相關問題。而“數(shù)據(jù)治理”則旨在解決這一系列數(shù)據(jù)挑戰(zhàn)。
為了在充分挖掘數(shù)據(jù)價值的同時,尊重數(shù)據(jù)相關權利,從而促進科學研究進步,推動社會向前發(fā)展,在產(chǎn)學研政企等利益相關者之間建立合作共贏的數(shù)據(jù)共享模式、制定合理的規(guī)章制度非常必要。同時,需要推動相關技術向前發(fā)展。惟其如此,才能在降低信息泄露風險、維護公平的同時,又保留數(shù)據(jù)價值。
總之,人工智能將成為計算社會科學的重要研究工具;同時,計算社會科學也將推動人工智能“了解智能”。因此,計算社會科學應當在人工智能浪潮中充分提升其數(shù)據(jù)挖掘和預測能力;同時也可以為人工智能的發(fā)展貢獻力量。
注釋
[1]Samuel A L, "Artificial intelligence - a frontier of automation", The Annals of the American Academy of Political and Social Science, 1962, 4(1), pp. 173-177.
[2]Sculley D, Holt G, Golovin D, et al, "Hidden technical debt in machine learning systems", International Conference on Neural Information Processing Systems, MIT Press, 2015.
[3][美]阿萊克斯·彭特蘭:《智慧社會》,汪小帆、汪容譯,杭州:浙江人民出版社,2015年,第19頁。
[4]Lazer D, Pentland A, Adamic L, et al, "Computational social science", Science, 2009, 323(1), pp. 721-723.
[5]Conte R, Gilbert N, Bonelli G, et al, "Manifesto of computational social science", The European Physical Journal Special Topics, 2012, 214(1), pp. 325-346.
[6]孟小峰、李勇、祝建華:《社會計算:大數(shù)據(jù)時代的機遇與挑戰(zhàn)》,《計算機研究與發(fā)展》,2013年第12期,第2483~2491頁。
[7][11]孟小峰、杜治娟:《大數(shù)據(jù)融合研究:問題與挑戰(zhàn)》,《計算機研究與發(fā)展》, 2016年第2期,第231~246頁。
[8][美]桑尼爾·索雷斯:《大數(shù)據(jù)治理》,匡斌譯,北京:清華大學出版社,2014年,第4頁。
[9]Christine L.Borgman, Big data, little data, no data: scholarship in the networked world, The MIT Press, 2015, pp. 271-288.
[10]Lord, Philip, and Alison M.," E-science curation report: data curation for e-science in the UK: an audit to establish requirements for future curation and provision", Digital Archiving Consultancy Limited, 2003.
[12]Elisa B, "Big data-security and privacy and transparency", Privacy and Security in Big Data Ecosystem, Keynote, 2017.
責 編/張 曉
孟小峰,中國人民大學信息學院教授、博導,中國計算機學會會士(2013)。研究方向為大數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)融合、大數(shù)據(jù)實時分析、大數(shù)據(jù)隱私管理以及交叉性研究。主要著作有《大數(shù)據(jù)管理概論》《Web數(shù)據(jù)管理:概念與技術》《移動數(shù)據(jù)管理:概念與技術》等。
Computational Social Science and the Burgeoning Artificial Intelligence
Meng Xiaofeng
Abstract: After several rounds of ups and downs in the last 60 years, artificial intelligence (AI) has finally ushered in a new golden period of development. Computational social science is a subject born out of data, and AI will become an important research tool of it. At the same time, the computational social science will also push AI to "understand intelligence". In the new era, their combination is an imperative. However, this will pose challenges in the data level, algorithm level, application level and the eco-system level. This paper will analyze these challenges and propose corresponding solutions, aiming to further advance AI and computational social science by means of "technology + system".
Keywords: artificial intelligence, computational social science, data, algorithm, eco-system