【摘要】人工智能和大數(shù)據(jù)分析技術(shù)的發(fā)展為社會科學(xué)研究提供了新的技術(shù)方法和理念,同時也帶來了新的挑戰(zhàn)。本文從人工智能技術(shù)在我國社會科學(xué)研究中的運(yùn)用現(xiàn)狀出發(fā),分析了未來人工智能技術(shù)背景下社會科學(xué)研究范式的多元化發(fā)展和文理融合發(fā)展的趨勢。強(qiáng)調(diào)推動我國可計(jì)算社會科學(xué)研究發(fā)展需要避免的幾個誤區(qū),比如偏重相關(guān)關(guān)系的研究而忽略對因果關(guān)系的探索,受樣本數(shù)據(jù)偏差的影響而陷入“統(tǒng)計(jì)的胡說”現(xiàn)象,以及過度依賴于算法而導(dǎo)致結(jié)果偏差放大的現(xiàn)象等。隨著文理融合時代的到來,統(tǒng)計(jì)學(xué)和數(shù)據(jù)處理相關(guān)的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的跨學(xué)科普及至關(guān)重要,需要盡早開展相關(guān)的交叉學(xué)科的設(shè)置,積極提供網(wǎng)絡(luò)教育等相關(guān)知識普及的公共品。
【關(guān)鍵詞】人工智能 大數(shù)據(jù) 社會科學(xué) 統(tǒng)計(jì) 計(jì)算機(jī)語言
【中圖分類號】C3 【文獻(xiàn)標(biāo)識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.005
隨著人類社會的進(jìn)步和科技的發(fā)展,科學(xué)研究的方法也在不斷演進(jìn),從早期以亞里士多德的天動學(xué)說為代表的自然哲學(xué)研究手法,逐步演變到以牛頓為代表的對自然哲學(xué)的數(shù)學(xué)原理的探索,進(jìn)一步發(fā)展到如今基于數(shù)值計(jì)算和模擬仿真的計(jì)算科學(xué)時代。而進(jìn)入21世紀(jì),人工智能技術(shù)(Artificial Intelligence)的發(fā)展,揭開了被稱為第4代科學(xué)——數(shù)據(jù)集約型(大數(shù)據(jù))科學(xué)發(fā)展的序幕。[1]
傳統(tǒng)的科學(xué)研究方法主要是基于研究人員通過觀察和實(shí)驗(yàn)提出假說,然后通過反復(fù)試錯驗(yàn)證來實(shí)現(xiàn)對理論的探索,是先提出理論然后進(jìn)行驗(yàn)證的過程。而人工智能背景下研究的特征則體現(xiàn)在利用相對有限的小規(guī)模的觀察數(shù)據(jù),然后通過不同場景假設(shè)和模擬仿真技術(shù)來獲取更多數(shù)據(jù)——即深度學(xué)習(xí),最終完成新理論的發(fā)現(xiàn),可以稱之為模擬仿真驅(qū)動型科學(xué)研究,是一個從數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律的過程。
人工智能的發(fā)展的基礎(chǔ)是計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)的發(fā)展,然而應(yīng)用人工智能的研究領(lǐng)域卻不僅僅局限于計(jì)算機(jī)科學(xué),而是跨界于各個自然科學(xué)和社會科學(xué)的領(lǐng)域。在我國,人工智能在科學(xué)研究中的應(yīng)用也越來越普遍,主要集中于計(jì)算機(jī)科學(xué)、工程和自動控制系統(tǒng)領(lǐng)域?!吨袊斯ぶ悄馨l(fā)展報(bào)告2018》中已經(jīng)顯示中國目前是人工智能論文產(chǎn)出和人工智能專利布局最多的國家。在過去的20年里,中國人工智能領(lǐng)域的論文產(chǎn)出全球占比從4.26%上升到了27.68%,按照國際經(jīng)濟(jì)學(xué)對比較優(yōu)勢的定義,[2]中國人工智能領(lǐng)域的論文產(chǎn)出全球占比已經(jīng)大于中國GDP的全球占比了,因此中國在人工智能的研究領(lǐng)域已經(jīng)屬于具有比較優(yōu)勢的國家了。這一定程度上是得益于現(xiàn)今人工智能算法的進(jìn)化很大程度上以大數(shù)據(jù)為基礎(chǔ),而中國龐大的人口規(guī)模是世界上最好的天然的大數(shù)據(jù)試驗(yàn)場。
與此同時,隨著微觀數(shù)據(jù)的可獲得性的增加,社會科學(xué)研究領(lǐng)域在最近的20年來越來越趨向于量化研究,其中包括實(shí)證研究和反事實(shí)分析。以經(jīng)濟(jì)學(xué)為例,在經(jīng)濟(jì)學(xué)領(lǐng)域備受關(guān)注的約翰·貝茨·克拉克獎,該獎項(xiàng)60%的獲獎?wù)叨极@得了諾貝爾經(jīng)濟(jì)學(xué)獎。在1995年之前,僅有20%的獲獎?wù)叩牡某晒墙⒃跀?shù)據(jù)基礎(chǔ)上的實(shí)證研究(80%是理論研究成果),而在過去的15年內(nèi),實(shí)證研究的獲獎比例上升到了70%。因此,可以預(yù)見人工智能中的大數(shù)據(jù)和大數(shù)據(jù)技術(shù)在社會科學(xué)研究領(lǐng)域中的運(yùn)用將會越來越普遍,而成為社會科學(xué)研究領(lǐng)域的一個重要趨勢。
人工智能的技術(shù)為社會科學(xué)領(lǐng)域的研究者們帶來了前所未有的大數(shù)據(jù)的同時,也為社會科學(xué)研究提供了新的技術(shù)和方法,甚至是新的研究理念。這些對社會科學(xué)領(lǐng)域的研究而言無疑是巨大的機(jī)遇。但需要注意的是,人工智能技術(shù)雖然使得社會科學(xué)與自然科學(xué)研究在方法上形成了一定的共通性,但是這兩類研究之間仍然具有幾點(diǎn)本質(zhì)的不同,如何合理而有效地利用人工智能技術(shù),對社會科學(xué)研究者們提出了一些特殊的挑戰(zhàn)性問題。首先,社會科學(xué)的主要研究對象是人和人類的行為,存在倫理限制的技術(shù)手段無法在人類活動中實(shí)現(xiàn)完全實(shí)驗(yàn)環(huán)境,因此人工智能所帶來的大數(shù)據(jù)在社會科學(xué)領(lǐng)域很難真正實(shí)現(xiàn)理想中的總體而非樣本的情境。其次,人工智能可以協(xié)助研究者們從更為微觀的層面對社會科學(xué)問題進(jìn)行分析,在獲得微觀個體的精確行為的同時,也對研究者進(jìn)行宏觀規(guī)律總結(jié)帶來了挑戰(zhàn)。人類微觀活動之間的交互作用是非常復(fù)雜的,因此宏觀加總的難度也隨著數(shù)據(jù)的細(xì)化而成幾何級數(shù)式的增加。最后,我們對社會科學(xué)的研究成果的應(yīng)用一般不是具體的產(chǎn)品或者服務(wù),而是一些戰(zhàn)略性的政策,比如說企業(yè)的營銷策略,激勵機(jī)制,政府的政策方針,等等,因此,社會科學(xué)的研究成果的影響面會比較大,在分析過程中的稍許偏差很可能會帶來巨大的社會影響。
基于上述背景,本文嘗試從社會科學(xué)領(lǐng)域利用人工智能的現(xiàn)狀出發(fā),闡述人工智能為社會科學(xué)研究帶來研究范式的多元化以及研究技術(shù)和方法革新,并進(jìn)一步深入探討人工智能給社會科學(xué)研究所帶來的挑戰(zhàn)以及如何應(yīng)對的策略和建議。
社會科學(xué)領(lǐng)域利用人工智能研究的現(xiàn)狀
相比自然科學(xué),人工智能在社會科學(xué)領(lǐng)域中的應(yīng)用尚處在比較基礎(chǔ)的階段。羅晨和沈浩(2018)根據(jù)美國科學(xué)情報(bào)研究所(Institute for Scientific Information, ISI)編制的Web of Science(WoS)引文數(shù)據(jù)庫,選取了以人工智能為主題的社會科學(xué)領(lǐng)域的發(fā)表論文和會議論文,發(fā)現(xiàn)社會科學(xué)涉及到人工智能的研究最早可以追溯到1975年。然而在最開始的10年,人工智能相關(guān)的社會科學(xué)領(lǐng)域每年的論文數(shù)量僅在個位數(shù)徘徊,直到最近的10年,這一數(shù)字出現(xiàn)了飛速地增長,每年都有超過百篇的相關(guān)論文,其中2017年和2018年,分別超過了200篇。雖然中國在工程和自然科學(xué)類的人工智能方面的研究數(shù)量領(lǐng)先于世界各國,但是在社會科學(xué)領(lǐng)域,我們對人工智能方面的應(yīng)用還是與發(fā)達(dá)國家(尤其是美國)有一定的差距,截止于2018年,社會科學(xué)領(lǐng)域人工智能相關(guān)的文獻(xiàn)中國的數(shù)量還不到美國的四分之一。
社會科學(xué)是研究人類社會種種現(xiàn)象的各學(xué)科的總體或者其中任一學(xué)科,它包括商業(yè)與經(jīng)濟(jì)、政治學(xué)、法學(xué)、倫理學(xué)、歷史學(xué)、社會學(xué)、心理學(xué)、教育與教育研究、運(yùn)籌學(xué)與管理科學(xué)等。社會科學(xué)的不同子科學(xué)涉及人工智能的研究深度和廣度都各不相同。截至2018年,我國人工智能在社會科學(xué)子學(xué)科中應(yīng)用最多的是商業(yè)與經(jīng)濟(jì)方向,共有515篇相關(guān)論文;而論及人工智能的應(yīng)用廣度,即在人工智能研究領(lǐng)域的某社會科學(xué)子學(xué)科與其他學(xué)科的關(guān)聯(lián)度,心理學(xué)的度數(shù)中心度則是最高的。其他涉及人工智能較多的社會科學(xué)子科學(xué)分別是運(yùn)籌學(xué)與管理科學(xué)、教育與教育研究,以及其他社會科學(xué)子學(xué)科(跨學(xué)科、倫理學(xué)和社會科學(xué)史)。表1表示了應(yīng)用人工智能最多(深度)的五個社會科學(xué)子學(xué)科,以及他們相應(yīng)的廣度指標(biāo)(社會網(wǎng)絡(luò)分析的度數(shù)中心度[3])。
表1
從表1中我們可以看到,社會科學(xué)領(lǐng)域中涉及到人工智能較多的這些子學(xué)科,也是近年來研究數(shù)量化趨勢比較明顯的社會科學(xué)子學(xué)科。人工智能的跨學(xué)科特征在社會科學(xué)研究中的體現(xiàn)是十分明顯的,毫無疑問未來將會是文理融合的時代。
人工智能與社會科學(xué)研究范式的多元化
如前言所述,人工智能在社會科學(xué)研究中的引入使得社會科學(xué)的研究方法更為多元化。根據(jù)米加寧等(2018)的研究,可以把社會科學(xué)的研究范式歸納分為四種。
一是定性分析,即通過類比和推理歸納概括研究對象之間的關(guān)系,而現(xiàn)代的社會科學(xué)的定性分析就是通過理論建模,解釋研究對象之間的復(fù)雜邏輯關(guān)系,對應(yīng)于自然哲學(xué)研究方法。
二是定量分析,通過“假設(shè)-檢驗(yàn)”,利用人工采集的數(shù)據(jù)論證研究對象之間的關(guān)系。在社會科學(xué)中因果關(guān)系的確認(rèn)是研究者們極為關(guān)注的,但長期以來由于數(shù)據(jù)的局限性,同時社會科學(xué)的研究對象的構(gòu)成要素復(fù)雜多變,因此在社會科學(xué)研究中大量的定量分析常常存在由于樣本的選擇而帶來的偏差問題,對應(yīng)于數(shù)學(xué)原理探索方法。
三是計(jì)算實(shí)驗(yàn)的仿真研究,其中最具代表性的就是經(jīng)濟(jì)學(xué)領(lǐng)域中使用的可計(jì)算一般均衡分析。它是在通過復(fù)雜的數(shù)學(xué)推導(dǎo)的定性分析基礎(chǔ)上,利用有限的真實(shí)數(shù)據(jù)對模型進(jìn)行校準(zhǔn),當(dāng)復(fù)雜模型被證實(shí)有一定程度的有效性之后,通過模擬現(xiàn)實(shí)不存在的模擬數(shù)據(jù),對研究對象進(jìn)行反事實(shí)分析來完成的。最近10年,計(jì)算實(shí)驗(yàn)的仿真研究方法在社會科學(xué)研究領(lǐng)域越來越到受影響力大的專業(yè)學(xué)術(shù)期刊的關(guān)注,其原因歸結(jié)于這類研究方法能夠較好地克服定性分析和定量分析的局限性。
四是基于人工智能的數(shù)據(jù)集約型研究。現(xiàn)在的大數(shù)據(jù)研究從數(shù)據(jù)獲取、建模到分析預(yù)測幾乎都可以由計(jì)算機(jī)來完成。其數(shù)據(jù)上的優(yōu)勢是毋庸置疑的,研究的效率也要遠(yuǎn)勝于其他研究方法;然而這類研究方法的重點(diǎn)卻應(yīng)該鎖定在理論建模分析中。如果忽略甚至放棄了理論建模,那么就可能造成對研究對象之間的因果關(guān)系以及其他復(fù)雜邏輯都不能準(zhǔn)確判定,研究結(jié)果也難以給與合理解釋,因此,必須反復(fù)強(qiáng)調(diào)的是,一旦大數(shù)據(jù)的樣本存在偏差或者算法出現(xiàn)偏誤,研究結(jié)果也將會存在很大的誤差。
人工智能的發(fā)展為社會科學(xué)的研究帶來了過去無法想象的大數(shù)據(jù)、新算法,和超強(qiáng)的計(jì)算能力,因此在未來社會科學(xué)研究的范式必然向多元性發(fā)展。
首先,在研究問題的提出方面,大數(shù)據(jù)的研究范式可以驅(qū)動研究者們提出新的研究問題和研究關(guān)注點(diǎn)。到目前為止大多數(shù)人工智能所提供的大數(shù)據(jù)是被動收集的,受研究熱點(diǎn)或傳統(tǒng)研究方向的主觀影響較小,因此,這些大數(shù)據(jù)無論是深度還是廣度都可以給研究者們帶來新的研究問題的啟發(fā),可以幫助研究者跳出必須基于對先行文獻(xiàn)綜述的傳統(tǒng)的框架,而對學(xué)科重要問題展開拓展研究的空間變大。
其次,無論是數(shù)據(jù)的獲得、整合和分析,人工智能的運(yùn)用都會大幅度提高效率,大數(shù)據(jù)分析,可以讓研究者能夠更加順利地觀察和捕捉到研究對象之間的邏輯關(guān)系。
再次,由于“因果關(guān)系是人類理性行為與活動的基本依據(jù),人類理性本身不可能否定因果關(guān)系”(王天思,2016)。社會科學(xué)傳統(tǒng)的理論建模定性分析可以獲得研究對象之間的理論因果關(guān)系,在此基礎(chǔ)上,如能充分利用人工智能的先進(jìn)算法,毫無疑問可以使得理論建模的假設(shè)大幅度減少,模型的復(fù)雜程度可以得到大幅度提高,仿真程度也會變得更高和更好。
最后,研究者們可以根據(jù)理論模型的定性分析,利用人工智能進(jìn)行進(jìn)一步的大數(shù)據(jù)收集和整合,實(shí)現(xiàn)對理論研究結(jié)果進(jìn)行準(zhǔn)實(shí)驗(yàn)性的定量分析。在社會科學(xué)領(lǐng)域的實(shí)證分析中,變量的內(nèi)生性問題,遺漏變量問題以及樣本選擇性偏差問題是困擾研究者能否作出準(zhǔn)確因果判定的關(guān)鍵原因。人工智能所帶來的多維度的大數(shù)據(jù)一般能很好的解決遺漏變量問題,降低樣本選擇性偏差的概率,同時如果輔以在大數(shù)據(jù)采集和挖掘前的準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)來解決變量內(nèi)生性問題,那么社會科學(xué)的定量研究的說明力將會更強(qiáng)。
如上所述,研究范式的多元化的目標(biāo)和趨勢,是需要既能克服傳統(tǒng)研究范式的數(shù)據(jù)劣勢,又能克服完全給予數(shù)據(jù)科學(xué)的大數(shù)據(jù)研究范式的理論解釋力度不足的問題。
可計(jì)算社會科學(xué)研究的發(fā)展
人工智能的運(yùn)用對社會科學(xué)的研究技術(shù)和方法帶來巨大的影響,推動了被稱為可計(jì)算社會科學(xué)研究領(lǐng)域的發(fā)展。主要體現(xiàn)在突破大數(shù)據(jù)技術(shù)突破數(shù)據(jù)瓶頸,提高分析效率以及能夠?qū)崿F(xiàn)宏觀研究的微觀支持等方面。
大數(shù)據(jù)技術(shù)(數(shù)據(jù)采集挖掘,數(shù)據(jù)儲存整合和數(shù)據(jù)分析)。人工智能為社會科學(xué)研究提供了諸多新的分析技術(shù),其中最具代表性的就是大數(shù)據(jù)技術(shù),這一技術(shù)徹底改變了社會科學(xué)研究中數(shù)據(jù)難獲得的重大問題,由于數(shù)據(jù)量的激增,傳統(tǒng)的社會科學(xué)研究中的數(shù)據(jù)整合和簡單數(shù)據(jù)分析的方法也隨之發(fā)生巨大的變化。正如Einav和Hendry(2013)所指出,大數(shù)據(jù)具有四個主要的特征,即數(shù)據(jù)體量大,生成速度快,種類多樣,以及價值密度低。大數(shù)據(jù)的運(yùn)用與傳統(tǒng)的數(shù)據(jù)的處理方法將發(fā)生巨大的變化。
第一是數(shù)據(jù)的實(shí)時可得性。傳統(tǒng)的數(shù)據(jù)通常是人工采集的,并且是為了社會科學(xué)研究某個特定“假設(shè)-檢驗(yàn)”為目的而收集的,通常具有較嚴(yán)重的滯后性。數(shù)據(jù)的實(shí)時可得性為社會科學(xué)研究中的預(yù)測提供了良好的基礎(chǔ)。盡管數(shù)據(jù)的時效性稍差對揭示基于歷史過程的社會科學(xué)領(lǐng)域的一般規(guī)律不會產(chǎn)生較大的影響,但是對于利用這個一般規(guī)律來對未來進(jìn)行預(yù)測的時候,數(shù)據(jù)的實(shí)時性對預(yù)測結(jié)果的準(zhǔn)確度而言就是至關(guān)重要的了。
第二是數(shù)據(jù)量的巨大。伴隨數(shù)據(jù)量的巨大化所帶來的多維度數(shù)據(jù)一方面在為研究者提供更多信息的同時,也讓研究者在使用數(shù)據(jù)整合和分析的統(tǒng)計(jì)學(xué)工具方面也會隨之發(fā)生質(zhì)變。處理海量數(shù)據(jù)將會更加依賴高效的計(jì)算機(jī)算法和云計(jì)算。
第三是數(shù)據(jù)的結(jié)構(gòu)多元性。傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一般不是數(shù)值就是文本,而大數(shù)據(jù)的數(shù)據(jù)來源更加多樣化,可能是傳統(tǒng)的數(shù)值或文本,也可能是圖片、音頻,甚至是視頻。比如在經(jīng)濟(jì)學(xué)中常用的用來估算當(dāng)?shù)亟?jīng)濟(jì)發(fā)展的衛(wèi)星燈光數(shù)據(jù)的原始格式就是圖片格式。這意味著傳統(tǒng)的數(shù)據(jù)分析方法就不再適用,數(shù)據(jù)整合的第一步是如何把不同數(shù)據(jù)格式的數(shù)據(jù)進(jìn)行量化處理,轉(zhuǎn)化成社會科學(xué)研究可以直接利用的數(shù)據(jù)形式,這也是需要新的算法和計(jì)算機(jī)的運(yùn)算能力。
第四是數(shù)據(jù)挖掘、儲存和分析的技術(shù)的更新速度會大幅度增加。當(dāng)數(shù)據(jù)的規(guī)模越來越大,數(shù)據(jù)庫、并行計(jì)算、云計(jì)算、機(jī)器學(xué)習(xí)等技術(shù)都會成為社會科學(xué)研究的中間步驟。
計(jì)算模型+數(shù)據(jù)校準(zhǔn)分析的算法和數(shù)據(jù)輔助。在社會科學(xué)領(lǐng)域,研究者們所探究的研究對象的因果關(guān)系不會完全被大數(shù)據(jù)中的相關(guān)關(guān)系完全取代。在某些規(guī)范(normative)研究中,人工智能所帶來的高效可靠的相關(guān)關(guān)系確實(shí)已經(jīng)足夠進(jìn)行一些預(yù)測分析,并且可以為政策制定者提供很好的借鑒和支持。然而實(shí)證(positive)研究是不可能止步于相關(guān)關(guān)系的,因果關(guān)系才能是社會科學(xué)研究者們追尋人類和社會發(fā)展規(guī)律的本源。人工智能以及人工智能所帶來的大數(shù)據(jù)不應(yīng)該成為因果關(guān)系的阻礙,理想的結(jié)果是“大數(shù)據(jù)會成為因果分析的強(qiáng)大手段”(劉濤雄、尹德才,2017)。
人工智能的算法能夠大大提高社會科學(xué)研究的分析效率,研究者們在建立理論模型的時候,不需要由于傳統(tǒng)的計(jì)算能力問題而對模型進(jìn)行各種假設(shè)限制,這使得模型能更好地對真實(shí)世界進(jìn)行模擬。其實(shí)在人工智能涉足社會科學(xué)研究領(lǐng)域之前,經(jīng)濟(jì)學(xué)就已經(jīng)使用了計(jì)算一般均衡模型取代傳統(tǒng)的理論模型來探討能源和環(huán)境等問題。
計(jì)算模型在自然科學(xué)領(lǐng)域早已被廣泛應(yīng)用,比如物理學(xué),幾乎所有的理論物理研究都是建立在計(jì)算模型的基礎(chǔ)上。然而計(jì)算模型在社會科學(xué)領(lǐng)域雖然被應(yīng)用的時間不短,但是始終沒有實(shí)現(xiàn)質(zhì)的飛躍,其根本原因就是計(jì)算模型在校準(zhǔn)時所需要的數(shù)據(jù)在社會科學(xué)領(lǐng)域比較難以獲得。人工智能的介入恰恰能解決社會科學(xué)研究數(shù)據(jù)難的問題。大數(shù)據(jù)的數(shù)據(jù)規(guī)模和維度可以用來對計(jì)算模型進(jìn)行高精度的校準(zhǔn),同時數(shù)據(jù)的實(shí)時性也可以為計(jì)算模型對社會問題的預(yù)測提高準(zhǔn)確度。
微觀分析和宏觀分析的結(jié)合?,F(xiàn)在社會科學(xué)研究在做微觀個體分析與其在做宏觀政策分析時相對比較割裂。[4]比如說宏觀經(jīng)濟(jì)學(xué)的研究方法和微觀經(jīng)濟(jì)學(xué)的研究方法就有很大的差異,哪怕兩者研究的是同一個問題,相互之間都很難統(tǒng)一。這是由于社會科學(xué)研究的主體是人和人類的行為,人類行為之間的交互作用極為復(fù)雜,往往存在“加總的謬誤”現(xiàn)象,即微觀研究很難進(jìn)行宏觀加總,同樣的,宏觀的分析也很難進(jìn)行微觀的拆分。
人工智能為社會科學(xué)研究帶來的大數(shù)據(jù)使得社會科學(xué)研究必然能從更微觀的層面進(jìn)行,同時人工智能也能帶來新的計(jì)算機(jī)算法,能夠?qū)ξ⒂^研究的結(jié)果進(jìn)行宏觀的復(fù)雜加總和綜合,使得社會科學(xué)的宏觀分析和微觀分析有更好的統(tǒng)一性。如此一來,我們既可以實(shí)現(xiàn)對微觀個體行為的深入研究,也能夠破析出各個微觀個體相互之間的網(wǎng)絡(luò)結(jié)構(gòu),從而進(jìn)一步得出每個微觀個體對不同宏觀因素的作用。
可計(jì)算社會科學(xué)研究所面臨的挑戰(zhàn)
盡管人工智能技術(shù)的運(yùn)用揭開了可計(jì)算社會科學(xué)研究發(fā)展的序幕,然而要真正達(dá)到創(chuàng)造具有實(shí)踐意義的研究成果,尚需完善一些基礎(chǔ)條件。人工智能的核心技術(shù)是深度學(xué)習(xí),盡管它具有處理大量各類數(shù)據(jù)的超強(qiáng)能力,但尚不能應(yīng)對一些異常項(xiàng)的干擾,因此對于復(fù)雜現(xiàn)象以及個別特殊現(xiàn)象的推定和解釋,離不開具有理論知識的專家系統(tǒng)的支持。如果不考慮這些問題,往往容易陷入一些誤區(qū)。同時,對于作為專家支持系統(tǒng)的研究人員首先要不忘社會科學(xué)研究的初心,探索規(guī)律和理論,不能被數(shù)據(jù)綁架而導(dǎo)致結(jié)果偏離。因此不僅需要具有理解各種數(shù)據(jù)特征和使用數(shù)據(jù)的能力,也需要具備數(shù)據(jù)科學(xué)的基本素養(yǎng)和一定的編程能力。
可計(jì)算社會科學(xué)研究中的誤區(qū)。人工智能為社會科學(xué)領(lǐng)域帶來了新的研究范式和新的研究技術(shù)和方法,這些無疑對于現(xiàn)在越來越依賴于定量分析的社會科學(xué)研究而言是極大的機(jī)遇。然而,我們必須也要意識到人工智能在帶來研究效率提升的同時,很可能也會使得社會科學(xué)研究者們陷入研究的誤區(qū)。
第一個誤區(qū)是過度注重相關(guān)關(guān)系而忽略研究對象之間的因果關(guān)系。大量的文獻(xiàn)已經(jīng)關(guān)注到了這點(diǎn),王天思(2016)從哲學(xué)的角度闡述了大數(shù)據(jù)中的因果關(guān)系,劉林平等(2016)也探討了規(guī)律和因果在大數(shù)據(jù)應(yīng)用到社會學(xué)領(lǐng)域的重要性,馬費(fèi)成(2018)在論述人文社會科學(xué)與自然科學(xué)應(yīng)當(dāng)相互學(xué)習(xí)借鑒時也提出可以在相關(guān)關(guān)系的基礎(chǔ)上分析因果關(guān)系。如前所述人工智能的運(yùn)用要擺脫對數(shù)值計(jì)算的偏重而應(yīng)將其作為社會科學(xué)因果關(guān)系的研究的輔助。
第二個誤區(qū)是陷入“統(tǒng)計(jì)的胡說”現(xiàn)象。這里需要關(guān)注的是大數(shù)據(jù)究竟帶來的僅僅是樣本的增加,還是可以成為總體。在大多數(shù)情況下人工智能技術(shù)所帶來的大數(shù)據(jù)只是統(tǒng)計(jì)樣本的增加,也就是從傳統(tǒng)分析的小樣本到大數(shù)據(jù)下的大樣本。美國機(jī)場電子護(hù)照的通行經(jīng)常無法識別深膚色的人種,其主要原因就是在設(shè)計(jì)人臉識別的人工智能算法校準(zhǔn)的時候采用了不具有代表性的大數(shù)據(jù)樣本。在社會科學(xué)的研究中也是如此,通過分析有偏的樣本,即使它是大數(shù)據(jù)的樣本,得出的研究結(jié)論也必定是有偏差的。
第三個誤區(qū)是過度依賴算法而導(dǎo)致偏差的擴(kuò)大。現(xiàn)在的人工智能算法只能處理一個特定的任務(wù),也就是狹義的人工智能,[5]由于狹義人工智能的算法是為了某個特定目標(biāo)而施行的,其算法會在有偏的基本數(shù)據(jù)樣本上帶來更大的偏差。Barocas和Selbst(2016)討論大數(shù)據(jù)分析可能會帶來意想不到估計(jì)偏差,文中提到美國波士頓政府曾利用人工智能的算法根據(jù)智能手機(jī)對道路坑洼的識別來決策道路維護(hù)資源的投入,由于智能手機(jī)識別道路坑洼這一大數(shù)據(jù)樣本本身就是有偏的,而人工智能自動迭代更新的算法會帶來道路維護(hù)資源的進(jìn)一步錯配。相對經(jīng)濟(jì)發(fā)展較為落后的地區(qū)而言,波士頓富人區(qū)的智能手機(jī)持有數(shù)量較多,人工智能的算法是通過智能手機(jī)是否感受到行車路上是否有坑洼來分配政府的修路資源,帶來的結(jié)果只能是富人區(qū)的道路情況被過度維護(hù)。原先的數(shù)據(jù)樣本偏差僅僅是富人區(qū)的道路坑洼會更多地被匯報(bào),而人工智能來分配道路維護(hù)資源的算法會產(chǎn)生進(jìn)一步的資源不公平分配的結(jié)果。
即使算法是無偏的,人工智能的單一目標(biāo)也可能會帶來公平性的問題?!杜聿┥虡I(yè)周刊》在2016年的一篇文章中深入討論了亞馬遜公司通過人工智能算法來最大化包裹投遞效率和服務(wù)最多的客戶的目標(biāo)卻導(dǎo)致公司在自動選擇服務(wù)區(qū)域時完美避過大多數(shù)的黑人區(qū)。作為美國最大的網(wǎng)絡(luò)零售商,利潤最大化無疑是其目標(biāo),因此亞馬遜公司所設(shè)計(jì)的人工智能算法并不會把種族考慮在內(nèi),這種看似“無偏”的算法實(shí)際上卻帶來了類似于“種族歧視”的服務(wù)設(shè)定范圍,造成社會公平的損失。
需要強(qiáng)調(diào)的是,在社會科學(xué)研究的過程中,人工智能可能會帶來樣本和算法有偏的兩個誤區(qū)會產(chǎn)生相互疊加的放大效應(yīng),輕則是我們的研究結(jié)果可信性下降,重則我們的研究結(jié)果可能是偽命題。相比理論的定性分析和傳統(tǒng)數(shù)據(jù)的定量分析,人工智能介入的社會科學(xué)研究的研究方法更為復(fù)雜,因此增加了其他研究者對研究結(jié)果的辨錯難度。
社會科學(xué)研究人員在利用人工智能進(jìn)行深度研究所必需的能力。人工智能源于計(jì)算機(jī)科學(xué),它所需的學(xué)習(xí)和技術(shù)與社會科學(xué)研究者所接受的綜合訓(xùn)練之間交集很小。相比中國人工智能的論文產(chǎn)出,中國的人工智能人才擁有量不是最高,從絕對數(shù)量來說遠(yuǎn)低于美國,從研究領(lǐng)域來看,中國人工智能人才的研究領(lǐng)域也相對比較分散。
隨著人工智能對社會科學(xué)研究的逐漸滲透,社會科學(xué)研究者們除了要具備傳統(tǒng)的社會科學(xué)領(lǐng)域的學(xué)科訓(xùn)練之外,還需要具備一定的數(shù)據(jù)工程師和軟件工程師的能力。與此同時,社會科學(xué)研究者們還需要理解社會科學(xué)領(lǐng)域的因果分析方法和現(xiàn)在大數(shù)據(jù)的相關(guān)關(guān)系分析方法之間的利與弊,在研究不同問題的時候選擇合適的研究方法。
政策建議。新技術(shù)的運(yùn)用必將進(jìn)一步推動可計(jì)算社會科學(xué)研究的發(fā)展。一般來說,大數(shù)據(jù)的相關(guān)關(guān)系分析方法更適合于規(guī)范研究,提高預(yù)測的準(zhǔn)確性,為政府和企業(yè)提供政策建議和支持;而大數(shù)據(jù)輔助的因果關(guān)系分析則是實(shí)證研究未來的發(fā)展方向。人工智能在真正進(jìn)入計(jì)算機(jī)算法自我迭代更新和進(jìn)步之前,還是高技術(shù)勞動力密集型的。然而隨著進(jìn)一步的發(fā)展,面臨文理融合時代的到來,社會科學(xué)研究者與數(shù)據(jù)工程師和軟件工程師的跨學(xué)科合作也是社會科學(xué)研究的必然趨勢。這個跨學(xué)科融合的基礎(chǔ)學(xué)科,無疑是統(tǒng)計(jì)學(xué)和數(shù)據(jù)處理相關(guān)的計(jì)算機(jī)語言。一些發(fā)達(dá)國家,比如日本,已從小學(xué)即開始進(jìn)行統(tǒng)計(jì)學(xué)的普及教育,在大學(xué)本科文科類專業(yè)中開設(shè)“數(shù)據(jù)科學(xué)”專業(yè)課,同時也大力推廣計(jì)算社會科學(xué)相關(guān)開發(fā)軟件的學(xué)習(xí),如R語言、java語言以及人工智能核心語言Python等??梢越梃b其做法,盡早開展相關(guān)的交叉學(xué)科設(shè)置,以及提供利用網(wǎng)絡(luò)相關(guān)知識的普及等公共品,為迎接第四科學(xué)時代的到來,打好基礎(chǔ),做好準(zhǔn)備。
(上海社會科學(xué)院世界中國學(xué)研究所謝一青博士對本文亦有貢獻(xiàn))
注釋
[1]人工智能的概念早在1956年的達(dá)特茅斯(Dartmouth)會議上就被正式提出了。自那以后,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人工智能的理論和實(shí)踐也不斷被刷新,其定義的內(nèi)涵和外延也不斷被拓展?,F(xiàn)今取得共識的概念大多沿用“人工智能之父”約翰·麥卡錫(John McCarthy)的定義和解釋,即認(rèn)為機(jī)器無需像人類般思考才算獲得智能,人工智能的關(guān)鍵在于讓機(jī)器能夠解決人腦所能解決的問題。因此,現(xiàn)在大多數(shù)研究者探討的人工智能,是以大數(shù)據(jù)為基礎(chǔ),利用計(jì)算機(jī)的運(yùn)算能力,使用迭代更新的算法來實(shí)現(xiàn)對現(xiàn)實(shí)情況的分析和決策(張洪忠等,2018;陸汝鈐,1989)。
[2]在國際經(jīng)濟(jì)學(xué)領(lǐng)域,一國相對要素稟賦豐裕的定義是該要素的世界占比大于該國GDP的世界占比,一旦一國的某種要素相對要素稟賦豐裕,該國在密集型使用這一豐裕要素的產(chǎn)品和服務(wù)上就具備了比較優(yōu)勢。
[3]羅晨和沈浩(2018)利用社會網(wǎng)絡(luò)分析法,把各個利用了人工智能進(jìn)行研究的社會科學(xué)子學(xué)科作為社會網(wǎng)絡(luò)中的行為者,通過分析不同子學(xué)科在論文發(fā)表領(lǐng)域的共現(xiàn)次數(shù),獲得每個子學(xué)科的度數(shù)中心度。度數(shù)中心度越高的社會科學(xué)子學(xué)科與其他子學(xué)科的聯(lián)系更為廣泛。
[4]在純理論模型定性分析的時候,通過對模型的嚴(yán)格假設(shè),微觀分析和宏觀分析在早期的社會科學(xué)研究中也可以實(shí)現(xiàn)統(tǒng)一。
[5]廣義人工智能是目前人工智能的目標(biāo),它是否能穩(wěn)定存在目前還未被數(shù)學(xué)證明。Yampolskiy(2015)深入探討了一種廣義人工智能算法存在的boot-strap悖論。
參考文獻(xiàn)
張洪忠、石韋穎、劉力銘,2018,《如何從技術(shù)邏輯認(rèn)識人工智能對傳媒業(yè)的影響》,《新聞界》,第2期。
陸汝鈐,1989,《人工智能(上)》,北京:科學(xué)出版社。
清華大學(xué)中國科技政策研究中心,2018,《中國人工智能發(fā)展報(bào)告2018》,北京:清華大學(xué)公共管理學(xué)院。
羅晨、沈浩,2018,《社會科學(xué)領(lǐng)域的人工智能研究:基于SSCI文獻(xiàn)的探索》,《全球傳媒學(xué)刊》,第5卷第4期。
米加寧、章昌平、李大宇、林濤,2018,《第四研究范式:大數(shù)據(jù)驅(qū)動的社會科學(xué)研究轉(zhuǎn)型》,《學(xué)?!?,第2期。
王天思,2016,《大數(shù)據(jù)中的因果關(guān)系及其哲學(xué)內(nèi)涵》,《中國社會科學(xué)》,第5期。
Einav, L., Hendry, D. F., 2013, "The Data Revolution and Economic Analysis", http://www.nber.org/papers/w19035.pdf.
Yampolskiy, R. V., 2015, From Seed AI to Technological Singularity via Recursively Self-Improving Software.
"Amazon Doesn't Consider the Race of Its Customers. Should It?", Bloomberg.com.
劉林平、蔣和超、李瀟曉,2016,《規(guī)律與因果:大數(shù)據(jù)對社會科學(xué)研究沖擊之反思——以社會學(xué)為例》,《社會科學(xué)》,第9期。
馬費(fèi)成,2018,《推進(jìn)大數(shù)據(jù)、人工智能等信息技術(shù)與人文社會科學(xué)研究深度融合》,《評價與管理》,第2期。
劉濤雄,尹德才,2017,《大數(shù)據(jù)時代與社會科學(xué)研究范式變革》,《理論探索》,第6期。
Barocas, S., Selbst, A. D., 2016, Big Data's Disparate Impact, California Law Review, 104, pp. 671-732.
袁堂軍,復(fù)旦大學(xué)經(jīng)濟(jì)學(xué)院教授、博導(dǎo),復(fù)旦大學(xué)亞洲經(jīng)濟(jì)研究中心主任,全球投資與貿(mào)易研究中心主任,日本研究中心常務(wù)理事,日本一橋大學(xué)經(jīng)濟(jì)研究所客座教授。研究方向?yàn)槭澜缃?jīng)濟(jì)、發(fā)展經(jīng)濟(jì)學(xué)和數(shù)量經(jīng)濟(jì)史。主要著作有《中國的經(jīng)濟(jì)發(fā)展與資源配置》《亞洲的智慧:多元文明的統(tǒng)一與發(fā)展》等。
責(zé) 編∕趙鑫洋
The Present Situation and Future of Computational Social Science Research in China
Yuan Tangjun
Abstract: The development of artificial intelligence (AI) and big data analysis technology has provided new technical methods and ideas for social science research, but it has also brought new challenges. Based on the current situation on the application of AI technology in social science research in China, this paper analyzes the trend of the diversified social science research paradigms and the integration of arts and sciences under the background of AI technology in the future. It emphasizes several misunderstandings that should be avoided when promoting the development of computational social science research in China, such as focusing on the research of correlation while ignoring the exploration of causality, having the problem of "statistical nonsense" due to the deviation of sample data, and causing magnified deviation of results due to the over-reliance on algorithms. With the coming of the era of integration of arts and sciences, the interdisciplinary popularization of computer network technology related to statistics and data processing is of vital importance. It is necessary to establish the related interdisciplinary subjects as soon as possible and actively provide public goods for popularization of related knowledge such as network education.
Keywords: artificial intelligence, big data, social science, statistics, computer language