【摘要】以ChatGPT為代表的大規(guī)模生成式預(yù)訓(xùn)練語言模型帶動了一系列通用人工智能(AGI: Artificial General Intelligence)技術(shù)的迅速發(fā)展。AGI已經(jīng)掀起新一輪信息技術(shù)革命,成為一種先進(jìn)的生產(chǎn)力,深入理解AGI的本質(zhì)顯得尤為迫切。大規(guī)模生成式語言模型為代表的通用人工智能技術(shù),以生成式AI為主要形態(tài),具備情景化生成能力,形成了知識、能力、價(jià)值三個(gè)階段的智能煉就路徑。隨著相關(guān)技術(shù)的發(fā)展,機(jī)器的智能水平快速提升,將帶來人機(jī)邊界模糊及與其相關(guān)的一系列社會問題。AGI的發(fā)展路徑具有“填鴨灌輸”式學(xué)習(xí)、“先通再專”等特點(diǎn),在一定程度上顛覆了人類對機(jī)器智能實(shí)現(xiàn)路徑的傳統(tǒng)認(rèn)識,倒逼人類在世界建模、知識獲取、自我認(rèn)知等層面進(jìn)行反思。人類需高度警醒AGI帶來的挑戰(zhàn),并積極抓住其帶來的機(jī)遇,推動構(gòu)建新型的人機(jī)和諧關(guān)系。
【關(guān)鍵詞】 ChatGPT 通用人工智能 圖靈測試 生成式人工智能
【中圖分類號】TP18 【文獻(xiàn)標(biāo)識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2023.14.004
【作者簡介】肖仰華,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博導(dǎo),上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任。研究方向?yàn)橹R圖譜、知識工程、大數(shù)據(jù)。主要著作有《圖對稱性理論及其在數(shù)據(jù)管理中的應(yīng)用》、《知識圖譜:概念與技術(shù)》(合著)等。
前言
自2022年12月ChatGPT發(fā)布以來,大規(guī)模生成式預(yù)訓(xùn)練語言模型(Generative Language Model)在學(xué)術(shù)界與工業(yè)界引起軒然大波,帶動了一系列通用人工智能技術(shù)(AGI: Artificial General Intelligence)的快速發(fā)展,包括圖文生成模型,如Midjourney的高精度、高度仿真的圖文生成;具身多模態(tài)語言模型,比如谷歌(Google)公司連續(xù)推出PaLM-E(D. Driess et al., 2023)以及PaLM 2(A. Rohan et al., 2023)等。AGI已經(jīng)從模擬人類大腦的思維能力(以語言模型為代表),快速演進(jìn)至“操控身體”的具身模型(以具身大模型為代表)。AGI全面侵襲從藝術(shù)創(chuàng)作到代碼生成、從問題求解到科學(xué)發(fā)現(xiàn)、從問答聊天到輔助決策等人類智能的各個(gè)領(lǐng)地,人類智能所能涉及的領(lǐng)域幾乎都有AGI的蹤跡。一場由AGI帶動的新一輪信息技術(shù)革命已然席卷而至。人類迎來一場有關(guān)“智能”本身的技術(shù)革命。
作為一種先進(jìn)的生產(chǎn)力,AGI既給全社會帶來令人興奮的機(jī)遇,也來帶來令人擔(dān)憂的挑戰(zhàn)。興奮與擔(dān)憂歸根結(jié)底是源于我們對AGI的理解還遠(yuǎn)遠(yuǎn)跟不上其發(fā)展速度。具體而言,人類對于AGI技術(shù)原理、智能形態(tài)、能力上限的思考,對其對社會與個(gè)人影響的評估,明顯滯后于AGI的發(fā)展速度??梢哉f,快速發(fā)展的AGI與人類對其認(rèn)知的顯著滯后構(gòu)成了一對鮮明的矛盾,把握這一矛盾是理解當(dāng)前AGI發(fā)展規(guī)律與其產(chǎn)生的社會影響的關(guān)鍵。也正是基于對上述矛盾的認(rèn)識,不少科學(xué)家與AI企業(yè)領(lǐng)袖發(fā)出了暫停巨型大模型實(shí)驗(yàn)的呼聲,呼吁加快安全可證明的AI系統(tǒng)的研制。
誠然,理解AGI十分困難。AGI這個(gè)術(shù)語中的三個(gè)單詞,分別從不同角度表達(dá)了理解AGI面臨的挑戰(zhàn)。從其核心詞“智能(Intelligence)”來看,一直以來關(guān)于什么是智能,就存在不同的觀點(diǎn),比如傳統(tǒng)計(jì)算機(jī)科學(xué)認(rèn)為,“獲取以及應(yīng)用知識與技能”[1]的能力是智能,但需思考這個(gè)定義是否仍然適用于今天以大規(guī)模生成式語言模型為代表的AGI。“通用(General)”一詞加劇了理解AGI的困難。相對于傳統(tǒng)的面向特定(specific)功能的AI,AGI旨在模擬人類的心智能力,人類智能的獨(dú)特之處鮮明地體現(xiàn)在其能夠針對不同環(huán)境作出適應(yīng)性調(diào)整,能夠勝任不同類型甚至從未見過的任務(wù)。專用AI與通用AI存在怎樣的聯(lián)系與區(qū)別,是先實(shí)現(xiàn)通用AI還是先實(shí)現(xiàn)專用AI?General一詞將會引發(fā)很多諸如此類的思考。“人工的(Artificial)”一詞則道出了AGI人工創(chuàng)造物的本質(zhì),而非自發(fā)從自然環(huán)境中進(jìn)化而成的智能。這自然就提出了工具智能與自然智能的異同等一系列問題。
盡管挑戰(zhàn)重重,本文仍然嘗試針對AGI的某些方面展開分析。本文聚焦于生成式人工智能,特別是大規(guī)模生成式語言模型為代表的通用人工智能技術(shù)。本文所談及的“智能”,不局限于人類智能,也包括機(jī)器智能,將以機(jī)器智能與人類智能作為彼此的參照,進(jìn)行對比分析。本文將對由生成式語言模型發(fā)展而引發(fā)的“智能”的內(nèi)涵、“智能”的演進(jìn)路徑等問題進(jìn)行詳細(xì)分析,并在這一基礎(chǔ)上反思人類智能的諸多方面,包括創(chuàng)造性、世界建模、知識獲取、自我認(rèn)知等。筆者相信本文的思考一方面可以消除人們對于機(jī)器智能快速進(jìn)步的擔(dān)憂,另一方面也能為機(jī)器智能的進(jìn)一步發(fā)展掃除障礙,有助于建立新型的人機(jī)和諧關(guān)系。在此需要說明的是,本文的部分思考與結(jié)論超出了當(dāng)前的工程實(shí)踐所能檢驗(yàn)的范圍,仍需要付諸嚴(yán)格論證與實(shí)踐檢驗(yàn)。
什么是智能?ChatGPT何以成功?
生成式VS判別式。ChatGPT是生成式人工智能的代表。生成式AI在文本生成、文圖生成、圖像生成等領(lǐng)域取得了較好的效果。傳統(tǒng)的人工智能多屬于判別式人工智能。為何是生成式AI而非判別式AI成為AGI的主要形態(tài)?這是一個(gè)值得深思的問題。判別式AI,通過標(biāo)注數(shù)據(jù)的訓(xùn)練,引導(dǎo)模型習(xí)得正確給出問題答案的能力。生成式AI,往往針對無標(biāo)注數(shù)據(jù)設(shè)計(jì)基于遮蔽內(nèi)容還原的自監(jiān)督學(xué)習(xí)任務(wù)進(jìn)行訓(xùn)練,引導(dǎo)模型生成符合上下文語境的內(nèi)容。生成式模型不僅具備生成結(jié)果的能力,也能夠生成過程與解釋。所以生成任務(wù)可以視作比判別任務(wù)更具智力挑戰(zhàn)性的任務(wù),能夠有效引導(dǎo)模型習(xí)得高水平智能。具體而言,對于判斷題,判別式AI只需給出對或錯(cuò)的答案,即便隨機(jī)猜測,仍然有百分之五十蒙對的概率。但是,生成式AI不僅需要生成答案,還可能需要同時(shí)生成解題過程,這就很難蒙混過關(guān)。所以相對于判別而言,生成可以說是更加接近智能本質(zhì)的一類任務(wù)。
智能與情景化生成能力。智能的本質(zhì)是什么?大模型的發(fā)展給人類對這一問題的思考帶來了很多新的啟發(fā)。大模型的智能本質(zhì)上是情景化生成(Contextualized Generation)能力,也就是根據(jù)上下文提示(Prompt)生成相關(guān)文本的能力。所以大模型的應(yīng)用效果在一定程度上取決于提示有效與否。如果我們能夠給出一個(gè)有效且合理的提示,那么ChatGPT這類大模型往往能夠生成令人滿意的答案。這種情景化生成能力(“提示+生成”的能力)不僅適用于文本,也廣泛適用于圖像、語音、蛋白質(zhì)序列等各種不同類型的復(fù)雜數(shù)據(jù)。不同的數(shù)據(jù)上下文不同,例如對于圖片而言,其上下文是周邊圖像。大模型的情景化生成能力是通過訓(xùn)練階段的上下文學(xué)習(xí)(In-context learning)而形成的(Q. Dong et al., 2022)。從數(shù)學(xué)本質(zhì)來講,大模型在訓(xùn)練階段習(xí)得了Token或者語料基本單元之間的聯(lián)合概率分布。情景化生成可以視作條件概率估算,即給定上下文或提示(也就是給出證據(jù)),根據(jù)聯(lián)合分布推斷出現(xiàn)剩余文本的概率。
傳統(tǒng)對于智能的理解多少都與“知識”有關(guān)(如把智能定義為“知識的發(fā)現(xiàn)和應(yīng)用能力”),或與人有關(guān)(如把智能定義為“像人一樣思考和行為的能力”),其本質(zhì)還是以人類為中心,從認(rèn)識論視角理解智能。大模型所呈現(xiàn)出的這種情景化生成能力,則無關(guān)乎“知識”,“知識”說到底是人類為了理解世界所做出的人為發(fā)明。世界的存在不依賴“知識”,不依賴人類,情景化生成擺脫了人類所定義的“知識”,回歸世界本身——只要能合理生成這個(gè)世界就是智能。智能被還原為一種生成能力,這種智能可以不以人類為中心,也可以不依賴人類的文明,這是AGI給我們帶來的重要啟示。
智能的分析與還原。大模型訓(xùn)練與優(yōu)化過程能夠?yàn)槲覀兏玫乩斫庵悄艿男纬蛇^程提供有益啟發(fā)。通用大模型的“出爐”基本上要經(jīng)歷三個(gè)階段(W. X. Zhao et al., 2023):第一個(gè)階段是底座大模型的訓(xùn)練;第二個(gè)階段是面向任務(wù)的指令學(xué)習(xí),也就是所謂的指令微調(diào);第三個(gè)階段是價(jià)值對齊。第一個(gè)階段底座大模型的訓(xùn)練本質(zhì)上是讓大模型習(xí)得語料或者數(shù)據(jù)所蘊(yùn)含的知識。但是這里的知識是一種參數(shù)化、概率化的知識(本質(zhì)上建模了語料中詞匯之間的一種聯(lián)合分布),使得情境化生成成為可能。因此,第一階段的本質(zhì)是知識獲?。ɑ蛘哒f知識習(xí)得),第二階段指令學(xué)習(xí)旨在讓大模型習(xí)得完成任務(wù)的能力,最后一個(gè)階段則是價(jià)值觀念的習(xí)得。
大模型的智能被分解為知識、能力與價(jià)值三個(gè)階段,這是個(gè)值得關(guān)注的特性。知識是能力與價(jià)值的基礎(chǔ),所以底座模型的“煉制”尤為關(guān)鍵。ChatGPT經(jīng)歷了2018年初版GPT-1到2022年GPT-3.5近四年的訓(xùn)練與優(yōu)化。大模型的知識底座越深厚、越廣博,后續(xù)能夠習(xí)得的技能就越復(fù)雜、越多樣,價(jià)值判斷就越準(zhǔn)確、價(jià)值對齊就越敏捷。大模型將智能的三個(gè)核心要素相互剝離,而人類的知識、能力與價(jià)值習(xí)得,往往是雜揉在一起的。我們很難界定小學(xué)課本中的某篇文章是在傳授知識、訓(xùn)練技能亦或是在塑造價(jià)值。大模型的這種分離式的智能發(fā)展,可以類比于人類社會的高等教育。人類社會的本科教育旨在培養(yǎng)學(xué)習(xí)能力以獲取知識,碩士教育旨在培養(yǎng)解題能力以解決問題,博士教育則旨在培養(yǎng)價(jià)值判斷能力以發(fā)現(xiàn)問題。
知識、能力和價(jià)值相剝離對于未來智能系統(tǒng)架構(gòu)、建立新型的人機(jī)協(xié)作關(guān)系、設(shè)計(jì)人機(jī)混合的智能系統(tǒng)架構(gòu)均有著積極的啟發(fā)意義。隨著機(jī)器智能的逐步發(fā)展,人類相對于機(jī)器而言所擅長的事物將會逐漸減少。但是,在某些特定場景仍存在一些人類介入的空間。未來人機(jī)混合系統(tǒng)發(fā)展的關(guān)鍵仍是回答什么工作最值得由人來完成。看似完整的任務(wù)只有經(jīng)過分解,才能拆解出人機(jī)各自擅長與適合的子任務(wù)。例如,將知識和能力剝離對于保護(hù)私域知識極具價(jià)值:大模型負(fù)責(zé)語言理解等核心任務(wù),而機(jī)密的數(shù)據(jù)與知識仍然交由傳統(tǒng)的數(shù)據(jù)庫或者知識庫來管理。這樣的系統(tǒng)架構(gòu),既充分利用了大模型的核心能力,又充分兼顧了知識私密性。
智能測試與人機(jī)區(qū)分。通用人工智能技術(shù)的發(fā)展顯著提升了機(jī)器的智能水平,特別是語言理解水平,機(jī)器在文本處理、語言理解等相關(guān)任務(wù)中已達(dá)到普通人類甚至語言專家的水平。而隨之而來的一個(gè)十分關(guān)鍵的問題是:人機(jī)邊界日益模糊。我們已經(jīng)很難僅僅通過幾輪對話去判斷窗口背后與你交流的是人還是機(jī)器。換言之,傳統(tǒng)的圖靈測試已經(jīng)難以勝任人機(jī)區(qū)分的使命。使用過ChatGPT的人都深有體會,ChatGPT最擅長的就是聊天,即便與其長時(shí)間聊天,我們可能都不會覺得無趣。
人機(jī)邊界的模糊會帶來很多社會問題。首先,普通民眾,尤其是青少年,可能出于對技術(shù)的信任而沉溺于ChatGPT類的對話模型中。當(dāng)ChatGPT日益智能,我們習(xí)慣了向其提問,習(xí)慣了接受它的答案,久而久之,人類賴以發(fā)展的質(zhì)疑精神就會逐步喪失。在日益強(qiáng)大的AGI面前,如何避免人的精神本質(zhì)的退化?這些問題需要我們嚴(yán)肅思考并回答。其次,當(dāng)人機(jī)真假難辨,虛假信息泛濫,欺詐將會層出不窮。最近越來越多犯罪分子已經(jīng)通過AI換臉、AI視頻生成,成功實(shí)施了多起欺詐案件。如何治理由人機(jī)邊界模糊帶來的社會性欺騙將成為一個(gè)十分重要的AI治理問題。最后,還值得注意的是驗(yàn)證碼,這一我們在日常生活中廣泛使用,卻很快會變成問題的應(yīng)用。驗(yàn)證碼是我們進(jìn)行人機(jī)區(qū)分的利器,但是隨著AGI的發(fā)展,尤其是在其對于各類工具的操控能力日益增強(qiáng)之后,驗(yàn)證碼所具備的人機(jī)區(qū)分功能將會面臨日益嚴(yán)峻的挑戰(zhàn)。隨著人形機(jī)器人技術(shù)的日益成熟,未來如何證明你是人而非機(jī)器,或者反之,如何證明機(jī)器是機(jī)器而不是人將會成為越來越困難的問題。
人機(jī)邊界的模糊本質(zhì)上歸結(jié)于人機(jī)智能測試問題。我們需要刻畫出人類智能獨(dú)有的、不能或者至少是難以被機(jī)器智能所侵犯的領(lǐng)地。從機(jī)器智能的發(fā)展歷史來看,這個(gè)領(lǐng)地的范圍將會越來越窄。我們曾經(jīng)認(rèn)為在下圍棋這樣的高度智力密集活動中機(jī)器難以超越人類,也曾認(rèn)為在進(jìn)行高質(zhì)量對話中機(jī)器難以超越人類,更曾認(rèn)為蛋白質(zhì)結(jié)構(gòu)預(yù)測這樣的科學(xué)發(fā)現(xiàn)是機(jī)器難以超越人類的……這些機(jī)器難以超越人類的任務(wù)列表曾經(jīng)很長,如今已經(jīng)越來越短。圖靈測試已然失效,但是人類還來不及提出新的有效的代替性測試方案。有人提出,唯有人類會犯錯(cuò)及其行為的不確定性是人類獨(dú)具的。這樣的觀點(diǎn)不值一駁,因?yàn)闄C(jī)器很容易植入一些錯(cuò)誤與不確定性以掩飾自己的智能。未來我們?nèi)绾巫C明機(jī)器試圖越獄,以及機(jī)器是否正在掩飾自己的能力,這些都是AI安全需要高度關(guān)注的問題。
智能的演進(jìn)路線,通用人工智能如何發(fā)展與進(jìn)步?
“反饋進(jìn)化”與“填鴨灌輸”。人類的智能是一種典型的生物智能,是經(jīng)過漫長的進(jìn)化發(fā)展而形成的。人類在自然與社會環(huán)境中不斷地實(shí)踐、接收反饋、持續(xù)嘗試,形成了高度的智能。各類動物的智能都可以歸類到進(jìn)化智能。進(jìn)化智能的演進(jìn)需要漫長的時(shí)間,換言之,只要給予足夠的時(shí)間,自然環(huán)境或?qū)⒕湍芩茉烊魏嗡降闹悄?。低等動物?jīng)過漫長時(shí)間的洗禮也有可能發(fā)展出先進(jìn)智能。但是當(dāng)前機(jī)器智能走的是一條“填鴨灌輸”式的路徑,是一條實(shí)現(xiàn)先進(jìn)智能的捷徑。將人類社會已經(jīng)積累的所有語料、書籍、文獻(xiàn)“灌輸”給大模型,經(jīng)過精心“煉制”,大模型就能習(xí)得人類積累數(shù)千年的文明成果。雖然大模型“煉制”也需要耗費(fèi)數(shù)天、數(shù)月的時(shí)間,但相對于人類智能的漫長進(jìn)化歷程,幾乎就是轉(zhuǎn)瞬之間。機(jī)器能夠在如此短暫的時(shí)間內(nèi)習(xí)得人類數(shù)千年積累的知識,這本身已是奇跡。
人類社會多將“填鴨灌輸”視作一種機(jī)械、低效的知識傳授方式,而這卻恰恰成為人類向機(jī)器傳授知識的高效方式。如果單純以考分評價(jià)學(xué)生,粗暴的填鴨式、灌輸式的教育十分高效。但這種教育培養(yǎng)出的學(xué)生往往高分低能,難以靈活應(yīng)用知識解決實(shí)際問題。所以我們的學(xué)生還需要接受大量的實(shí)踐教育,從反饋中學(xué)習(xí),最終成為行家里手,將知識融會貫通。人類專家的養(yǎng)成過程對于理解大模型的發(fā)展過程極具啟發(fā)。當(dāng)前,大模型的填鴨式學(xué)習(xí)階段已經(jīng)基本完成,很快大模型將操控各類工具、開展實(shí)踐式學(xué)習(xí),從而進(jìn)入從實(shí)踐習(xí)得知識的新階段。
“先通再專”還是“先專再通”。通用人工智能的發(fā)展帶給我們的另一個(gè)啟示在于機(jī)器智能走出了一條“先通再專”的發(fā)展路徑。從大規(guī)模語言模型的應(yīng)用方式來看,首先要“煉制”通用的大語言模型,一般來講訓(xùn)練語料越是廣泛而多樣,通用大模型的能力越強(qiáng)。但是這樣的通用大模型在完成任務(wù)時(shí),效果仍然差強(qiáng)人意。因而,一般還要經(jīng)過領(lǐng)域數(shù)據(jù)微調(diào)與任務(wù)指令學(xué)習(xí),使其理解領(lǐng)域文本并勝任特定任務(wù),可見大模型的智能是先通用,再專業(yè)。通用智能階段側(cè)重于進(jìn)行通識學(xué)習(xí),習(xí)得包括語言理解與推理能力及廣泛的通用知識;專業(yè)智能階段則讓大模型理解各種任務(wù)指令,勝任各類具體任務(wù)。這樣一種智能演進(jìn)路徑與人類的學(xué)習(xí)過程相似。人類的基礎(chǔ)教育聚焦通識學(xué)習(xí),而高等教育側(cè)重專識學(xué)習(xí);武俠小說中的功夫高手往往先練內(nèi)力再習(xí)招式。這些都與大模型“先通再專”的發(fā)展路徑相似。
大模型“先通再專”的發(fā)展路徑顛覆了以往人工智能的主流發(fā)展路徑。ChatGPT誕生之前,AI研究的主陣地是專用AI或者功能性AI,其主旨在于讓機(jī)器具備勝任特定場景與任務(wù)的能力,比如下棋、計(jì)算、語音識別、圖像識別等等。傳統(tǒng)觀念認(rèn)為,若干專用智能堆積在一起,才能接近通用智能;或者說如果專業(yè)智能都不能實(shí)現(xiàn),則更不可能實(shí)現(xiàn)通用智能。由此可以看出,“先專再通”是傳統(tǒng)人工智能發(fā)展的基本共識。但是,以ChatGPT為代表的大規(guī)模生成式語言模型,基本顛覆了這一傳統(tǒng)認(rèn)識,并說明機(jī)器智能與人類智能一樣,需要先具備通識能力才能發(fā)展專業(yè)認(rèn)知。
在新認(rèn)識下,我們需要重新理解領(lǐng)域人工智能(Domain-Specific AI)。領(lǐng)域是與通用相對而言的。事實(shí)上,沒有通用認(rèn)知能力,就沒有領(lǐng)域認(rèn)知能力。舉個(gè)例子,醫(yī)療是個(gè)典型的垂直領(lǐng)域,傳統(tǒng)觀念認(rèn)為可以以較低代價(jià)搭建診斷某類疾病的智能系統(tǒng)。比如,針對耳鳴疾病,傳統(tǒng)方法一般將與之相關(guān)的專業(yè)知識、文本、數(shù)據(jù)灌輸給機(jī)器,以期實(shí)現(xiàn)耳鳴這個(gè)極為細(xì)分病種的智能診斷。但在實(shí)踐過程中,這一想法從未真正成功。究其根源,醫(yī)生要理解疾病,就需要先理解健康,而健康不屬于疾病的范疇。一個(gè)耳科醫(yī)生接診的大部分時(shí)間是在排查無需治療的健康情況。也就是說,要真正理解某個(gè)領(lǐng)域,恰恰需要認(rèn)知領(lǐng)域之外的概念。由此可見,領(lǐng)域認(rèn)知是建立在通識能力基礎(chǔ)之上的。這些新認(rèn)識為我們重新發(fā)展領(lǐng)域認(rèn)知智能帶來新的啟發(fā),可以說在ChatGPT類的通用大模型支撐下,各領(lǐng)域認(rèn)知智能將迎來全新的發(fā)展機(jī)遇。
先符號再體驗(yàn),先形式再內(nèi)容。大規(guī)模語言模型通過使用文本或符號表達(dá)的語料訓(xùn)練而成。人類的自然語言是一種符號化的表達(dá)方式,語言模型表達(dá)了語言符號之間的統(tǒng)計(jì)關(guān)聯(lián)。然而,符號只是形式,單純基于符號的統(tǒng)計(jì)學(xué)習(xí)不足以讓機(jī)器理解符號所指或者語言的內(nèi)涵。純形式符號的智能系統(tǒng)勢必會遭遇類似約翰·塞爾“中文屋”[2]思想的責(zé)難。所以,AGI不是停留在單純的語言模型階段,而是積極融合多模態(tài)數(shù)據(jù)進(jìn)行混合訓(xùn)練。各類多模態(tài)數(shù)據(jù),比如圖像、語音、視頻,能夠表達(dá)人類豐富的世界體驗(yàn)(X. Zhu et al., 2022)。舉個(gè)例子,人們對于“馬”這個(gè)符號的理解,一定程度上取決于人們對馬這一動物的經(jīng)驗(yàn)和認(rèn)識,比如高亢的嘶鳴(語音)、健壯的形象(圖像)、奔騰的動作(視頻)。人的體驗(yàn)支撐了人對于“馬”這個(gè)概念的理解,正如人們對于萬馬齊喑的悲涼體會是建立在對于馬的健康、積極形象的體驗(yàn)基礎(chǔ)之上。所以AGI走出了一條先符號再體驗(yàn)、從形式到內(nèi)容的發(fā)展路徑。這和人類智能的發(fā)展過程恰好相反,人類是先有了豐富經(jīng)驗(yàn)或體驗(yàn),才抽象成符號、文字與概念。
“先大腦再身體”與“先身體再大腦”。目前AGI的發(fā)展趨勢是先發(fā)展語言模型,以模擬人腦的認(rèn)知能力,再基于機(jī)器大腦的認(rèn)知能力驅(qū)動各類工具與身體部件。大腦的復(fù)雜規(guī)劃與推理能力對于身體與工具在現(xiàn)實(shí)世界中的交互與動作是不可或缺的。AGI走出了一條“先實(shí)現(xiàn)大腦的認(rèn)知能力,后實(shí)現(xiàn)身體與物理世界交互能力”的發(fā)展路線。很顯然,AGI的這條發(fā)展路線與人類智能的進(jìn)化有著顯著的不同。人類在一定程度上是先具備身體能力,并在身體與世界的持續(xù)交互過程中,塑造和發(fā)展大腦的認(rèn)知能力。傳統(tǒng)的人工智能技術(shù)路線也傾向于先實(shí)現(xiàn)身體各器官或部件的基本功能,再實(shí)現(xiàn)大腦的復(fù)雜認(rèn)知能力,傾向于接受機(jī)械身體與現(xiàn)實(shí)世界的交互能力比大腦的復(fù)雜認(rèn)知能力更易實(shí)現(xiàn)的觀點(diǎn)。然而,目前的人工智能發(fā)展路徑在一定程度上顛覆了我們對機(jī)器智能實(shí)現(xiàn)路徑的傳統(tǒng)認(rèn)識。
由通用人工智能引發(fā)的人類自我審視及啟示
組合泛化是一種創(chuàng)造,但可能是低級的創(chuàng)造形式。AGI之所以吸引了業(yè)界的高度關(guān)注,一個(gè)很重要的原因在于它呈現(xiàn)出了一定的創(chuàng)造能力。我們發(fā)現(xiàn)ChatGPT或者GPT-4,已經(jīng)擁有了比較強(qiáng)大的組合泛化能力:大模型經(jīng)過足量常見任務(wù)的指令學(xué)習(xí),能夠勝任一些新的組合任務(wù)。具體來說,大模型學(xué)會了完成a、b兩類任務(wù),它就一定程度上可以完成a+b這類新任務(wù)。比如GPT-4能夠使用莎士比亞詩詞風(fēng)格來書寫數(shù)學(xué)定理證明。實(shí)際上這是由于GPT-4分別習(xí)得了數(shù)學(xué)證明與寫莎士比亞詩詞兩種能力,進(jìn)而組合泛化出的新能力。
第一,我們必須認(rèn)可大模型的這種組合創(chuàng)新能力。反觀人類社會的很多創(chuàng)新,本質(zhì)上也屬于組合創(chuàng)新,這種創(chuàng)新形式甚至占據(jù)了絕大多數(shù)。比如,在工科領(lǐng)域的技術(shù)創(chuàng)新中,很多研究生擅長把針對A場景所提出的B方法應(yīng)用到X場景并取得了不錯(cuò)的效果;爆米花式電影中平庸的劇情創(chuàng)作,大都通過借用a故事的框架、b故事的人物,套用c故事的情節(jié),使用d故事的橋段,等等。第二,AGI的組合創(chuàng)新能力遠(yuǎn)超人類認(rèn)知水平。AGI可以將任意兩個(gè)學(xué)科的能力進(jìn)行組合,這里的很多組合可能是人類從未想象過的,比如利用李清照詩詞的風(fēng)格寫代碼注釋。這種新穎的組合創(chuàng)新能力有可能是AGI給我們帶來的寶貴財(cái)富,將極大地激發(fā)人類的想象力。第三,AGI的這種組合創(chuàng)新能力,基本上宣告了人類社會的拼貼式內(nèi)容創(chuàng)新將失去意義。因?yàn)?,AGI能夠組合創(chuàng)新的素材,以及其生成的效率都遠(yuǎn)超人類。我們曾經(jīng)引以為傲的集成創(chuàng)新也將失去其光環(huán),而原始創(chuàng)新在AGI面前顯得更加難能可貴。第四,AGI的組合創(chuàng)新將迫使人類重新思考創(chuàng)新的本質(zhì)。人類所能做出的而AGI無法實(shí)現(xiàn)的創(chuàng)新將更加凸顯其價(jià)值。AGI將促使人類不再沉迷于隨機(jī)拼接或簡單組裝式的創(chuàng)造,而是更加注重富有內(nèi)涵、視角獨(dú)特、觀點(diǎn)新穎的內(nèi)容創(chuàng)造。
自監(jiān)督學(xué)習(xí)是世界建模的有效方式。自監(jiān)督學(xué)習(xí)可以視為一種填空游戲,即根據(jù)上下文填補(bǔ)空白。例如,我們事先遮蓋住一個(gè)完整句子中的某個(gè)單詞,然后讓機(jī)器根據(jù)這個(gè)句子的上下文還原被遮蓋的詞語。同樣地,就圖像而言,我們可以遮擋部分圖像區(qū)域,讓大模型根據(jù)周邊的背景圖像還原出被遮擋圖像的內(nèi)容。這樣一種自監(jiān)督學(xué)習(xí)范式為什么能夠成就ChatGPT這類大規(guī)模預(yù)訓(xùn)練語言模型,是個(gè)值得深思的問題。
“遮蔽+還原”式樣的自監(jiān)督學(xué)習(xí)任務(wù)旨在習(xí)得世界模型。比如,人們都知道高空拋重物,物體一定會下落,而不會向上飄也不可能懸在空中。最近很多學(xué)者,包括圖靈獎獲得者Yann LeCun都指出了世界模型(Y. Lecun, 2022)對于AGI的重要性。人類社會業(yè)已積累的數(shù)據(jù)體現(xiàn)了人類對于現(xiàn)實(shí)世界的認(rèn)識,通過對這些數(shù)據(jù)的學(xué)習(xí),機(jī)器將有機(jī)會建立世界模型。當(dāng)數(shù)據(jù)足夠多、足夠精、足夠豐富時(shí),就能在一定程度上表達(dá)人類對復(fù)雜現(xiàn)實(shí)世界的完整認(rèn)知,基于“遮蔽+還原”的自監(jiān)督學(xué)習(xí)機(jī)制,機(jī)器能夠逼真地建立起關(guān)于世界的模型。反觀人類的世界模型,很大程度上來自于經(jīng)驗(yàn)與文明傳承。一方面,我們在身體與世界交互過程中形成經(jīng)驗(yàn)從而建立世界模型;另一方面,文化傳播和教育傳承塑造著我們對世界的認(rèn)知。所以人類對世界建模的方式與機(jī)器建模世界的方式有著本質(zhì)的不同。
大模型所習(xí)得的隱性知識。大規(guī)模預(yù)訓(xùn)練語言模型借助了Transformer(A. Vaswani et al., 2017)這樣的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),習(xí)得了語言元素之間的統(tǒng)計(jì)關(guān)聯(lián),并具備了情境化生成能力。而大模型之大,主要就體現(xiàn)在其參數(shù)量巨大。這樣一個(gè)復(fù)雜的深度網(wǎng)絡(luò)空間編碼了語料中所蘊(yùn)含的各種知識,這種知識具有參數(shù)化表達(dá)與分布式組織兩個(gè)鮮明特點(diǎn)。所謂分布式組織,是指某一個(gè)知識并不能具體對應(yīng)到某個(gè)具體神經(jīng)元,而是分散表達(dá)為不同神經(jīng)元的權(quán)重參數(shù)及其之間的互聯(lián)結(jié)構(gòu)。在特定輸入下,通過激活某些神經(jīng)元、以神經(jīng)網(wǎng)絡(luò)計(jì)算方式獲取知識。因此,大模型可以視作隱性知識的容器。
大模型所編碼的隱性知識顯著超出人類業(yè)已表達(dá)的顯性知識的范圍。從某種意義上說,人類能用自然語言表達(dá)的知識是可以窮盡的,是有限的。而人類在潛意識下用到的常識、文本中的言下之意、領(lǐng)域?qū)<译y以表達(dá)的經(jīng)驗(yàn)等等,都是以隱性知識的形式存在的。大模型為我們認(rèn)識這些隱性知識提供了更多可能性。大模型是通才,它是利用全人類、全學(xué)科的語料訓(xùn)練生成的,它所習(xí)得的某些隱性關(guān)聯(lián)或者統(tǒng)計(jì)模式,有可能對應(yīng)到人類難以言說的隱性知識。比如外交場景下的遣詞造句多有言下之意、往往被賦予了特殊內(nèi)涵,大模型的出現(xiàn)給解讀這種言下之意與獨(dú)特內(nèi)涵帶來新的機(jī)會。大模型所編碼的知識,很多是人類從未解讀過的,特別是跨學(xué)科知識點(diǎn)之間的隱性關(guān)聯(lián)。這也是大模型給我們整個(gè)人類文明發(fā)展帶來的一次重大機(jī)遇。
隨著大模型對隱性知識解讀的日益深入,人類的知識將呈現(xiàn)爆炸性增長。我們不得不思考一個(gè)深刻的問題:過量的知識會否成為人類文明發(fā)展不可承受之重。事實(shí)上,當(dāng)知識積累到一定的程度,單純的知識獲取已經(jīng)偏離了人類文明發(fā)展的主航道。在知識急劇增長的未來,發(fā)現(xiàn)“智慧”比獲取“知識”更加重要。很多時(shí)候,我們并不需要太多知識,只要具備從大模型獲取知識的能力即可。理論上人類每個(gè)個(gè)體(即便人類最杰出的精英)所能知曉的知識量也一定遠(yuǎn)遠(yuǎn)低于智能機(jī)器。我們每個(gè)人的價(jià)值不是體現(xiàn)在擁有多少知識,而是知道如何使用知識,使用知識的智慧將是人類個(gè)體核心價(jià)值所在。AGI的發(fā)展倒逼人類社會的發(fā)展從追求知識進(jìn)入追求智慧的新階段。
大模型倒逼人類重新認(rèn)識自我。AGI技術(shù)將與人類社會發(fā)展進(jìn)程深度結(jié)合,為人類社會帶來前所未有的重大機(jī)遇和嚴(yán)峻挑戰(zhàn)。
隨著人工智能技術(shù)的迅速發(fā)展,AGI所帶來的風(fēng)險(xiǎn)也逐漸凸顯。首先,AGI給AI技術(shù)治理和社會治理帶來挑戰(zhàn)。與目前的人工智能相比,AGI失控將會帶來更加災(zāi)難性的后果。當(dāng)前,AGI技術(shù)“失控”的風(fēng)險(xiǎn)日益增加,必須及時(shí)干預(yù)。比如,AGI降低了內(nèi)容生成門檻,導(dǎo)致虛假信息泛濫,已經(jīng)成為一個(gè)嚴(yán)峻的問題。再比如,AGI作為先進(jìn)生產(chǎn)力,如果不能被大多數(shù)人掌握而是掌握在少數(shù)人或機(jī)構(gòu)手中,技術(shù)霸權(quán)主義將會對社會發(fā)展帶來消極影響。其次,AGI技術(shù)將會對人類個(gè)體的發(fā)展帶來挑戰(zhàn)。未來的社會生產(chǎn)似乎經(jīng)由少數(shù)精英加上智能機(jī)器就可以完成,工業(yè)時(shí)代的2∕8法則到了AGI時(shí)代可能會變成2∕98法則。換言之,越來越多的工作與任務(wù)在強(qiáng)大的AGI面前可能失去意義,個(gè)體存在的價(jià)值與意義需要重新定義。我們的壽命或?qū)⒋蠓妊娱L,但是生命的質(zhì)感卻逐漸消弱。如何幫助我們中的絕大多數(shù)人尋找生命的意義?如何優(yōu)雅地打發(fā)休閑時(shí)光?這些都是需要深度思考的問題。最后,AGI的進(jìn)步可能會帶來人類整體倒退的風(fēng)險(xiǎn)。當(dāng)人類發(fā)展了家禽技術(shù),打獵技術(shù)就明顯倒退;當(dāng)紡織機(jī)器日益成熟,繡花技藝就顯得沒有必要。我們的各種非物質(zhì)文化遺產(chǎn)、各類體育運(yùn)動,本質(zhì)上都是在防止人類的倒退。不能因?yàn)闄C(jī)器擅長完成人類的某項(xiàng)工作或任務(wù),就放任人類的此項(xiàng)能力逐步退化。如果說以往各種技術(shù)的進(jìn)步只是讓人類逐步遠(yuǎn)離了大自然的原始狀態(tài),人類在與惡劣的自然環(huán)境的搏斗中所發(fā)展出的四肢能力的倒退是人類文明發(fā)展必須作出的犧牲;那么,此次旨在代替人類腦力的AGI會否引起人類智能的倒退?智能的倒退必然引起人類主體性的喪失與文明的崩塌。如何防止我們的腦力或者說智能的倒退,是個(gè)必須嚴(yán)肅思考的問題。
盡管面臨重重挑戰(zhàn),但AGI毫無疑問是一種先進(jìn)生產(chǎn)力,其發(fā)展的勢頭是不可阻擋的。除了前文提到的種種具體的技術(shù)賦能之外,這里要從人類文明發(fā)展的高度再次強(qiáng)調(diào)AGI所帶來的全新機(jī)遇。首先,AGI對于加速人類知識發(fā)現(xiàn)進(jìn)程具有重大意義。前文已經(jīng)討論過對大語言模型已編碼的隱性知識的解讀將會加速人類的知識發(fā)現(xiàn),但同時(shí)也會帶來知識的貶值。未來我們會見證知識的爆炸所帶來的“知識無用”。其次,AGI發(fā)展的最大意義可能在于倒逼人類進(jìn)步。平庸的創(chuàng)作失去意義、組合創(chuàng)新失去意義、窮舉式探索失去意義……這個(gè)列表注定會越來越長。但是人的存在不能失去意義,我們要重新找尋自身價(jià)值所在,重新思考人之所以為人的哲學(xué)命題。
結(jié)語
對于AGI的探索和思考才剛剛開始,我們還有很長的路要走。我們必須高度警醒AGI所帶來的問題,并充分重視AGI所創(chuàng)造的機(jī)會。兩千多年前,蘇格拉底說“認(rèn)識你自己”,今天在AGI技術(shù)發(fā)展的倒逼下,人類需要“重新認(rèn)識你自己”。
注釋
[1]《牛津詞典》將Intelligence一詞定義為“the ability to acquire and apply knowledge and skills”。
[2]約翰·塞爾設(shè)計(jì)了一個(gè)思想實(shí)驗(yàn),一個(gè)關(guān)在屋子里不懂中文的人也能憑借辭典完成中英文翻譯工作,在屋外人看來這個(gè)屋子具有翻譯能力,能夠理解中文。塞爾以此思想實(shí)驗(yàn)反駁圖靈測試,認(rèn)為該測試不能評價(jià)對象是否具有理解能力。
參考文獻(xiàn)
A. Rohan et al., 2023, “PaLM 2 Technical Report,“ arXiv preprint arXiv:2305.10403.
A. Vaswani et al., 2017, “Attention Is All You Need,“ Advances in Neural Information Processing Systems.
D. Driess et al., 2023, “PaLM-E: An Embodied Multimodal Language Model,“ International Conference on Machine Learning.
Q. Dong et al., 2022, “A Survey on In-context Learning,“ arXiv preprint arXiv:2301.00234.
W. X. Zhao et al., 2023, "A Survey of Large Language Models," arXiv preprint arXiv: 2303.18223.
X. Zhu et al., 2022, “Multi-Modal Knowledge Graph Construction and Application: A Survey,“ IEEE Transactions on Knowledge and Data Engineering.
Y. Lecun, 2022, “A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27,“ Open Review.
Generative Language Model and Artificial General Intelligence:
Connotation, Approach and Implications
Xiao Yanghua
Abstract: Large scale generative pre-trained language models represented by ChatGPT has led to the rapid development of a series of artificial general intelligence (AGI) technologies, which, as advanced productive forces, has set off a new wave of information technology revolution. Therefore, it's essential and necessary to understand the essence of AGI. Represented by large scale generative language models and taken generative AI as the main form, the AGI technology, capable of contextualized generation, has developed three-stage intelligence approach of knowledge, capability and value. With the relevant technologies development and rapid increase of machine intelligence, AGI brings a series of social problems such as man-machine obscured boundaries, etc. Featured with "cramming indoctrination" and "generalization before specialization", the development path of AGI subverts mankind's traditional knowledge on approach to machine intelligence. AGI pushes mankind to reflect on their world modeling, knowledge acquisition, and self-cognition. Hence, it is necessary for mankind to be highly alert to the challenges from AGI and actively seizes the opportunities brought by it, so as to develop a new type of a harmonious man-machine relationship.
Keywords: ChatGPT, AGI, Turing test, generative artificial intelligence