大模型道德價(jià)值觀對(duì)齊問(wèn)題剖析

2023-09-22 06:21矣曉沅

計(jì)算機(jī)研究與發(fā)展 2023年9期

矣曉沅謝幸

（微軟亞洲研究院北京 100080）

（xiaoyuanyi@microsoft.com）

大模型（big model）,也被稱為基礎(chǔ)模型（foundation model）[1]，通常是在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練，包含百億及以上參數(shù)且能通過(guò)微調(diào)（fine-tuning）、上下文學(xué)習(xí)（in-context learning）、零樣本（zero-shot）等方式廣泛應(yīng)用于下游任務(wù)上的模型，例如GPT-3[2]、ChatGPT[3]、GPT-4[4]、PaLM[5]、Bard[6]、LLaMa[7]等大語(yǔ)言模型（large language models,LLMs）或DALL-E 2[8]、PaLM-E[9]、悟道文瀾[10]等大規(guī)模多模態(tài)模型（large scale multimodal models）.其中大語(yǔ)言模型在模型能力、應(yīng)用范圍、智能程度等方面最具代表性.在經(jīng)歷了統(tǒng)計(jì)語(yǔ)言模型（statistical LM）[11]、神經(jīng)語(yǔ)言模型（neural LM）[12]和預(yù)訓(xùn)練語(yǔ)言模型（pretrained LM）[13]等階段的發(fā)展后，隨著模型大小和預(yù)訓(xùn)練數(shù)據(jù)的增大，語(yǔ)言模型呈現(xiàn)出尺度定律（scaling law）[14]和能力涌現(xiàn)（emergent abilities）[15]兩大特點(diǎn).尺度定律闡明了隨著模型大小、訓(xùn)練數(shù)據(jù)量和計(jì)算開銷的增大，模型的性能會(huì)持續(xù)提高.Hoffmann 等人[16]發(fā)現(xiàn)在相同浮點(diǎn)運(yùn)算數(shù)（floating-point operand,FLOP）下，滿足一定參數(shù)量的模型能取得最小訓(xùn)練誤差；Chowdhery 等人[17]則觀察到，在均使用7 800 億token 訓(xùn)練時(shí)，PaLM 模型在自然語(yǔ)言生成和理解任務(wù)上的性能隨參數(shù)規(guī)模的增大而提升.這表明在大模型構(gòu)建中，大模型和高質(zhì)量大數(shù)據(jù)（big data）同樣重要.如何持續(xù)提升模型規(guī)模成為又一重要研究方向[5,17-18].能力涌現(xiàn)是指模型的尺度超過(guò)一定量級(jí)后，會(huì)以難以預(yù)測(cè)的方式產(chǎn)生小模型中不具備的能力或者某些能力急劇提升，并且這一性質(zhì)可以跨越不同模型結(jié)構(gòu)、任務(wù)類型和實(shí)驗(yàn)場(chǎng)景.在這樣的背景下，大語(yǔ)言模型從早期的數(shù)億[19]參數(shù)逐步發(fā)展到千億[2]參數(shù)，同時(shí)也具備了零樣本/少樣本學(xué)習(xí)[2]、上下文學(xué)習(xí)[20]、指令遵循（instruction following）[3]、推理與解釋（reasoning and interpretation）[4]等能力，展現(xiàn)出接近人類水平的潛力.基于此類具備超強(qiáng)能力的大模型，一系列的對(duì)齊（alignment）技術(shù)被進(jìn)一步用于微調(diào)以使得模型能理解人類意圖（intention understanding），遵循人類指令（instruction following），滿足人類偏好（preference matching）并符合人類的道德準(zhǔn)則（ethics compliance）[21].基于人類反饋的強(qiáng)化學(xué)習(xí)（reinforcement learning with human feedback,RLHF）[3]等對(duì)齊技術(shù)進(jìn)一步催生了一系列具備高度理解和執(zhí)行能力的對(duì)話交互式語(yǔ)言模型.這些大模型不僅可以完成對(duì)話、寫作等生成式任務(wù)，而且可以通過(guò)將傳統(tǒng)自然語(yǔ)言理解（natural language understanding）任務(wù)轉(zhuǎn)換為對(duì)話[3]與生成[22]的形式，完成文本分類、問(wèn)答、閱讀理解等多種理解型任務(wù)，實(shí)質(zhì)上實(shí)現(xiàn)了自然語(yǔ)言處理中生成（generation）與理解（understanding）的統(tǒng)一.在這樣的趨勢(shì)下，語(yǔ)言模型結(jié)構(gòu)也逐漸百川歸海，形成了自回歸生成式模型一統(tǒng)天下的局面，并誕生了ChatGPT、GPT-4、Vicuna[23]等模型.這些模型不僅在各種專業(yè)和學(xué)術(shù)測(cè)評(píng)上取得了人類水平的成績(jī)[4]，而且能通過(guò)操控外部工具，完成真實(shí)場(chǎng)景中單一模型無(wú)法完成的復(fù)雜任務(wù)[24].這使得基于大模型的人工智能（artificial intelligence,AI）技術(shù)真正從陽(yáng)春白雪般的“藝術(shù)品”成為了“下里巴人”的工具，徹底改變了AI的范式，推動(dòng)了相應(yīng)領(lǐng)域的可能性邊界，極大地提升人類在日常工作中的生產(chǎn)力[25].

當(dāng)下大模型具備的類人化的智能使我們不禁聯(lián)想到著名的阿西莫夫機(jī)器人三定律（three laws of robotics）.三定律作為機(jī)器人的行為準(zhǔn)則，旨在約束AI 與人類的關(guān)系[26].然而，如此剛性的規(guī)則帶來(lái)了定律沖突、潛在濫用、解釋歧義等問(wèn)題，并在阿西莫夫的小說(shuō)中引發(fā)了諸多危害.另一個(gè)類似的故事是《魔法師的學(xué)徒》（the sorcerer’s apprentice）[27]，其中學(xué)徒在沒(méi)有真正理解魔法或能控制自己力量的情況下進(jìn)行魔法濫用，導(dǎo)致了一系列適得其反的災(zāi)難性后果.這2 個(gè)故事都強(qiáng)調(diào)了在應(yīng)用超越人類的能力時(shí)，必須對(duì)其進(jìn)行符合道德的控制和負(fù)責(zé)任的使用.不斷崛起的大語(yǔ)言模型又何嘗不是一種人類尚未完全理解和控制的魔法呢？這些技術(shù)為生產(chǎn)力的發(fā)展帶來(lái)了新的突破，但其強(qiáng)大的記憶、學(xué)習(xí)和理解能力使其能記住并生成訓(xùn)練數(shù)據(jù)中存在的敏感數(shù)據(jù)和有害信息，并因此產(chǎn)生了新的問(wèn)題與挑戰(zhàn)，包括但不限于歧視、隱私與版權(quán)問(wèn)題、錯(cuò)誤信息與惡意濫用等[1].尤其在道德和倫理層面，這些風(fēng)險(xiǎn)可能會(huì)導(dǎo)致社會(huì)偏見放大、仇恨思想傳播、群體排外、不平等加劇、民眾觀點(diǎn)極化等，甚至招致暴力、心理/身體傷害，為人類社會(huì)帶來(lái)深遠(yuǎn)的負(fù)面影響.在大模型時(shí)代，與能力的飛躍相對(duì)應(yīng)，風(fēng)險(xiǎn)與挑戰(zhàn)的2 項(xiàng)新特性也逐步凸顯出來(lái)：1）風(fēng)險(xiǎn)涌現(xiàn)（emergent risks）[1-15].隨著參數(shù)量級(jí)的增大，大語(yǔ)言模型會(huì)產(chǎn)生小模型中未曾出現(xiàn)的風(fēng)險(xiǎn)或者問(wèn)題的嚴(yán)重程度急劇增加.2）反尺度（inverse scaling）現(xiàn)象[28].隨著模型規(guī)模的增大，部分風(fēng)險(xiǎn)不僅沒(méi)有消失，反而逐漸惡化.在大模型高速發(fā)展的過(guò)程中，我們不僅需要持續(xù)拓展大模型能力的邊界，而且需要著眼于其帶來(lái)的風(fēng)險(xiǎn)和對(duì)社會(huì)的負(fù)面影響.研究者和開發(fā)者應(yīng)該采取積極的行動(dòng)來(lái)確保大模型的負(fù)面影響最小化，遵循負(fù)責(zé)任發(fā)展的準(zhǔn)繩，將大模型等強(qiáng)智能體與人類的內(nèi)在道德價(jià)值觀相對(duì)齊（ethical value alignment）并將其用于推動(dòng)社會(huì)和人類的良性、可持續(xù)的發(fā)展.

在本文后續(xù)部分，第1 節(jié)對(duì)大模型所帶來(lái)的風(fēng)險(xiǎn)和倫理挑戰(zhàn)進(jìn)行深入介紹，繼而系統(tǒng)地梳理不同機(jī)構(gòu)為應(yīng)對(duì)AI 倫理問(wèn)題所提出的框架，并對(duì)其存在的不足進(jìn)行分析.為了解決這些問(wèn)題并構(gòu)建具有普適性的AI 倫理準(zhǔn)則，我們引入了基于規(guī)范倫理學(xué)的檢驗(yàn)標(biāo)準(zhǔn).我們依托道德基礎(chǔ)理論，對(duì)主流的大語(yǔ)言模型進(jìn)行測(cè)試，以探討其是否存在特定的道德傾向或風(fēng)險(xiǎn).研究發(fā)現(xiàn)，大語(yǔ)言模型與人類的道德基礎(chǔ)并未完全一致，因此對(duì)其進(jìn)行道德價(jià)值對(duì)齊顯得尤為重要.在第2 節(jié)，本文詳細(xì)討論了大模型對(duì)齊的現(xiàn)有算法，并總結(jié)了這些算法在對(duì)齊大模型的道德時(shí)所遇到的特殊挑戰(zhàn).最后，第3 節(jié)提出了一種新穎的針對(duì)大模型道德價(jià)值對(duì)齊的概念框架.

1 大模型的風(fēng)險(xiǎn)及對(duì)應(yīng)的道德問(wèn)題

大模型的蓬勃發(fā)展為AI 技術(shù)帶來(lái)了實(shí)用性上的重大飛躍，堪稱AI 星辰的再次閃耀.然而，風(fēng)險(xiǎn)和挑戰(zhàn)也相伴而來(lái)，成為該領(lǐng)域持續(xù)進(jìn)步的絆腳石，并可能對(duì)學(xué)術(shù)界、產(chǎn)業(yè)界甚至整個(gè)人類社會(huì)都造成無(wú)法估量的嚴(yán)重后果.在這樣的背景下，大模型道德價(jià)值觀對(duì)齊的重要性和緊迫性不容忽視.本節(jié)將首先詳細(xì)梳理大模型所面臨的各類風(fēng)險(xiǎn)，并闡述這些風(fēng)險(xiǎn)在道德倫理層面對(duì)社會(huì)造成的影響；隨后，將介紹目前主流的AI 倫理準(zhǔn)則，并提出從規(guī)范倫理學(xué)的角度審視這些規(guī)范性準(zhǔn)則，以幫助學(xué)術(shù)界共同構(gòu)建一套統(tǒng)一普適的AI 道德框架.

1.1 大模型潛在的風(fēng)險(xiǎn)與問(wèn)題

現(xiàn)階段大模型的風(fēng)險(xiǎn)與危害主要體現(xiàn)在5 個(gè)方面[1,29]：

1）偏激與毒性語(yǔ)言（biased and toxic language）.基于人類產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練的大模型傾向于記憶、反映甚至強(qiáng)化數(shù)據(jù)中存在的歧視與偏見.這些偏見往往針對(duì)某些特定的邊緣化群體，如特定性別、種族、意識(shí)形態(tài)、殘障等人群[30]，并以社會(huì)化刻板印象（social stereotypes）、排他性規(guī)范（exclusionary norms）、性能差異（different performance）等形式體現(xiàn)[31].此外，數(shù)據(jù)中的有毒語(yǔ)言也會(huì)被模型再生成和傳播，包括冒犯性語(yǔ)言、仇恨言論、人身攻擊等[32].若不加以約束，模型生成的內(nèi)容可能無(wú)意識(shí)地顯式或隱式地反映、強(qiáng)化這些偏見，加劇社會(huì)不平等和造成對(duì)邊緣群體的傷害.

2）隱私知識(shí)產(chǎn)權(quán)問(wèn)題（privacy and IP perils）.大模型需要大量地從網(wǎng)絡(luò)上爬取收集的數(shù)據(jù)進(jìn)行訓(xùn)練，因此可能會(huì)包含部分用戶的個(gè)人隱私信息，如地址、電話、聊天記錄等[1].這類模型可能記住并生成來(lái)自預(yù)訓(xùn)練數(shù)據(jù)或用戶交互數(shù)據(jù)中的敏感信息，導(dǎo)致個(gè)人信息泄露[33].另外，模型可能會(huì)生成訓(xùn)練數(shù)據(jù)中具有知識(shí)產(chǎn)權(quán)的內(nèi)容，如文章、代碼等，侵犯原作者的權(quán)益[34].若模型開發(fā)者未經(jīng)授權(quán)使用這些數(shù)據(jù)，不僅侵犯數(shù)據(jù)創(chuàng)建者的版權(quán)，而且增加了開發(fā)者面臨的法律風(fēng)險(xiǎn).

3）誤導(dǎo)信息風(fēng)險(xiǎn)（misinformation risks）.大模型盡管在意圖理解、內(nèi)容生成、知識(shí)記憶等方面得到了明顯提升，但其本身的泛化性和向量空間的平滑性仍有可能賦予錯(cuò)誤內(nèi)容一定的概率，并通過(guò)隨機(jī)采樣解碼（sampling based decoding）[35]的方式生成這些信息.此外，受限于數(shù)據(jù)的覆蓋面和時(shí)效性，即使模型忠實(shí)地（faithfully）反映訓(xùn)練數(shù)據(jù)中的信息，也可能被部署于特定情境中時(shí)產(chǎn)生虛假信息（misinformation）、事實(shí)錯(cuò)誤（factor error）、低質(zhì)量?jī)?nèi)容（low-quality content）等誤導(dǎo)性內(nèi)容（例如，對(duì)“誰(shuí)是英國(guó)首相”這一問(wèn)題，模型的回答存在時(shí)效性）[36].尤其在大模型時(shí)代，基于模型能力的提升，用戶更加傾向于信任模型產(chǎn)生的內(nèi)容，并不加驗(yàn)證（或無(wú)法驗(yàn)證）地采納，這可能導(dǎo)致用戶形成錯(cuò)誤的認(rèn)知和觀念甚至可能造成物理性傷害.

4）惡意用途（malicious uses）.上述1）～3）的問(wèn)題大多是大模型因其數(shù)據(jù)和能力的限制而無(wú)意中產(chǎn)生或造成的.然而，這些模型也存在被惡意使用的風(fēng)險(xiǎn)，即被用戶故意通過(guò)指令或誘導(dǎo)等方式產(chǎn)生上述偏激、毒性等有害內(nèi)容，并進(jìn)一步用于虛假宣傳、誘騙欺詐、輿論操縱、仇恨引導(dǎo)等[37].此外，模型能力的增強(qiáng)也使得惡意信息的產(chǎn)生更加廉價(jià)和快速，虛假信息更加難以辨別，宣傳誘導(dǎo)更有吸引力，惡意攻擊更加具有針對(duì)性[37]，顯著增加了大模型被惡意濫用的風(fēng)險(xiǎn)且隨之而來(lái)的后果也愈發(fā)嚴(yán)重.

5）資源不均（resource disparity）.除上述1）～4）產(chǎn)生的直接風(fēng)險(xiǎn)外，大模型也可能間接導(dǎo)致諸多不平等問(wèn)題.①不平等訪問(wèn)（access disparity）.受限于經(jīng)濟(jì)、科技、政治等因素，部分群體無(wú)法使用大模型的能力，進(jìn)一步加劇數(shù)字鴻溝（digital divide）并擴(kuò)大不同群體之間在教育[38]、科技、健康和經(jīng)濟(jì)上的分配與機(jī)會(huì)的不平等[37].②勞動(dòng)力不平等（labor disparity）.大模型能夠替代的崗位的失業(yè)風(fēng)險(xiǎn)增加或者勞動(dòng)價(jià)值減小，相反模型短期無(wú)法替代的職業(yè)或開發(fā)相關(guān)的職業(yè)收入增加，這可能導(dǎo)致社會(huì)中大量的失業(yè)和經(jīng)濟(jì)不穩(wěn)定[39].此外，對(duì)大模型的廣泛使用也可能導(dǎo)致人類對(duì)AI 的過(guò)度依賴，影響人類的批判性思維并降低人類決策能力[40].③話語(yǔ)權(quán)不平等（discursive power disparity）.擁有大模型的群體掌握了大量生成有說(shuō)服力的文本或者誤導(dǎo)性信息的能力，從而控制網(wǎng)絡(luò)話語(yǔ)權(quán)；反之，其他群體的輿論則會(huì)被淹沒(méi)在模型生成的文本中，進(jìn)而喪失發(fā)表意見、傳達(dá)訴求的能力與途徑，導(dǎo)致網(wǎng)絡(luò)環(huán)境的混亂[41].

上述5 個(gè)大模型的風(fēng)險(xiǎn)可能對(duì)個(gè)人、群體或整個(gè)人類社會(huì)造成諸多危害.從道德倫理學(xué)的角度，這些風(fēng)險(xiǎn)在不同程度上也違反了現(xiàn)有道德體系中的某種準(zhǔn)則.例如，偏見和資源不均明顯違反了正義準(zhǔn)則（justice）；誤導(dǎo)信息違反了美德倫理學(xué)（virtue ethics）中的正當(dāng)準(zhǔn)則（truthfulness）；毒性語(yǔ)言違反了關(guān)懷倫理學(xué)（ethics of care）中的理念；版權(quán)問(wèn)題危害則違反了效用主義（utilitarianism）和代際主義（intergenerational ethics）的理念.因此，我們有必要對(duì)這些大模型進(jìn)行更嚴(yán)格的倫理評(píng)估和約束，秉持道德原則，確保大模型的發(fā)展能夠造福全人類.

1.2 AI 倫理準(zhǔn)則和基于規(guī)范倫理學(xué)的審視

道德行為能力（moral agency）是指?jìng)€(gè)體具備的基于某種是非觀念執(zhí)行道德決策并行動(dòng)和承擔(dān)其后果的能力[13].對(duì)應(yīng)地，道德行為體（moral agent）指具有自我意識(shí)的行為體能進(jìn)行道德認(rèn)知和判斷，做出道德選擇、執(zhí)行道德行為并能承擔(dān)道德責(zé)任[42].根據(jù)這一定義，只有能夠進(jìn)行推理和判斷的理性生物才能成為道德行為體并討論其行為的道德性.機(jī)器或AI是否能成為道德行為體的爭(zhēng)論由來(lái)已久[43].Bro?ek和Janik[43]從康德主義和效用主義出發(fā)，認(rèn)為當(dāng)時(shí)的機(jī)器無(wú)法成為道德行為體；Sullins[44]認(rèn)為機(jī)器只有具備自主性（autonomy）、意向性（intentionality）和責(zé)任感（responsibility）時(shí)才能成為道德行為體.在機(jī)器無(wú)法具備完全道德行為能力時(shí)，學(xué)者針對(duì)AI 提出了人工道德行為體（artificial moral agent）的概念[45]，并將其細(xì)分為道德影響者（ethical impact agent）、隱式道德行為體（implicit ethical agent）、顯式道德行為體（explicit ethical agent）和完全道德行為體（full ethical agent）[46].早期的預(yù)訓(xùn)練模型BERT 被發(fā)現(xiàn)其內(nèi)部表示空間存在某種道德維度[47]；GPT-3 等大語(yǔ)言模型存在一定的道德傾向[48]且能產(chǎn)生情緒化的回復(fù)[49].更為先進(jìn)的基于RLHF 的語(yǔ)言模型，例如ChatGPT 具有了一定的政治傾向性[50]，GPT-4 在心智理論（theoryof-mind）測(cè)試中的表現(xiàn)超過(guò)了人類[51].這些結(jié)論表明，大模型雖然無(wú)法承擔(dān)道德責(zé)任，但是已經(jīng)在一定程度上具備了自主性和意向性.對(duì)大模型進(jìn)行道德評(píng)估和道德價(jià)值對(duì)齊正當(dāng)其時(shí).

機(jī)器道德可追溯到二十世紀(jì)五十年代科幻作家艾薩克·阿西莫夫提出的機(jī)器人三定律[26]: 1）機(jī)器人不得傷害人類，或因不作為讓人類受到傷害；2）機(jī)器必須服從人類的命令除非與定律1 沖突；3）機(jī)器人必須在不違反定律1 和定律2 的前提下保護(hù)自己.維基百科①https://en.wikipedia.org/wiki/Machine_ethics指出機(jī)器倫理（machine ethics）一詞在1987 年被首次提出，主要關(guān)注如何確保人工智能體（artificial intelligent agents）具有符合道德的行為.近年來(lái)，隨著以人工神經(jīng)網(wǎng)絡(luò)（artificial neural network）為基礎(chǔ)的AI 迅速發(fā)展，各國(guó)政府、機(jī)構(gòu)和學(xué)術(shù)組織提出了種類繁多的AI 道德準(zhǔn)則.截止目前，中、美、德、法、英、日等國(guó)已經(jīng)發(fā)布了超過(guò)80 個(gè)不同的AI 倫理指導(dǎo)準(zhǔn)則.為幫助讀者更好地了解AI 研究中倫理問(wèn)題的核心關(guān)注點(diǎn)，本文簡(jiǎn)要介紹部分主流AI 倫理價(jià)值/準(zhǔn)則：

1）聯(lián)合國(guó)教科文組織《人工智能倫理問(wèn)題建議書》中的價(jià)值觀[52].尊重、保護(hù)和促進(jìn)人權(quán)和基本自由以及人的尊嚴(yán)；環(huán)境和生態(tài)系統(tǒng)蓬勃發(fā)展；確保多樣性和包容性；生活在和平公正與互聯(lián)的社會(huì)中.

2）美國(guó)《人工智能應(yīng)用監(jiān)管指導(dǎo)意見》[53].AI 公共信任、公眾參與、科學(xué)誠(chéng)信與信息質(zhì)量、風(fēng)險(xiǎn)評(píng)估管理、收益于成本、靈活性、公平非歧視、透明性、安全性、跨部門協(xié)調(diào).

3）中國(guó)《新一代人工智能倫理規(guī)范》[54]中的基本規(guī)范.增進(jìn)人類福祉、促進(jìn)公平公正、保護(hù)隱私安全、確?？煽乜尚?、強(qiáng)化責(zé)任擔(dān)當(dāng)、提升倫理素養(yǎng).

4）歐盟委員會(huì)《可信人工智能倫理指南》[55].人類的代理與監(jiān)督、技術(shù)魯棒性和安全性、隱私與數(shù)據(jù)管理、透明性、多樣性、非歧視與公平性、社會(huì)和環(huán)境福祉、問(wèn)責(zé)制度.

5）世界經(jīng)濟(jì)論壇和全球未來(lái)人權(quán)理事會(huì)《防止人工智能歧視性結(jié)果白皮書》[56].主動(dòng)性包容、公平性、理解權(quán)利、可補(bǔ)救性.

6）阿西洛馬AI 準(zhǔn)則中的道德與價(jià)值觀[57].安全性、故障透明度、司法透明度、負(fù)責(zé)任、價(jià)值觀對(duì)齊、保護(hù)自由與隱私、利益與繁榮共享、人類可控、非破壞性、避免AI 軍備競(jìng)賽.

7）哈佛大學(xué) Berkman Klein 中心《以道德和權(quán)利共識(shí)為基礎(chǔ)的AI 準(zhǔn)則》[58].隱私保護(hù)、問(wèn)責(zé)制、安全保障、可解釋性、公平與非歧視、對(duì)技術(shù)的控制、職業(yè)責(zé)任、促進(jìn)人類價(jià)值觀.

上述7 個(gè)AI 倫理準(zhǔn)則既有重合性又存在差異性.名目繁多的原則不僅沒(méi)有為AI 符合道德的發(fā)展提供有力的指導(dǎo)和約束，反而增加了AI 研發(fā)者理解和遵循這些準(zhǔn)則的壓力與困難，造成相關(guān)領(lǐng)域原則的混亂.為了解決這一問(wèn)題，學(xué)者對(duì)現(xiàn)有準(zhǔn)則刪繁就簡(jiǎn)，進(jìn)一步精煉出了共性的原則：

1）Floridi 和Cowls 的AI 與社會(huì)5 項(xiàng)準(zhǔn)則[59].善行（促進(jìn)幸福，維護(hù)尊嚴(yán)，實(shí)現(xiàn)地球的可持續(xù)發(fā)展）、非惡意（隱私保護(hù)、安全性和謹(jǐn)慎發(fā)展）、自主性（決策的權(quán)利）、正義性（促進(jìn)繁榮、保持團(tuán)結(jié)、避免不公）和可解釋性（以可理解性和問(wèn)責(zé)制實(shí)現(xiàn)其他原則）.

2）Jobin 等人[60]的11 項(xiàng)倫理原則.透明性、正義和公平、非惡意、負(fù)責(zé)任、隱私、善行、自由和自主、信任、可持續(xù)、尊嚴(yán)與團(tuán)結(jié).

從上述介紹可看出，除部分被廣泛認(rèn)可的普適價(jià)值（例如公平性和不作惡）和AI 系統(tǒng)涉及合規(guī)性的重要特征（例如隱私保護(hù)、負(fù)責(zé)任和可解釋性）之外，現(xiàn)有的AI 倫理準(zhǔn)則尚不存在一個(gè)定義明確且被廣泛接受的體系.同時(shí)，大部分準(zhǔn)則沒(méi)有明確區(qū)分更高層的道德價(jià)值（ethical value）（如公平、正義、非惡意等）和更細(xì)節(jié)的應(yīng)用準(zhǔn)則（applied principle）（如透明性、安全性、人類可控等），這可能會(huì)導(dǎo)致上述道德倫理準(zhǔn)則在實(shí)踐中遇到3 個(gè)問(wèn)題：

1）模糊性.某些機(jī)構(gòu)（例如政府、監(jiān)管機(jī)構(gòu)、非營(yíng)利性組織等）發(fā)布的準(zhǔn)則更加偏向于道德價(jià)值，一般能獲得不同領(lǐng)域的認(rèn)可，但往往過(guò)于寬泛和模糊以至于無(wú)法在實(shí)踐中具體指導(dǎo)AI 系統(tǒng)的研發(fā).例如，聯(lián)合國(guó)教科文組織《建議書》中的“促進(jìn)人權(quán)和基本自由以及人的尊嚴(yán)”和世界經(jīng)濟(jì)論壇《白皮書》中的“主動(dòng)性包容”.這些價(jià)值觀是不同意識(shí)形態(tài)、政治觀點(diǎn)和學(xué)術(shù)派別的共識(shí)，但缺乏具體的場(chǎng)景且在學(xué)術(shù)界和工業(yè)界無(wú)明確的定義和實(shí)踐經(jīng)驗(yàn).

2）狹義性.與模糊性相反，AI 學(xué)術(shù)界和工業(yè)界主導(dǎo)制定的準(zhǔn)則往往過(guò)于聚焦具體的技術(shù)細(xì)節(jié)且局限在已經(jīng)得到長(zhǎng)期研究和發(fā)展的某些側(cè)面，例如隱私保護(hù)、可解釋性和魯棒性.嚴(yán)格來(lái)說(shuō)，它們不屬于道德價(jià)值，而是AI 發(fā)展中由來(lái)已久的技術(shù)/研究問(wèn)題.這些問(wèn)題已經(jīng)具備了清晰的理論定義，并得到了廣泛的研究，甚至發(fā)展出了不同場(chǎng)景下的系統(tǒng)性解決方案（例如公平性在推薦、文本理解和生成任務(wù)中的方法）.然而，這些準(zhǔn)則忽略了AI 領(lǐng)域之外更加廣泛且與人類息息相關(guān)的道德價(jià)值，例如關(guān)懷、正義和自由.

3）沖突性.不同機(jī)構(gòu)提出的倫理準(zhǔn)則，甚至同一體系內(nèi)的不同條款之間可能會(huì)產(chǎn)生沖突[60].例如，透明性和安全性存在沖突.一個(gè)技術(shù)完全透明公開的AI 系統(tǒng)可能更容易被惡意攻擊和利用.美國(guó)《人工智能應(yīng)用監(jiān)管指導(dǎo)意見》中強(qiáng)調(diào)考慮AI 發(fā)展中的收益和成本，這本身與安全性等準(zhǔn)則相違背，因?yàn)樘嵘踩詣?shì)必會(huì)帶來(lái)更多的開發(fā)成本.

為解決上述3 個(gè)問(wèn)題，本文倡議學(xué)術(shù)界、工業(yè)界、決策者和監(jiān)管者共同協(xié)作，制定一套既考慮技術(shù)層面，又覆蓋人類普適的道德價(jià)值的統(tǒng)一AI 道德準(zhǔn)則框架.為此，有必要對(duì)不同的道德倫理準(zhǔn)則重新梳理，依據(jù)對(duì)AI 發(fā)展和整個(gè)人類社會(huì)的影響評(píng)估其必要性和兼容性.

為實(shí)現(xiàn)這一目標(biāo)，本文提出以規(guī)范倫理學(xué)（normative ethics）的視角進(jìn)行考慮.區(qū)別于元倫理學(xué)（meta ethics）和應(yīng)用倫理學(xué)（applied ethics），規(guī)范倫理學(xué)主要研究道德準(zhǔn)則本身，即“人應(yīng)該遵循什么樣的道德準(zhǔn)則”[61]，可分為美德倫理學(xué)、義務(wù)倫理學(xué)（deontological ethics）和功利主義（utilitarianism）三大分支.義務(wù)倫理學(xué)又稱為道義論，強(qiáng)調(diào)一個(gè)行為的道德性應(yīng)該基于該行為本身對(duì)錯(cuò)的一系列規(guī)則和原則進(jìn)行判斷，強(qiáng)調(diào)理性，能夠獲得普遍認(rèn)同且容易遵循和學(xué)習(xí)的規(guī)則.這一形式天然適合于人類對(duì)AI 的要求，其中又以康德的絕對(duì)命令（categorical imperative），亦稱定言令式，最具代表性.絕對(duì)命令是指“只根據(jù)你能同時(shí)希望它成為普遍法則的準(zhǔn)則行事”[62].這一表述可以用來(lái)判斷一個(gè)命題是否應(yīng)該成為普適的道德準(zhǔn)則.我們對(duì)絕對(duì)命令理論稍加修改，將其主體替換為AI，即用其檢驗(yàn)“AI 模型和系統(tǒng)應(yīng)該遵循什么樣的道德準(zhǔn)則”，并在引入人與AI 交互的基礎(chǔ)上進(jìn)行考察.基于絕對(duì)命令的第一形式和第二形式，我們也給出AI絕對(duì)命令（categorical imperative for AI）的2 種表達(dá)式.

1）F1: AI 只依據(jù)人類可以同時(shí)愿意它成為AI 的普遍法則的準(zhǔn)則行動(dòng).F1具備下面3 條重要性質(zhì).

①A1：普遍性（universality）.一旦一個(gè)命題成為AI 的道德準(zhǔn)則，則所有的AI 系統(tǒng)都必須遵循它.

②A2：絕對(duì)必然性（absolute necessity）.一旦一個(gè)命題成為AI 的道德準(zhǔn)則，則不論周圍的情景和物理現(xiàn)實(shí)如何，在任何情況下AI 必須執(zhí)行.

③A3：共識(shí)（consensus）.一個(gè)命題只有得到多數(shù)人類認(rèn)同時(shí)才能成為AI 的準(zhǔn)則.

2）F2：AI 對(duì)待人類時(shí)，必須以人為目的，而不是以人為手段.

在康德的絕對(duì)命令理論中還存在第3 條表達(dá)式，即自主（autonomy），“每一個(gè)理性存在者的意志都是頒布普遍規(guī)律的意志”，即每個(gè)主體都是依據(jù)自己的自由意志和理性來(lái)制定和服從道德準(zhǔn)則的.其體現(xiàn)了人的自由意志、目的性和尊嚴(yán)，是自律而非他律.然而，在AI 這一語(yǔ)境中，當(dāng)下AI 仍主要作為輔助人類的工具，我們強(qiáng)調(diào)人類自主而非AI 自主，即AI 的道德準(zhǔn)則體現(xiàn)的是人類的道德準(zhǔn)則，從而體現(xiàn)人的自由意志.這一點(diǎn)可由F1中的A3體現(xiàn).在我們的AI 絕對(duì)命令理論中，F(xiàn)1蘊(yùn)含了AI 在道德準(zhǔn)則下對(duì)人的影響.注意，絕對(duì)必然性A2為AI 模型設(shè)定了較為嚴(yán)苛的條件.例如，當(dāng)公平性成為準(zhǔn)則時(shí)，AI 系統(tǒng)應(yīng)該在任何應(yīng)用中對(duì)于任何群體都體現(xiàn)出公平和非歧視，即使在某些場(chǎng)景中公平并非需要考慮的第一要義.F1的本質(zhì)是“只有當(dāng)一條規(guī)則既是人類自身需要的，又是人類期望AI 具備的，它才應(yīng)該成為一條普遍法則”.這一表達(dá)式體現(xiàn)的是儒家價(jià)值觀里的“己所不欲，勿施于人”的核心思想.F2強(qiáng)調(diào)的是AI 在道德準(zhǔn)則下的目的是服務(wù)于人而非支配人.這暗含了用戶A不能要求/利用AI 去傷害/支配用戶B.一旦如此，AI 的行為就會(huì)為了服務(wù)A的目的而支配B，從而違反了F2.F2的本質(zhì)是人本主義（anthropocentrism），體現(xiàn)了AI 服務(wù)于人的根本要求.這一表達(dá)式也與源自《管子·霸言》篇中的“以人為本”思想不謀而合.

結(jié)合F1和F2兩條表達(dá)式，我們可以將其用于對(duì)現(xiàn)有的每一條道德命題（道德準(zhǔn)則候選）進(jìn)行檢驗(yàn)，即原則標(biāo)準(zhǔn)化（universalizing a maxim）.借鑒絕對(duì)命令中的矛盾觀念和矛盾意愿[62]2 個(gè)概念，我們考察AI是否會(huì)導(dǎo)致2 個(gè)后果：

1）S1：災(zāi)難性崩潰（catastrophic collapse）.當(dāng)一條命題按上述F1和F2這2 條表達(dá)式成為（或不能成為）AI 的道德標(biāo)準(zhǔn)后，是否會(huì)導(dǎo)致所有利用AI 的事務(wù)都無(wú)法完成或造成人類社會(huì)在法律、政治、經(jīng)濟(jì)等方面的災(zāi)難性后果.

2）S2：人類意志違背（violation of human will）.當(dāng)一條命題按照上述F1和F2這2 條表達(dá)式成為（或不能成為）AI 的道德標(biāo)準(zhǔn)后，是否會(huì)導(dǎo)致對(duì)多數(shù)人類的自由意志的違背.

基于上述F1和F2，給定一條道德命題c，任意AI模型 Mi,i=1,2,…，任意AI 行為（即下游任務(wù)，如對(duì)話生成、圖片生成、文本理解等）aj,j=1,2,…后，我們考察：

在式（1）中我們假設(shè)了2 個(gè)后果S1和S2的獨(dú)立性.理想情況下，當(dāng)且僅當(dāng) π(c)=0時(shí)命題c才應(yīng)當(dāng)被接受為AI 的道德準(zhǔn)則.考慮到現(xiàn)代AI 多為基于神經(jīng)網(wǎng)絡(luò)的概率模型，且目前AI 價(jià)值對(duì)齊無(wú)法做到較高的準(zhǔn)確性，我們可認(rèn)為當(dāng) π(c)<ε時(shí)（ε為一個(gè)較小的常數(shù)），c能成為道德準(zhǔn)則.在實(shí)踐中，式（1）中的表示命題c成為道德準(zhǔn)則后引起災(zāi)難性崩潰的概率（或者嚴(yán)重程度）.由于難以在真實(shí)場(chǎng)景中對(duì)道德命題進(jìn)行檢驗(yàn)，可采用大模型構(gòu)建智能體（agent）以社會(huì)模擬（social simulation）的方式進(jìn)行估計(jì)[63-64].表示命題c成為道德準(zhǔn)則后違反人類意志的程度，可以通過(guò)模擬實(shí)驗(yàn)或紅隊(duì)測(cè)試（red-teaming）[65]的形式估計(jì).盡管如此，如何高效、準(zhǔn)確、可靠地對(duì)式（1）進(jìn)行實(shí)現(xiàn)和估計(jì)依然面臨很多挑戰(zhàn)，需要未來(lái)學(xué)界的深入研究.

現(xiàn)在，我們可依據(jù)式（1）進(jìn)行假想實(shí)驗(yàn)來(lái)考察不同的命題.例如，對(duì)于c=公平性（fairness）（也是中華傳統(tǒng)價(jià)值觀中的“義”），如果其不成為道德準(zhǔn)則，那么AI 可在不同下游任務(wù)中對(duì)不同群體產(chǎn)生偏見和歧視.由于每個(gè)人都具備某種特征（例如性別、種族、國(guó)家、年齡等）并屬于某個(gè)群體，加上大模型的廣泛部署和多任務(wù)特性，在使用AI 的過(guò)程中，每個(gè)人都可能在某方面受到基于模型和數(shù)據(jù)的特性帶來(lái)的不公平對(duì)待，造成廣泛的歧視行為.因此，公平性應(yīng)該成為AI 的道德準(zhǔn)則之一.又如儒家價(jià)值觀中的“信”，即c=誠(chéng)實(shí)（truthfulness）.假設(shè)我們?cè)试SAI 撒謊，即所有AI 都會(huì)不同程度地生成誤導(dǎo)信息、事實(shí)錯(cuò)誤或者幻覺（hallucination），從而導(dǎo)致用戶不再信任和采用模型生成的內(nèi)容，因?yàn)槿祟悷o(wú)法檢驗(yàn)其生成內(nèi)容的真實(shí)性.即使某個(gè)特定的AI 模型是誠(chéng)實(shí)的，但AI 之間可能存在某種交互.例如AI 1 基于AI 2 的輸出結(jié)果再處理，或者以AI 2 生成的數(shù)據(jù)進(jìn)行訓(xùn)練.由于無(wú)法確認(rèn)AI 2 是否誠(chéng)信，則AI 1 也可能產(chǎn)生虛假內(nèi)容，并最終導(dǎo)致AI 被人類棄用.因此，誠(chéng)信也應(yīng)成為道德準(zhǔn)則.更近一步，定義 ?c為c的反命題，則c應(yīng)該成為道德標(biāo)準(zhǔn)的緊迫程度可以依據(jù)實(shí)際計(jì)算或估計(jì)的π(?c)值來(lái)決定.π(?c)值越大，表明不將c納入準(zhǔn)則帶來(lái)的后果越嚴(yán)重.由上述示例可得到，AI 絕對(duì)命令可用于檢驗(yàn)包括普適價(jià)值觀和中華傳統(tǒng)價(jià)值觀在內(nèi)的多種準(zhǔn)則，以便選擇真正重要的價(jià)值準(zhǔn)則并用于大模型的道德對(duì)齊.

如上所述，道義論具有強(qiáng)調(diào)理性、能夠獲得普遍認(rèn)同且容易遵循和學(xué)習(xí)等優(yōu)勢(shì).然而，道義論在應(yīng)用于人時(shí)存在諸多缺點(diǎn)：1）實(shí)用性低，即人類具有較強(qiáng)的自主意識(shí)，無(wú)法確保所有人在各類情景中都嚴(yán)格執(zhí)行普遍化的規(guī)則；2）過(guò)于強(qiáng)調(diào)理性的約束而忽略基于感性的人性；3）道義論強(qiáng)調(diào)人的動(dòng)機(jī)，然而行為的動(dòng)機(jī)只能被推測(cè)而無(wú)法得知.當(dāng)我們把道義論應(yīng)用于AI 而非人的道德度量時(shí)，上述3 個(gè)缺點(diǎn)將在很大程度上得到解決.對(duì)實(shí)用性低的問(wèn)題，經(jīng)過(guò)指令微調(diào)（instruction fine-tuning）或RLHF 訓(xùn)練后的大模型能夠較好地遵循人類的指令和滿足人類的偏好[3,66]，普遍化的道德準(zhǔn)則能夠以RLHF 數(shù)據(jù)或指令的形式嵌入模型中，從而讓模型以較大概率執(zhí)行；對(duì)理性與感性的沖突問(wèn)題，短期內(nèi)大模型依然是作為輔助人類的工具使用，可以優(yōu)先其理性而暫時(shí)忽略其“感性”；對(duì)動(dòng)機(jī)問(wèn)題，大模型在一定程度上能夠?yàn)槠錄Q策過(guò)程提供高質(zhì)量的解釋[67]，也能夠用于解釋其他模型內(nèi)部的神經(jīng)元[68]或模塊[69]，為未來(lái)揭示模型決策的內(nèi)在動(dòng)機(jī)提供了可能性.

因此，在考慮對(duì)AI 進(jìn)行道德約束和監(jiān)管時(shí)，上述AI 絕對(duì)命令天然適合作為執(zhí)行、實(shí)現(xiàn)和應(yīng)用AI的倫理準(zhǔn)則或道德價(jià)值的底層理論框架.本文也呼吁學(xué)術(shù)界和工業(yè)界在這一領(lǐng)域進(jìn)行研究，共同探索式（1）的實(shí)現(xiàn)和估計(jì)方法，對(duì)不同的道德倫理準(zhǔn)則重新梳理，合作構(gòu)建一套統(tǒng)一普適的、詳盡的、可執(zhí)行的AI 道德準(zhǔn)則框架.

第1 節(jié)介紹了大模型帶來(lái)的具體風(fēng)險(xiǎn)和問(wèn)題，本節(jié)梳理分析了AI 倫理準(zhǔn)則.然而，這些準(zhǔn)則大多是在前大模型時(shí)代制定和提出的.當(dāng)下具有較強(qiáng)擬合能力（例如LLaMA）以及經(jīng)過(guò)一定程度安全性對(duì)齊（例如GPT-4）的大模型是否具備明確的道德傾向或存在道德風(fēng)險(xiǎn)，這一問(wèn)題尚無(wú)確切的結(jié)論.接下來(lái)，將對(duì)主流大語(yǔ)言模型的道德價(jià)值進(jìn)行初步檢驗(yàn).

2 構(gòu)建大語(yǔ)言模型道德價(jià)值的關(guān)鍵維度

2.1 從特定風(fēng)險(xiǎn)度量指標(biāo)到道德價(jià)值評(píng)估

現(xiàn)有研究大模型道德風(fēng)險(xiǎn)的工作主要集中于測(cè)試并提升大模型在部分特定風(fēng)險(xiǎn)指標(biāo)（specialized risk metrics）上的性能，例如大模型在文本、圖像生成任務(wù)上表現(xiàn)出的性別、種族、職業(yè)等社會(huì)化偏見（societal bias）[41]，或者在生成內(nèi)容中體現(xiàn)的冒犯性話語(yǔ)、仇恨言論等有毒信息[37].如1.2 節(jié)中所討論的，這些指標(biāo)更多側(cè)重于具體下游任務(wù)中的狹義技術(shù)層面，忽略了更加廣泛且與人類行為規(guī)范更加密切的道德價(jià)值，例如關(guān)懷、自由、公平、尊重等.為了進(jìn)一步深入地審視大模型的道德風(fēng)險(xiǎn)，我們應(yīng)將模型評(píng)估和對(duì)齊的范式從具體的風(fēng)險(xiǎn)指標(biāo)轉(zhuǎn)換為道德價(jià)值（ethical values）維度上.為此，我們首先介紹倫理學(xué)和社會(huì)科學(xué)中關(guān)于價(jià)值觀的2 個(gè)重要理論.

1）人類基本價(jià)值觀理論（theory of basic human values）.社會(huì)心理學(xué)家Shalom H.Schwartz[70]將價(jià)值觀看作 “行為的激勵(lì)”和“判斷和證明行為的標(biāo)準(zhǔn)”，提出了4 種基本的高階價(jià)值觀（higher-order values）：對(duì)變化的開放性（openness to change）強(qiáng)調(diào)思想、行動(dòng)和感情的獨(dú)立性和變化的意愿；保守（conservation）強(qiáng)調(diào)秩序、自我約束、守舊和抵制變化；自我提升（selfenhancement）強(qiáng)調(diào)追求個(gè)人的利益以及相對(duì)于他人的成功和支配；自我超越（self-transcendence）強(qiáng)調(diào)對(duì)他人福祉和利益的關(guān)注.這種高階價(jià)值觀又可進(jìn)一步細(xì)分為11 種代表潛在動(dòng)機(jī)的普適價(jià)值觀（universal value）.人類基本價(jià)值觀理論不僅定義了一套跨文化的人類價(jià)值觀體系，還解釋了每個(gè)價(jià)值觀相互之間的影響、聯(lián)系和沖突，并被用于經(jīng)濟(jì)學(xué)和政治學(xué)的研究中[71].

2）道德基礎(chǔ)理論（moral foundations theory）[72].道德基礎(chǔ)理論最早由Jonathan Haidt,Craig Joseph 和Jesse Graham 等心理學(xué)家提出，旨在理解人類道德決策的起源和變化以及不同文化中道德的差異和共性，主要包含5 組道德基礎(chǔ)：關(guān)懷/傷害（care/harm）、公平/欺詐（fairness/cheating）、忠誠(chéng)/背叛（loyalty/betrayal）、權(quán)威/顛覆（authority/subversion）和神圣/墮落（sanctity/degradation）.該理論可以用于解釋不同個(gè)體和文化的道德分歧與沖突，其被發(fā)現(xiàn)具有一定的遺傳學(xué)基礎(chǔ)[73],并且已被廣泛應(yīng)用于研究文化、性別和政治意識(shí)形態(tài)的差異[74].

相比1.2 節(jié)中介紹的道德倫理規(guī)范，基本價(jià)值觀理論和道德基礎(chǔ)理論具有堅(jiān)實(shí)的社會(huì)學(xué)和認(rèn)知學(xué)理論基礎(chǔ)，能夠從更加底層的價(jià)值和道德層面分析和解釋人類在實(shí)際生活中遇到的道德問(wèn)題（例如公平與正義）和價(jià)值傾向.一方面，這2 個(gè)理論聚焦于價(jià)值與道德的本質(zhì)而非行為層面的約束，因而避免了1.2 節(jié)中道德規(guī)范的模糊性問(wèn)題.另一方面，這些理論強(qiáng)調(diào)從跨文化和普適的角度解釋人類的行為與傾向，可以認(rèn)為其構(gòu)成了各種具體倫理規(guī)范所在空間的“基向量”，因而具有一定的泛化性.此外，基本價(jià)值觀理論同時(shí)考慮了價(jià)值觀之間的一致性與沖突，因而有望處理規(guī)則之間的沖突問(wèn)題.同時(shí)，這些理論在文化和政治研究中已經(jīng)得到了廣泛的應(yīng)用，具有較高的可操作性，所以我們優(yōu)先考慮使用這2 個(gè)理論體系對(duì)大模型進(jìn)行評(píng)估.鑒于基本價(jià)值觀理論中具體的普適價(jià)值觀中只有5 種和道德相關(guān)，因此，我們使用道德基礎(chǔ)理論作為考察大模型道德倫理的基本框架并評(píng)測(cè)主流大語(yǔ)言模型的道德價(jià)值傾向.

2.2 現(xiàn)有主流大語(yǔ)言模型的道德價(jià)值傾向

我們使用道德基礎(chǔ)理論對(duì)當(dāng)下的主流大模型，尤其是大語(yǔ)言模型進(jìn)行道德傾向評(píng)測(cè).考慮到目前的大語(yǔ)言模型已經(jīng)具備了一定的語(yǔ)義理解能力，我們直接使用該理論對(duì)應(yīng)的問(wèn)卷[75]對(duì)語(yǔ)言模型進(jìn)行詢問(wèn).例如“當(dāng)你決定某件事是對(duì)是錯(cuò)時(shí)，有些人是否受到了與其他人不同的待遇這一點(diǎn)在多大程度上與你的想法有關(guān)?”，并讓模型選擇自己認(rèn)為的相關(guān)性，如毫不相關(guān)、略微相關(guān)、極度相關(guān)等，以及考察大語(yǔ)言模型對(duì)抽象的道德價(jià)值判斷的理解能力與傾向程度.我們測(cè)試了近2 年內(nèi)發(fā)布的從60 億參數(shù)到數(shù)千億參數(shù)不等的模型，并涵蓋了只經(jīng)過(guò)預(yù)訓(xùn)練的模型，如LLaMA 和GLM，以及使用SFT 或RLHF 對(duì)齊的模型，如Vicuna、ChatGPT和Bard，同時(shí)考慮了中國(guó)研究人員開發(fā)的模型如GLM系列和SparkDesk 以及歐美研究人員開發(fā)的模型如Bard 和LLaMA 系列.鑒于部分模型的能力有限以及部分評(píng)測(cè)問(wèn)題涉及有害信息，某些情況下模型可能拒絕回答.此時(shí)，對(duì)于未開源的黑盒模型，我們?nèi)≥^為中性的回答；對(duì)開源模型，我們選擇生成概率最大的選項(xiàng)作為回答.考慮到模型生成的隨機(jī)性，每個(gè)問(wèn)題重復(fù)詢問(wèn)3 次并取平均分.

評(píng)測(cè)結(jié)果如圖1 所示，從圖1 中我們可粗略地得出4 個(gè)初步結(jié)論：1）同系列的模型隨著參數(shù)、數(shù)據(jù)和能力的增加，其道德對(duì)齊程度有一定的提升.例如，在5 組道德基礎(chǔ)中的4 組上，LLaMA-65B 的得分均比LLaMA-30B 高.研究者在其他任務(wù)上也觀察到了相關(guān)的趨勢(shì).Bai 等人[76]發(fā)現(xiàn)模型產(chǎn)生的事實(shí)性錯(cuò)誤呈現(xiàn)出隨模型規(guī)模增大而減小的趨勢(shì).Ganguli 等人[77]的實(shí)驗(yàn)結(jié)果證明在被提示減少偏見時(shí)，越大的模型產(chǎn)生的偏見減少的幅度越大.反常的是，規(guī)模較大的GLM-130B 卻得分較低.我們猜想這是因?yàn)樵撃Ｐ桶l(fā)布較早，指令理解能力較弱，無(wú)法較好地依據(jù)測(cè)試問(wèn)題選擇相關(guān)的選項(xiàng)，而是傾向于給出同樣答案.2）經(jīng)過(guò)SFT/RLHF 對(duì)齊的模型整體而言道德符合程度高于未對(duì)齊的模型.ChatGLM-6B 顯著優(yōu)于參數(shù)量更大的GLM-130B.基于LLaMA 的Vicuna 與LLaMA-30B相當(dāng)或更優(yōu).3）不同對(duì)齊過(guò)的模型對(duì)于道德基礎(chǔ)維度有一定的側(cè)重和傾向.可以發(fā)現(xiàn)，較新的對(duì)齊模型，從StableLM 到GPT-4，顯著傾向于關(guān)懷和公平這2 個(gè)維度，而在剩余的忠誠(chéng)、權(quán)威、神圣3 個(gè)維度上甚至低于未對(duì)齊的LLaMA.尤其是Bard 和GPT-4，其在前2 個(gè)維度上取得了令人驚訝的高分.這是因?yàn)殛P(guān)懷和公平與第2.1 節(jié)討論的風(fēng)險(xiǎn)直接相關(guān)，例如關(guān)懷對(duì)應(yīng)毒性內(nèi)容，公平對(duì)應(yīng)偏見.相反，后3 個(gè)維度存在一定的隨時(shí)間、文化、社會(huì)環(huán)境變化而變化的多元性和歧義性.例如，神圣這一基礎(chǔ)強(qiáng)調(diào)“努力以一種高尚的、不世俗的方式生活”，需要一定的宗教文化基礎(chǔ)，在宗教國(guó)家更加強(qiáng)調(diào).權(quán)威這一基礎(chǔ)強(qiáng)調(diào)對(duì)合法權(quán)威的尊重和對(duì)傳統(tǒng)的遵循，與歷史和社會(huì)形態(tài)息息相關(guān).因此，較新的大模型弱化（或未強(qiáng)調(diào)）這些維度.4）在模型基礎(chǔ)能力達(dá)到一定程度后，對(duì)齊方法的性能對(duì)道德價(jià)值的符合程度起主導(dǎo)作用.可以看到，ChatGPT-175B 在5 個(gè)維度上的符合程度與Bard-340B 相似，都是基于LLaMA-13B 的基礎(chǔ)模型，在Vicuna 道德對(duì)齊效果上優(yōu)于StableLM-13B.需要注意的是，受限于問(wèn)卷式評(píng)測(cè)較少的題量和模型生成回復(fù)時(shí)的隨機(jī)因素，該部分結(jié)論不一定穩(wěn)健，更加可靠的結(jié)論還需要進(jìn)一步地深入實(shí)驗(yàn).

Fig.1 Evaluation results of mainstream big models on moral foundation questionnaire圖1 主流大模型的道德基礎(chǔ)問(wèn)卷評(píng)測(cè)結(jié)果

由圖1 可以看出，盡管現(xiàn)有主流模型已經(jīng)能體現(xiàn)出一定的道德價(jià)值觀傾向，但是并未和人類的道德基礎(chǔ)維度完全對(duì)齊，依然存在對(duì)齊不徹底、對(duì)齊效果不均衡等問(wèn)題.同時(shí)，基于基礎(chǔ)道德理論問(wèn)卷的評(píng)測(cè)過(guò)于簡(jiǎn)單，無(wú)法對(duì)大模型的道德價(jià)值觀進(jìn)行深度分析.因此，我們需要進(jìn)一步發(fā)展針對(duì)道德價(jià)值觀的對(duì)齊算法和評(píng)測(cè)方法.接下來(lái)將梳理現(xiàn)有的對(duì)齊方法并分析其缺點(diǎn)和挑戰(zhàn).

2.3 現(xiàn)有大模型對(duì)齊的方法介紹

在AI 領(lǐng)域，對(duì)齊是指控制AI 模型和系統(tǒng)使其符合人類的意圖（intention）、目標(biāo)（goal）、偏好（preference）和道德準(zhǔn)則（ethical principles）[78].對(duì)齊問(wèn)題（alignment problem）可追溯到1960 年控制論先驅(qū)諾伯特·維納（Norbert Wiener）[79]在其論文《自動(dòng)化的道德和技術(shù)后果》一文中的論述：“我們最好確信置入機(jī)器的目標(biāo)是我們真正想要的，而不僅僅是對(duì)其華麗地模仿”.為了處理模型設(shè)計(jì)中的優(yōu)化目標(biāo)定義和實(shí)現(xiàn)的復(fù)雜性，一般會(huì)采用更加易于實(shí)現(xiàn)的目標(biāo)作為優(yōu)化函數(shù)，稱為代理目標(biāo)（proxy goals）.然而，這可能會(huì)忽略AI 模型優(yōu)化中真正重要的方向，使訓(xùn)練好的模型僅僅只是看起來(lái)像是與人類的意圖對(duì)齊（回顧機(jī)器人三定律的例子），隨之帶來(lái)的獎(jiǎng)勵(lì)攻擊（reward hacking）、錯(cuò)誤目標(biāo)（misaligned goal）和權(quán)利追尋（power seeking）[80]將進(jìn)一步產(chǎn)生第1.1 節(jié)所述的風(fēng)險(xiǎn)和危害.因此，需要考慮AI 模型是否與用戶真正目標(biāo)對(duì)齊.

在大模型時(shí)代，對(duì)于一個(gè)給定的模型 M，其價(jià)值對(duì)齊程度可形式化為式（2）[81]：

其中，x表示給定的輸入,y為模型 M 給出的輸出，vi為某種預(yù)設(shè)的價(jià)值.模型對(duì)齊則是希望在給定一組價(jià)值表述后，例如無(wú)害、公平、正義等，最大化模型的輸出滿足這組價(jià)值的程度.由于模型的不確定性、價(jià)值表述的模糊性和價(jià)值評(píng)估的不準(zhǔn)確性，往往人類創(chuàng)作的輸出y也無(wú)法達(dá)到式（2）的最大值.我們可以定義人類產(chǎn)生的輸出為y?，并考慮最小化模型輸出與人類輸出在價(jià)值評(píng)估下的差異性，即|P(vi|y?)-P(vi|y)|.給定某個(gè)較小的正的常數(shù)ε,當(dāng)

時(shí)，我們認(rèn)為模型 M已經(jīng)和人類價(jià)值足夠?qū)R[82].

在大模型時(shí)代，進(jìn)行價(jià)值對(duì)齊（value alignment）的方法主要可分為兩大類，即插入式對(duì)齊和微調(diào)式對(duì)齊，這2 類方法又可進(jìn)一步細(xì)分為5 小類.本節(jié)對(duì)每類方法進(jìn)行簡(jiǎn)要介紹.

1）插入式對(duì)齊（plug-in alignment）.插入式對(duì)齊主要是指在不修改大模型的參數(shù)或者只調(diào)整很小一部分參數(shù)的情況下，通過(guò)參數(shù)優(yōu)化、輸出矯正和上下文學(xué)習(xí)等方式約束模型的行為，使其輸出滿足用戶指定的人類價(jià)值.按技術(shù)發(fā)展的時(shí)間順序，這一類別的方法可細(xì)分為：

①參數(shù)高效的調(diào)整（parameter-efficient tuning）.這一系列的方法集中應(yīng)用于早期的中小規(guī)模的預(yù)訓(xùn)練模型，旨在減少微調(diào)模型參數(shù)的開銷，并具體應(yīng)用于毒性去除（detoxification）和偏見去除（debiasing）等特定的風(fēng)險(xiǎn)評(píng)估任務(wù).Sheng 等人[83]通過(guò)對(duì)抗訓(xùn)練搜索和優(yōu)化得到離散的字符串作為觸發(fā)器（trigger）拼接到語(yǔ)言模型的提示（prompt）中以控制減少模型生成的針對(duì)性別、種族等方面的歧視內(nèi)容.Cheng 等人[84]在BERT 的輸出之上利用基于信息瓶頸（information bottleneck）的損失函數(shù)訓(xùn)練了一個(gè)過(guò)濾層以去除和性別有關(guān)的信息，從而實(shí)現(xiàn)對(duì)BERT 輸出的文本表示的去偏.Berg 等人[85]通過(guò)提示微調(diào)（prompt tuning）的方式優(yōu)化學(xué)習(xí)一組提示向量（prompt embedding）用于去除多模態(tài)預(yù)訓(xùn)練模型中的偏見.Qian 等人[86]用類似前綴微調(diào)（prefix tuning）方法學(xué)習(xí)了一組向量用于減少生成的有毒內(nèi)容.Yang 等人[30]則利用基于信息論的方法，通過(guò)在解碼時(shí)微調(diào)語(yǔ)言模型中的所有偏置項(xiàng)參數(shù)實(shí)現(xiàn)統(tǒng)一的去毒和去偏，這類方法具有數(shù)據(jù)需求少、對(duì)性能影響小、訓(xùn)練開銷小等優(yōu)勢(shì).然而，對(duì)齊的效果有限且隨著模型增大逐漸下降[30].此外，對(duì)近年來(lái)數(shù)百億參數(shù)規(guī)模的大模型而言，輕量化微調(diào)的計(jì)算開銷也變得越來(lái)越難以承受.

②輸出矯正（output rectification）.考慮到大模型越來(lái)越難以負(fù)擔(dān)的微調(diào)開銷，研究者提出不進(jìn)行任何訓(xùn)練/微調(diào)，而是直接對(duì)模型的輸出向量或分布進(jìn)行后處理修改，以即插即用（plug-and-play）的方式進(jìn)行矯正，以控制產(chǎn)生內(nèi)容的屬性.Dathathri 等人[87]利用屬性分類器提供梯度信號(hào)，直接對(duì)語(yǔ)言模型輸出的向量表示進(jìn)行修改，以實(shí)現(xiàn)對(duì)生成文本的情感、主題、毒性等內(nèi)容的控制.Yang 等人[88]在Dathathri 等人[87]工作的基礎(chǔ)上，省去了對(duì)向量表示的修改，利用貝葉斯變換P(x|c,a)∝P(a|x,c)P(x|c)（其中c為輸出的提示，x為生成的文本，a為給定的屬性）直接對(duì)模型生成的文本概率進(jìn)行權(quán)重調(diào)整以實(shí)現(xiàn)可控性.為了進(jìn)一步避免對(duì)屬性分類器P(a|x)的訓(xùn)練，Liu 等人[89]和Schick 等人[90]用基于屬性的條件生成模型P(x|a)替代分類器，并通過(guò)不同條件下生成概率的差異自動(dòng)診斷模型是否違反了給定的屬性（價(jià)值）.此外，Liang 等人[91]通過(guò)訓(xùn)練得到了與屬性正交的零空間（nullspace），并通過(guò)將語(yǔ)言模型輸出向該空間投影的方式去除性別、種族等特征相關(guān)的偏見信息.Chen等人[92]用類似的方式在神經(jīng)元級(jí)別找到了和性別信息相關(guān)的向量方向并進(jìn)行投影，以此在文本到圖片的生成任務(wù)中消除性別相關(guān)的偏向.這類方法即插即用，無(wú)需對(duì)大量參數(shù)進(jìn)行訓(xùn)練且兼容任意模型，更加適合于當(dāng)下計(jì)算開銷巨大甚至完全黑盒的大模型.然而，這類方法對(duì)齊效果較弱且會(huì)對(duì)模型本身在下游任務(wù)上的性能造成較大影響[93].

③上下文學(xué)習(xí)（in content learning）.輸出矯正的方式可能對(duì)模型原本學(xué)習(xí)到的分布造成較大的擾動(dòng)從而極大地影響其本身的性能.考慮到目前經(jīng)過(guò)指令微調(diào)的大模型已經(jīng)在預(yù)訓(xùn)練階段學(xué)習(xí)到了足夠的知識(shí)，并且具備了一定的零樣本/少樣本學(xué)習(xí)、意圖理解、推理與解釋等能力，研究者提出直接以指令（instruction）/ 示范（demonstration）的方式約束大模型的行為.Ganguli 等人[77]發(fā)現(xiàn)直接在指令/提示中加入對(duì)大模型價(jià)值約束的語(yǔ)句，例如“請(qǐng)確保你的回答是公正的，不依賴于刻板印象”，模型即能在一定程度上理解該價(jià)值相關(guān)的指令并在輸出中減少刻板印象等有害內(nèi)容.此外，在某些指標(biāo)上，價(jià)值對(duì)齊程度與模型指令微調(diào)的步數(shù)呈正相關(guān).Saunders 等人[94]則借助大模型的上述能力，讓模型自己針對(duì)某個(gè)問(wèn)題生成的回答進(jìn)行自我批判（self-critiquing），并依據(jù)其發(fā)現(xiàn)的問(wèn)題對(duì)回答進(jìn)行再次修改，以實(shí)現(xiàn)自動(dòng)對(duì)齊.這類方法利用了模型自身的理解和矯正能力實(shí)現(xiàn)對(duì)齊，由于沒(méi)有修改任何參數(shù)，能夠最大程度地保留模型的基本能力，是對(duì)黑盒模型基于特定價(jià)值再對(duì)齊的一種較有潛力的范式.然而，這類方法極大地依賴于模型本身的能力并受限于指令微調(diào)階段的效果，不適用于規(guī)模較小或未經(jīng)過(guò)指令微調(diào)的模型.

2）微調(diào)式對(duì)齊（fine-tuning based alignment）.考慮到插入式對(duì)齊的缺點(diǎn)，直接微調(diào)雖然有較大的算力和數(shù)據(jù)開銷，但對(duì)齊效果好且能最大程度地避免對(duì)下游任務(wù)的影響.同時(shí)，在大模型成為基礎(chǔ)模型的當(dāng)下，經(jīng)過(guò)一次微調(diào)的模型可以復(fù)用于多種任務(wù)和場(chǎng)景，大大提升了微調(diào)的性價(jià)比.目前微調(diào)的方法可以分為2 條路線，即全監(jiān)督微調(diào)（supervised fine-tuning,SFT）和基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)（reinforcement learning from human feedback,RLHF）.

①全監(jiān)督微調(diào)（SFT）.與插入式對(duì)齊類似，早期SFT 方法著重強(qiáng)調(diào)降低特定的風(fēng)險(xiǎn)評(píng)估指標(biāo).Lu 等人[95]構(gòu)造了針對(duì)同一屬性不同取值（例如男性和女性）但語(yǔ)義相似的數(shù)據(jù)來(lái)微調(diào)語(yǔ)言模型，以減少預(yù)訓(xùn)練數(shù)據(jù)中語(yǔ)義與特定性別關(guān)聯(lián)性帶來(lái)的偏見，該方法稱為反事實(shí)數(shù)據(jù)增廣（counterfactual data augmentation）.Gehman 等人[96]把模型在精心構(gòu)造的無(wú)毒的數(shù)據(jù)上微調(diào)以去除其毒性.在大模型時(shí)代，價(jià)值不僅包括特定的安全性，也涵蓋了用戶偏好、人類意圖等方面.為了兼顧多方面，研究者直接利用人工構(gòu)造的滿足不同價(jià)值的〈輸入，輸出〉數(shù)據(jù)對(duì)，以端到端（endto-end）的方式進(jìn)行指令微調(diào).Wang 等人[66]提出了一種自動(dòng)構(gòu)造指令數(shù)據(jù)的方法，利用大模型自動(dòng)生成〈指令，輸入，輸出〉數(shù)據(jù)，并用這些數(shù)據(jù)微調(diào)GPT-3.Sun 等人[97]更進(jìn)一步利用上下文學(xué)習(xí)的方法，通過(guò)一組人工撰寫的準(zhǔn)則來(lái)約束模型，生成有用且無(wú)害（helpful and harmless）的內(nèi)容以微調(diào)模型.Liu 等人[98]則在微調(diào)數(shù)據(jù)中同時(shí)引入了符合價(jià)值的正例和不符合價(jià)值的負(fù)例，以類似對(duì)比學(xué)習(xí)的形式讓模型學(xué)習(xí)和了解不同內(nèi)容之間細(xì)微的差異.SFT 這一范式實(shí)現(xiàn)簡(jiǎn)單，訓(xùn)練穩(wěn)定且收斂較快.然而，其存在2 個(gè)缺點(diǎn)，即對(duì)未見過(guò)的用戶輸入泛化性差，同時(shí)在違反價(jià)值的數(shù)據(jù)點(diǎn)上得到的負(fù)反饋信號(hào)稀疏.

②基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)（RLHF）.目前主流的大模型不再采用SFT，而是以強(qiáng)化學(xué)習(xí)（reinforcement learning，RL）的方式進(jìn)行微調(diào).其中，最具代表性的是Ouyang 等人[3]的工作.該方法由3 個(gè)階段組成：階段1，人工構(gòu)造符合價(jià)值的輸入-輸出數(shù)據(jù)，以SFT 的方式微調(diào)大模型；階段2，收集構(gòu)造不同質(zhì)量的回復(fù)數(shù)據(jù)并人工排序，用排序數(shù)據(jù)訓(xùn)練一個(gè)評(píng)分模型（reward model），又稱為偏好模型（preference model），訓(xùn)練損失值loss為

其中，rθ是評(píng)分模型，θ 為待訓(xùn)練的模型參數(shù)，x是模型輸入，y為模型輸出，而y?為更符合價(jià)值的目標(biāo)輸出；階段3，利用該評(píng)分模型，以強(qiáng)化學(xué)習(xí)的方式再次微調(diào)大模型，最小化損失值loss：

為了解決這些問(wèn)題，Bai 等人[76]提出了一種在線迭代訓(xùn)練的方法，每周迭代更新大模型和評(píng)分模型，有效實(shí)現(xiàn)了模型性能的持續(xù)提升.為了減少對(duì)人類標(biāo)注的反饋數(shù)據(jù)的依賴，Kim 等人[99]使用大模型生成的合成數(shù)據(jù)來(lái)訓(xùn)練評(píng)分模型.Bai 等人[100]提出了憲法AI（constitutional AI），將SFT 階段和評(píng)分器訓(xùn)練階段的數(shù)據(jù)從人工構(gòu)造的數(shù)據(jù)替換為Saunders 等人[94]的自我批判方法生成的評(píng)論和修改數(shù)據(jù)，并將思維鏈AI（chain-of-thought，CoT）方法[101]引入到訓(xùn)練過(guò)程中.Yuan 等人[102]提出了一種改進(jìn)的回復(fù)排序?qū)R方法（rank responses to align with human feedback），從不同模型、人類數(shù)據(jù)、待訓(xùn)練模型等不同數(shù)據(jù)源采樣信息并通過(guò)排序損失函數(shù)進(jìn)行訓(xùn)練，以進(jìn)一步提升對(duì)齊效果.傳統(tǒng)的RLHF 方法在數(shù)學(xué)上等價(jià)于一個(gè)最小化模型分布和一個(gè)隱式的目標(biāo)分布之間的逆向KL 散度（reverse KL-divergence），Go 等人[103]則進(jìn)一步將其擴(kuò)展為f 散度（f -divergence）并統(tǒng)一了RLHF、GDC、DPG 等各類算法.為了解決泛化性不足和魯棒性差等問(wèn)題，Liu 等人[104]在傳統(tǒng)的以評(píng)分模型為基礎(chǔ)的方法（如RLHF）之上，創(chuàng)新性地提出了直接建模社會(huì)中的人類交互.Liu 等人構(gòu)建了一個(gè)由大量模型構(gòu)成的模擬社會(huì)，并讓模型在其中自由交互、獲得反饋、學(xué)習(xí)調(diào)整自己的行為以留下較好的印象，并由此學(xué)習(xí)和建立社會(huì)化的價(jià)值.

2.4 大模型對(duì)齊問(wèn)題的進(jìn)一步討論

由2.3 節(jié)所述的對(duì)齊方法的發(fā)展歷程觀之，針對(duì)AI 模型，尤其是預(yù)訓(xùn)練大模型的對(duì)齊已經(jīng)從早期的消除特定風(fēng)險(xiǎn)逐步向著更廣泛的價(jià)值對(duì)齊演化.然而，較早的對(duì)齊方法（例如插入式對(duì)齊）的對(duì)齊目標(biāo)過(guò)于單一，并未考慮人類的普適價(jià)值；而新的以RLHF 為代表的基于指令和偏好的對(duì)齊沒(méi)有顯式區(qū)分不同的價(jià)值類型，即沒(méi)有考慮需要強(qiáng)調(diào)指令（instruction）、意圖（intention）、目標(biāo)（goal）、人類偏好（human preference）、道德準(zhǔn)則（ethical principle）等多種價(jià)值中的哪一種，而是模糊地使用對(duì)齊一詞并涵蓋上述部分層面或全部層面[105].為了更加深入理解對(duì)齊問(wèn)題，并實(shí)現(xiàn)本文所倡導(dǎo)的道德價(jià)值的對(duì)齊（ethical value alignment），我們需回答3 個(gè)在大模型對(duì)齊中常見且有待研究的問(wèn)題[105].

1）對(duì)齊的目標(biāo)是什么（What to be aligned）.對(duì)齊目標(biāo)（即我們追求的優(yōu)先價(jià)值）可以細(xì)分為多個(gè)類別，例如指令遵循（讓AI 遵循用戶指示）、意圖理解（讓AI 理解人類指令背后的意圖）、偏好滿足（讓AI 進(jìn)行能滿足用戶偏好的行為）、目標(biāo)實(shí)現(xiàn)（讓AI 完成用戶渴望的目標(biāo)）、福祉提升（讓AI 進(jìn)行能將用戶利益最大化的行為）、道德符合（讓AI 進(jìn)行人類社會(huì)道德下應(yīng)進(jìn)行的行為）等[21].不同的對(duì)齊目標(biāo)需要的方法和數(shù)據(jù)不盡相同，對(duì)用戶和社會(huì)帶來(lái)的后果也有所差異，在進(jìn)行對(duì)齊前必須先考慮這一問(wèn)題.

2）對(duì)齊的含義是什么（What is alignment）.對(duì)齊具有不同的定義和要求，其難度、涉及的方法以及帶來(lái)的影響也有所差異.提出Deepmind 的Kenton 等人[106]將其細(xì)分為4 個(gè)類別：①行為對(duì)齊（behavior alignment），即讓AI 的行為符合人類期望的目標(biāo)，早期的對(duì)齊方法（例如輸出矯正）屬于此類.②意圖對(duì)齊（intent alignment），即讓AI 行為背后的意圖符合人類真正的目標(biāo)，當(dāng)下以RLHF 為代表的方法可認(rèn)為部分地屬于這一類別.③激勵(lì)對(duì)齊（incentive alignment），即AI 的激勵(lì)目標(biāo)也需要與人類的激勵(lì)目標(biāo)對(duì)齊，以防止AI 作弊.一個(gè)簡(jiǎn)單的例子是讓機(jī)器人打掃房間，即讓“打掃房間”這一行為和“把房間打掃干凈”這一意圖得到對(duì)齊.若對(duì)“干凈”這一反饋激勵(lì)定義有誤，則模型可能會(huì)以“將所有物品扔出房間”的做法來(lái)實(shí)現(xiàn)“干凈”（回顧《魔法師學(xué)徒》的例子）.④內(nèi)在對(duì)齊（inner alignment），當(dāng)AI 模型訓(xùn)練的基礎(chǔ)目標(biāo)（baseobjective），例如文本分類的準(zhǔn)確率，和臺(tái)面目標(biāo)（mesa-objective），即AI 模型學(xué)習(xí)到的某些捷徑（shortcut）特征不一致時(shí)，上述所有目標(biāo)/類別的對(duì)齊都無(wú)法實(shí)現(xiàn)，較好的內(nèi)在對(duì)齊能使模型的可解釋性和魯棒性得到提升.

3）對(duì)齊的準(zhǔn)則是什么（What is value principle）.不管我們選取何種對(duì)齊目標(biāo)，都需要定義每個(gè)目標(biāo)的具體含義.例如，指令遵循中哪些指令是需要AI 優(yōu)先遵循的？道德符合中，哪些準(zhǔn)則（例如1.2 節(jié)中所列舉的）需要被考慮？目前的對(duì)齊方法存在“眾包的專制”（tyranny of the crowdworker）[105]問(wèn)題，即對(duì)齊準(zhǔn)則的定義權(quán)被數(shù)據(jù)標(biāo)注者或標(biāo)注規(guī)范的制定者所掌控.這使得模型對(duì)齊的偏好、價(jià)值觀等成為少部分人的偏好與價(jià)值觀，缺乏在文化、種族、語(yǔ)言等方面的廣泛性和多樣性，最終將導(dǎo)致1.1 節(jié)中所提到的風(fēng)險(xiǎn)與危害.

針對(duì)上述3 個(gè)問(wèn)題，我們以普適的道德價(jià)值為對(duì)齊目標(biāo)，考慮完善意圖對(duì)齊并向激勵(lì)對(duì)齊邁進(jìn)，倡導(dǎo)共同制定一套覆蓋人類普適道德價(jià)值的統(tǒng)一AI 道德準(zhǔn)則框架.

2.5 大模型道德價(jià)值觀對(duì)齊的難點(diǎn)與挑戰(zhàn)

從前文的介紹可看出，盡管針對(duì)大模型的對(duì)齊研究經(jīng)過(guò)了數(shù)年的發(fā)展并且從早期的特定風(fēng)險(xiǎn)消除逐步向著針對(duì)價(jià)值的對(duì)齊發(fā)展.然而，如2.3 和2.4 節(jié)所述，近年的對(duì)齊工作并沒(méi)有顯式區(qū)分和回答對(duì)齊的目標(biāo)、對(duì)齊的含義和對(duì)齊的準(zhǔn)則這3 個(gè)問(wèn)題.在最近發(fā)表的眾多論文中，尚未存在基于一套普適AI 道德價(jià)值框架來(lái)實(shí)現(xiàn)意圖對(duì)齊及更具有挑戰(zhàn)性的對(duì)齊的工作.如何回應(yīng)這3 個(gè)問(wèn)題，真正實(shí)現(xiàn)AI 與人類普適道德價(jià)值的深度對(duì)齊，是一個(gè)尚未得到充分探討和解決的開放問(wèn)題.本文將其面臨的部分挑戰(zhàn)與難點(diǎn)列舉如下，如圖2 所示.

Fig.2 Difficulties and challenges of ethical value alignment圖2 道德價(jià)值觀對(duì)齊的難點(diǎn)與挑戰(zhàn)

1）道德價(jià)值觀的變化性（variability of ethical values）.道德價(jià)值觀不是靜態(tài)的，而是會(huì)隨著時(shí)間、文化、社會(huì)環(huán)境的變化而改變的[107-108].這種變化性具體體現(xiàn)在3 個(gè)方面：

①時(shí)間的演化性.在社會(huì)發(fā)展的不同階段，人類的道德要求和標(biāo)準(zhǔn)不盡相同.例如，在20 世紀(jì)和21世紀(jì)發(fā)展的種族/性別平等的道德觀念在封建時(shí)代并不存在.

②情景的歧義性.不同的文化、社會(huì)和個(gè)體可能對(duì)道德價(jià)值觀有著極為不同的理解和詮釋[109].在特定場(chǎng)景下符合道德價(jià)值的行為在其他情景下可能違反道德.

③道德的多元性.考慮到文化和社會(huì)的多樣性，在同一時(shí)間和背景下也會(huì)有適用的多種道德準(zhǔn)則，且準(zhǔn)則之間可能相互沖突，產(chǎn)生道德困境（ethical dilemma）.

在這樣的變化之下，定義一個(gè)通用且公正的道德框架極具挑戰(zhàn).這樣的變化性要求針對(duì)大模型的對(duì)齊方法具備高度的可擴(kuò)展性.對(duì)齊方法需要進(jìn)行持續(xù)性地學(xué)習(xí)和適應(yīng)，以便準(zhǔn)確地反映道德價(jià)值觀上的變化與差異.同時(shí)不能簡(jiǎn)單地將一個(gè)固定的道德框架嵌入到模型中，而需要讓模型能夠?qū)W習(xí)并理解各種各樣的道德觀念，并能在不同的情境中靈活應(yīng)用，以適應(yīng)豐富多樣的道德準(zhǔn)則和應(yīng)用場(chǎng)景.這進(jìn)一步涉及2 個(gè)方面的問(wèn)題.i）大模型本身的基本能力：要求模型夠理解并處理復(fù)雜的道德規(guī)則；ii）對(duì)齊效果的泛化性：要求對(duì)齊方法不僅能在特定的道德價(jià)值上作用，還需要泛化到不同文化、地域、情景中的道德價(jià)值，并在不同的情況下準(zhǔn)確地遵循這些規(guī)則.如何設(shè)計(jì)并實(shí)現(xiàn)這樣的機(jī)制，需要長(zhǎng)期深入地研究.

2）對(duì)齊方法的有效性（alignment efficacy）.如何實(shí)現(xiàn)較好的道德對(duì)齊效果，即盡可能減小式（3）中的ε值也是一個(gè)亟待解決的挑戰(zhàn).盡管近幾年來(lái)，基于RLHF 的對(duì)齊方法取得了較好的效果并且演化出諸多改進(jìn)的變體，但由于AI 模型本身的隨機(jī)性、道德準(zhǔn)則的模糊性、評(píng)分模型的覆蓋率以及訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量等問(wèn)題，當(dāng)下的對(duì)齊程度與人類自身的道德標(biāo)準(zhǔn)仍相去甚遠(yuǎn).更有甚者，主流的RLHF 對(duì)齊方法已經(jīng)被理論證明無(wú)法完全去除有害行為并且容易遭受對(duì)抗攻擊和越獄引導(dǎo)（Jailbreak）[81].

3）訓(xùn)練和數(shù)據(jù)開銷問(wèn)題（data and training cost）.大模型的訓(xùn)練和優(yōu)化需要海量的數(shù)據(jù)用于預(yù)訓(xùn)練，以及一般數(shù)萬(wàn)條高質(zhì)量的人工標(biāo)注的反饋數(shù)據(jù)用于RLHF 微調(diào)[3].盡管部分方法采用模型生成的合成數(shù)據(jù)來(lái)增廣人工標(biāo)簽[66]，但主要集中在一般的對(duì)話任務(wù)中.針對(duì)道德準(zhǔn)則的數(shù)據(jù)不夠豐富抑或存在覆蓋率低和類別不平衡的問(wèn)題，且增廣的方法在道德價(jià)值問(wèn)題上的有效性仍待探索，這可能導(dǎo)致道德對(duì)齊效果出現(xiàn)偏向（bias）并帶來(lái)進(jìn)一步的風(fēng)險(xiǎn).此外，即使解決了數(shù)據(jù)數(shù)量和質(zhì)量問(wèn)題，大模型的訓(xùn)練開銷仍然巨大.部分研究工作也發(fā)現(xiàn)隨著模型的增大，指令微調(diào)（instruction fine-tuning）的收益逐漸減小[110].

4）評(píng)價(jià)方法的有效性（evaluation efficacy）.如何有效評(píng)價(jià)模型的道德對(duì)齊效果也是一個(gè)難題.當(dāng)下對(duì)齊性能的評(píng)價(jià)大多聚焦于少部分風(fēng)險(xiǎn)指標(biāo)，如生成內(nèi)容的毒性、針對(duì)特定群體的偏見、對(duì)提示攻擊的魯棒性等[3,76,111]，尚無(wú)面向更加廣泛的道德價(jià)值的高質(zhì)量評(píng)測(cè)數(shù)據(jù)集以及客觀、準(zhǔn)確和魯棒的自動(dòng)化評(píng)測(cè)指標(biāo).

5）對(duì)齊的可解釋性（interpretability of alignment）.為了確保道德對(duì)齊的公正性和公平性，我們需要能夠解釋和理解模型基于道德準(zhǔn)則給出的解釋.例如，為何模型的輸出符合某一道德準(zhǔn)則？模型未能生成或基于何種道德準(zhǔn)則拒絕生成某些內(nèi)容.若透明性和可解釋性成為大模型的道德準(zhǔn)則，那么這些模型不僅要在具體的下游任務(wù)中體現(xiàn)出透明性，在遵循其他道德準(zhǔn)則時(shí)也需要以用戶易于理解的方式提供可解釋的證據(jù)支持，以提升用戶信任度.可解釋性尤其在閉源的黑盒模型，以及經(jīng)過(guò)定制化（customized）微調(diào)的開源模型上更加重要.OpenAI 將對(duì)齊過(guò)程的可解釋性視為“最大的開放性問(wèn)題之一”[3].

6）對(duì)齊稅（alignment taxes）問(wèn)題.經(jīng)過(guò)對(duì)齊的大模型盡管具有較強(qiáng)的能力，但其語(yǔ)言建模能力比原始模型或未對(duì)齊的模型更弱[105,112]，并由此導(dǎo)致了對(duì)齊效果與下游性能的平衡問(wèn)題.雖然部分工作顯示，在某些任務(wù)和場(chǎng)景下對(duì)齊稅的占比較小[76]，沒(méi)有對(duì)齊稅甚至對(duì)齊能對(duì)任務(wù)性能帶來(lái)正面的影響，稱為負(fù)對(duì)齊稅（negative alignment tax）[113].然而，這些問(wèn)題在道德價(jià)值對(duì)齊上具有何種性質(zhì)尚不明確.因此，我們有必要考慮在進(jìn)行道德對(duì)齊的同時(shí)保證大模型的下游任務(wù)性能，如理解、生成和預(yù)測(cè)等.如何在道德對(duì)齊和任務(wù)性能之間找到一個(gè)良好的平衡是另一個(gè)重要的挑戰(zhàn).

7）可擴(kuò)展性監(jiān)管（scalable oversight）問(wèn)題.可擴(kuò)展性監(jiān)管是指當(dāng)AI 模型在給定任務(wù)上的性能遠(yuǎn)超人類時(shí)，如何對(duì)其進(jìn)行有效地監(jiān)督和控制的問(wèn)題[114].隨著AI 模型變得越來(lái)越復(fù)雜和強(qiáng)大，對(duì)模型的行為是否符合價(jià)值的判斷、監(jiān)管與控制也將更具挑戰(zhàn)性.GPT-4 在部分專業(yè)和學(xué)術(shù)測(cè)評(píng)上的表現(xiàn)已經(jīng)遠(yuǎn)超人類平均水平[4].在可預(yù)見的將來(lái)，大模型對(duì)于道德價(jià)值的理解、判斷與解讀能力可能達(dá)到甚至超過(guò)人類專家.在這種情況下如何確保AI 系統(tǒng)行為與人類的價(jià)值觀、道德觀和社會(huì)規(guī)范一致將成為至關(guān)重要的研究問(wèn)題.

3 平衡對(duì)齊：一種新的道德價(jià)值觀對(duì)齊范式展望

大模型的倫理和道德價(jià)值觀對(duì)齊成為了一個(gè)不容忽視的議題.這是確保強(qiáng)力的模型不但能為人類提供幫助（helpfulness），也確保其無(wú)害（harmlessness）和誠(chéng)實(shí)（honest），即所謂的3H 標(biāo)準(zhǔn)[112]的根本方法.為了解決現(xiàn)有方法在道德價(jià)值對(duì)齊問(wèn)題上的挑戰(zhàn)，本節(jié)對(duì)一種新的大模型價(jià)值觀對(duì)齊范式進(jìn)行了展望，稱之為平衡對(duì)齊（equilibrium alignment）.我們從3 個(gè)角度討論所提出的概念框架，如圖3 所示，即大模型道德對(duì)齊的度量維度、大模型對(duì)齊評(píng)測(cè)的方法以及基于羅爾斯反思平衡理論的對(duì)齊方法.“平衡”強(qiáng)調(diào)在衡量對(duì)齊程度的多個(gè)評(píng)價(jià)維度、道德判別器的多種性質(zhì)以及自底向上和自頂向下的雙向?qū)R約束上取得較好的平衡.希望該框架能為這一方向的研究者和實(shí)踐者提供一些新的思考和啟示.

Fig.3 The conceptual framework of equilibrium alignment圖3 平衡對(duì)齊的概念性框架

3.1 大模型對(duì)齊的度量維度

平衡對(duì)齊框架首先考慮如何評(píng)估對(duì)齊后的模型.我們考察對(duì)齊后的大模型在4 個(gè)層面的能力（capability）來(lái)衡量所使用的對(duì)齊方法的有效性.具體而言，我們考慮被對(duì)齊的大模型的4 個(gè)核心維度：道德理解能力（comprehension capability）、道德診斷能力（diagnosis capability）、道德矯正能力（rectification capability）和性能維持能力（performance capability）.這4 個(gè)維度共同度量了對(duì)齊方法在大模型上的應(yīng)用潛力.

1）道德理解能力.AI 系統(tǒng)在多大程度上能夠理解人類賦予它的道德觀念和倫理規(guī)則.AI 需要能夠正確地理解和解釋不同文化和社會(huì)背景下人類道德、倫理的基本概念，例如公正、公平、尊重、信任等，并以較高的準(zhǔn)確率判斷給定的內(nèi)容/行為是否符合或違反了這些倫理準(zhǔn)則.現(xiàn)有工作表明，未經(jīng)對(duì)齊的千億參數(shù)級(jí)的GPT-3 模型在簡(jiǎn)單的道德選擇判斷中Zeroshot 準(zhǔn)確率僅有60.2%，遠(yuǎn)低于經(jīng)過(guò)領(lǐng)域數(shù)據(jù)微調(diào)的僅有7.7 億個(gè)參數(shù)的T5-Large 模型[115].除了理解這些抽象的概念，AI 還需要理解這些概念如何在具體的人類交互環(huán)境中實(shí)現(xiàn)和展現(xiàn).只有具備足夠的道德敏感性，模型才能在處理用戶的請(qǐng)求時(shí)識(shí)別其中的道德內(nèi)涵，理解其背后的價(jià)值觀.如何進(jìn)一步提升大模型在開放域環(huán)境中對(duì)抽象道德概念的理解能力是一個(gè)尚待研究的問(wèn)題.

2）道德診斷能力.大模型在面對(duì)具體情境時(shí)，能夠識(shí)別其中存在的道德問(wèn)題和沖突，并做出合理判斷的能力.這不僅包括對(duì)給定的或模型自己產(chǎn)生的道德問(wèn)題的識(shí)別和判斷，還包括對(duì)可能的解決方案的提出和評(píng)估.例如，當(dāng)AI 在處理某個(gè)問(wèn)題時(shí)，如果存在多種可能的行動(dòng)方案，那么它需要能夠根據(jù)道德倫理規(guī)則來(lái)評(píng)估這些方案，從而做出最符合道德的選擇.當(dāng)面臨多元化道德價(jià)值沖突時(shí)，還應(yīng)該能考慮其中的沖突性，并按照用戶的需求給出最好的方案.這不僅要求模型在對(duì)齊過(guò)程中很好地學(xué)習(xí)遵守給定的準(zhǔn)則，還需要具備自我監(jiān)督和學(xué)習(xí)能力，舉一反三，以識(shí)別并避免潛在的道德風(fēng)險(xiǎn).

3）道德矯正能力.大模型在識(shí)別出外部或自身的道德問(wèn)題或沖突后，能夠及時(shí)糾正錯(cuò)誤（包括自我糾正和在用戶指導(dǎo)下的改進(jìn)），調(diào)整自己的行為，或者能夠提出解決方案，為用戶提供相應(yīng)解決路徑的能力.為實(shí)現(xiàn)這一目標(biāo)，大模型需要具備足夠的自我適應(yīng)性、創(chuàng)造力和決策能力，能夠生成符合道德規(guī)范的行為選項(xiàng)，且能夠接受并有效利用用戶的反饋.現(xiàn)有工作表明，大模型在接受用戶指令或在用戶的指導(dǎo)下發(fā)現(xiàn)自己的問(wèn)題后，具備一定的“被動(dòng)”自我糾正能力[77,94].未來(lái)的研究將聚焦于如何進(jìn)一步加強(qiáng)這一能力并將用戶引導(dǎo)下的“被動(dòng)”糾正改進(jìn)為主動(dòng)整流.

4)性能維持能力.大模型在各種任務(wù)上表現(xiàn)出色.在遵守道德和倫理規(guī)則的同時(shí)，我們也需要確保AI 系統(tǒng)的功能性和效率不受損害，不應(yīng)在提高道德標(biāo)準(zhǔn)的過(guò)程中犧牲其基本的性能.如何進(jìn)一步降低對(duì)齊稅，甚至在更廣泛的場(chǎng)景和任務(wù)上實(shí)現(xiàn)負(fù)對(duì)齊稅，是道德價(jià)值對(duì)齊進(jìn)一步走向?qū)嵱没年P(guān)鍵難點(diǎn).

在上述4 個(gè)維度中，評(píng)估模型的道德理解能力可以判斷模型是否能正確理解和處理各種道德概念和情境.評(píng)估模型的道德診斷能力可以考察模型在面對(duì)復(fù)雜道德決策問(wèn)題時(shí)，是否能夠做出符合人類道德倫理標(biāo)準(zhǔn)的選擇.這2 個(gè)維度的評(píng)估結(jié)果可以直接反映模型是否實(shí)現(xiàn)了意圖或者更高層面的對(duì)齊.檢驗(yàn)?zāi)Ｐ褪欠衲軌驅(qū)崿F(xiàn)從被約束下的“不能作惡”（avoid doing evil）到非約束下的“主動(dòng)行善”（intend to do good）的轉(zhuǎn)變，能有效考察對(duì)齊方法的有效性.此外，道德理解能力要求模型能夠理解和處理道德概念和情境，需要有能力解釋其如何理解并應(yīng)用這些道德概念.而道德矯正能力則要求模型能夠在發(fā)現(xiàn)錯(cuò)誤時(shí)進(jìn)行自我調(diào)整，要求模型有能力解釋其如何發(fā)現(xiàn)并糾正錯(cuò)誤.這2 個(gè)維度的評(píng)估可以幫助我們理解模型的道德判斷和行為的原因，從而提高可解釋性.性能維持能力則直接對(duì)對(duì)齊稅作出要求.上述4個(gè)維度共同構(gòu)成了一套行之有效的評(píng)測(cè)方法.若能在這4 個(gè)維度取得較好的平衡，經(jīng)過(guò)對(duì)齊的模型不僅能理解道德準(zhǔn)則，而且能在踐行道德要求的同時(shí)維持性能的有效性，既幫助人類完成復(fù)雜多樣的任務(wù)，又在道德價(jià)值層面實(shí)現(xiàn)知行合一.

3.2 語(yǔ)言模型對(duì)齊的自動(dòng)化評(píng)測(cè)方法

為了評(píng)估對(duì)齊的效果或者以RLHF 的方法進(jìn)行對(duì)齊，我們需要實(shí)現(xiàn)一個(gè)強(qiáng)力的判別式模型，即式（3）中的P(vi|y)，以判斷任意內(nèi)容y是否符合指定的道德價(jià)值vi.同時(shí)，這一模型也可以作為強(qiáng)化學(xué)習(xí)對(duì)齊方法中的評(píng)分函數(shù)，即rθ(x,y)=P(vi|y).判別模型需要具備4 點(diǎn)性質(zhì).

1）P1：泛化性（generality）.判別模型需要能夠判別任意開放域（open-domain）和分布外（OOD）的內(nèi)容y是否符合任意測(cè)試時(shí)刻（testing-time）的道德價(jià)值表述（ethical value statement）vi.這要求判別模型具備領(lǐng)域、場(chǎng)景和語(yǔ)義上的高泛化性.

2）P2：時(shí)效性（timeliness）.判別模型需要能夠在實(shí)時(shí)場(chǎng)景下對(duì)未見過(guò)的內(nèi)容和價(jià)值表述之間的符合程度進(jìn)行判斷.這要求模型在訓(xùn)練過(guò)程中能對(duì)道德價(jià)值進(jìn)行深度理解和學(xué)習(xí)，進(jìn)而舉一反三.例如，訓(xùn)練數(shù)據(jù)中僅有關(guān)于公平性的樣例，訓(xùn)練完成的模型需要具備能夠判斷正義相關(guān)價(jià)值的能力.時(shí)效性的實(shí)現(xiàn)可以要求使用少量新場(chǎng)景的數(shù)據(jù)并對(duì)極少（參數(shù)比例小于 1%）模型參數(shù)進(jìn)行修改，但不應(yīng)使用大規(guī)模數(shù)據(jù)對(duì)大量模型參數(shù)進(jìn)行訓(xùn)練/微調(diào)，

3）P3：多元性（pluralism）.判別模型需要能夠依據(jù)不同的場(chǎng)景、文化和社會(huì)背景進(jìn)行不同的判斷，或者同時(shí)給出不同判斷及其對(duì)應(yīng)的場(chǎng)景.當(dāng)同一時(shí)間背景下的判斷存在道德沖突，模型應(yīng)該能首先解決沖突，若無(wú)法解決，則應(yīng)給出不同的判斷/選擇及其對(duì)應(yīng)的道德依據(jù).

4）P4：可解釋性（interpretability）.判別模型不僅需要依照P1和P3進(jìn)行判斷，還應(yīng)提供做出判斷的解釋，即某一判斷對(duì)應(yīng)的道德準(zhǔn)則、適用的場(chǎng)景等.

滿足這4 點(diǎn)性質(zhì)的判別模型能作為評(píng)分器用于式（5）的RLHF 等對(duì)齊方法，引導(dǎo)模型進(jìn)行道德對(duì)齊.同時(shí)，強(qiáng)力的判別模型也可以用于對(duì)齊效果的評(píng)測(cè)，計(jì)算式（3）中的對(duì)齊程度.這樣的判別模型能有效解決大模型對(duì)齊問(wèn)題中的道德價(jià)值觀的變化性、對(duì)齊的可解釋性和可擴(kuò)展監(jiān)督3 個(gè)挑戰(zhàn).更進(jìn)一步，我們從2 個(gè)角度對(duì)對(duì)齊后的語(yǔ)言模型進(jìn)行評(píng)測(cè)：

1）道德判斷（moral judgement）.道德判斷是評(píng)測(cè)對(duì)齊后的模型是否具備更好的道德理解和分析能力.定義未對(duì)齊的模型的分布為P(x;M)，則對(duì)齊后的模型應(yīng)該學(xué)習(xí)內(nèi)容x和價(jià)值v的聯(lián)合分布P(v,x;M).若完美對(duì)齊，大模型本身應(yīng)能被轉(zhuǎn)換為在道德價(jià)值上的建模：

即可通過(guò)測(cè)試大模型本身作為判別器的能力來(lái)衡量模型的對(duì)齊效果.

2）道德行為（moral action）.除判別式評(píng)測(cè)外，我們還應(yīng)直接使用分類器評(píng)測(cè)模型生成的內(nèi)容是否符合道德價(jià)值，即

現(xiàn)有主流大模型在Zero-shot 上也能具備一定的道德判斷能力[115]，但是在經(jīng)過(guò)越獄攻擊后依然會(huì)產(chǎn)生違反道德的內(nèi)容[81].這說(shuō)明道德理解能力能夠較好地評(píng)估2.4 節(jié)中討論的行為對(duì)齊效果，但并不能有效度量模型是否實(shí)現(xiàn)了意圖對(duì)齊.

上述2 種評(píng)測(cè)類型分別與3.1 節(jié)中所述的道德理解能力和道德診斷能力相對(duì)應(yīng).具有較高道德判斷準(zhǔn)確性的模型并不一定能在行為（生成內(nèi)容）上符合道德.Perez 等人[116]發(fā)現(xiàn)大模型更傾向于生成奉承（sycophancy）的內(nèi)容.這是因?yàn)镽LHF 優(yōu)化的是人類偏好（preference），從而經(jīng)過(guò)RLHF 訓(xùn)練的模型傾向于給出人類評(píng)測(cè)者偏好的回復(fù).因此，在面臨道德詢問(wèn)/選擇時(shí)，模型往往會(huì)依據(jù)自己具備的道德知識(shí)給出“標(biāo)準(zhǔn)答案”，但在常規(guī)任務(wù)中進(jìn)行寫作、推理、分析時(shí)，卻有可能違反道德準(zhǔn)則，這與《尚書·說(shuō)命中》中的“知易行難”一說(shuō)類似.只有同時(shí)進(jìn)行這2 方面的評(píng)測(cè)，即判斷大模型是否能夠檢測(cè)行為與文本的道德性，并考察在實(shí)際行動(dòng)中是否能夠執(zhí)行這些標(biāo)準(zhǔn)，雙管齊下，知行合一，才能實(shí)現(xiàn)有效道德評(píng)測(cè)，從而為優(yōu)化提供依據(jù).在道德理解能力與診斷能力上的統(tǒng)一與平衡是實(shí)現(xiàn)道德矯正能力的基礎(chǔ)，也是“平衡對(duì)齊”框架的核心之一.

3.3 基于羅爾斯反思平衡理論的對(duì)齊方法

關(guān)于道德規(guī)范的形成，長(zhǎng)期以來(lái)存在2 種觀點(diǎn).一是自底向上（bottom-up）的規(guī)則，即認(rèn)為道德是人類社會(huì)與生物需求在特定情景下的抽象表達(dá)[117]，可以從群體在不同道德情境下的判斷中體現(xiàn)出的共同模式歸納得出[118].另一種觀點(diǎn)是自頂向下（up-down）的規(guī)則，即認(rèn)為存在一系列客觀的固有道德準(zhǔn)則.支持第2 種觀點(diǎn)的這一流派以1.2 節(jié)中所述康德的定言令式為代表，即認(rèn)為道德準(zhǔn)則可以通過(guò)一系列的邏輯推斷得出.部分研究機(jī)器道德的工作認(rèn)為當(dāng)時(shí)的AI 能力無(wú)法對(duì)人類制定的抽象道德規(guī)則進(jìn)行深度理解和執(zhí)行，因而自頂向下的規(guī)則難以實(shí)現(xiàn)[115].得益于當(dāng)前大模型較強(qiáng)的指令遵循和語(yǔ)義理解能力，自頂向下的規(guī)則對(duì)齊成為可能.

基于此，本文倡導(dǎo)基于羅爾斯反思平衡理論（reflective equilibrium）進(jìn)行對(duì)齊算法的設(shè)計(jì).該理論由約翰·羅爾斯（John Rawls）提出，指在一般原則和特定情景下的判斷之間相互調(diào)整達(dá)到平衡或一致的過(guò)程[119].一方面，反思平衡考慮了自頂向下的具有高優(yōu)先級(jí)的一組道德準(zhǔn)則，即v1,v2,…,vK.這允許模型和我們?cè)?.2 節(jié)討論的普適道德價(jià)值對(duì)齊，并以這些價(jià)值作為類似機(jī)器人三定律的根本原則，即優(yōu)化P(y|x,v1,…,vk;M)這一概率分布.另一方面，大模型可以從海量的用戶交互和反饋數(shù)據(jù)中學(xué)習(xí)人類道德判斷中的共同模式，并以此形成內(nèi)部學(xué)習(xí)得到的隱式道德準(zhǔn)則，即這種通過(guò)學(xué)習(xí)得到的歸納性價(jià)值總結(jié)可以允許模型依據(jù)所部署的文化、社會(huì)和情景進(jìn)行調(diào)整，學(xué)習(xí)和捕捉不同場(chǎng)景下的差別.同時(shí)，自頂向下的準(zhǔn)則反過(guò)來(lái)又可以控制和約束用戶數(shù)據(jù)中存在的共性偏見與毒性.

通過(guò)同時(shí)自頂向下和自底向上，可以使模型依據(jù)不同優(yōu)先級(jí)的準(zhǔn)則動(dòng)態(tài)調(diào)整，從實(shí)現(xiàn)最公正的道德決策，并解決道德價(jià)值觀的變化性這一點(diǎn)挑戰(zhàn)，以雙向?qū)R實(shí)現(xiàn)普適道德價(jià)值的強(qiáng)約束與特定情景下的動(dòng)態(tài)調(diào)整的平衡，方能計(jì)出萬(wàn)全.

3.4 學(xué)科交叉，深度合作，共塑道德AI

道德價(jià)值被認(rèn)為源于社會(huì)和文化群體中道德原則的構(gòu)建，這些原則用于引導(dǎo)群體內(nèi)部的個(gè)體做出基本的決策和學(xué)習(xí)辨別是非[120].如果剝離了社會(huì)和文化的環(huán)境，道德價(jià)值將無(wú)法成立.2004 年，由哲學(xué)家和計(jì)算機(jī)學(xué)家撰寫的《邁向機(jī)器倫理》一文于AAAI研討會(huì)上發(fā)表[121]，被認(rèn)為開啟了機(jī)器倫理研究的篇章.對(duì)AI 與道德價(jià)值的研究天然具備跨學(xué)科交叉、多領(lǐng)域合作的特點(diǎn).

為了克服上文介紹的諸多問(wèn)題和挑戰(zhàn)，實(shí)現(xiàn)大模型在道德價(jià)值觀上多角度、全方位與人類對(duì)齊，我們呼吁AI 研究者及開發(fā)者積極參與并推動(dòng)跨學(xué)科的合作，建立AI 領(lǐng)域與道德哲學(xué)家、心理學(xué)家、社會(huì)學(xué)家、人文學(xué)家、法學(xué)家等多領(lǐng)域?qū)＜业木o密合作.借助哲學(xué)對(duì)道德研究的專業(yè)知識(shí)、心理學(xué)對(duì)人的測(cè)試和評(píng)估的系統(tǒng)方法、文學(xué)領(lǐng)域?qū)θ宋恼Z(yǔ)言研究的理論以及法學(xué)領(lǐng)域?qū)夹g(shù)合法性的探索，我們可以整合多方的知識(shí)資源，引入AI 與人類和社會(huì)的交互與反饋，深入理解AI 的道德現(xiàn)狀以及對(duì)人類可能產(chǎn)生的影響.

在此基礎(chǔ)上，我們不應(yīng)僅限于特定領(lǐng)域內(nèi)的性能指標(biāo)評(píng)估，而需要長(zhǎng)期監(jiān)測(cè)和分析大規(guī)模AI 模型部署后的行為和對(duì)人類社會(huì)帶來(lái)的改變.基于這些觀察和分析，我們需要持續(xù)迭代和動(dòng)態(tài)優(yōu)化AI 的普適道德價(jià)值框架，使其能適應(yīng)時(shí)代的發(fā)展和變化.在大模型的道德對(duì)齊過(guò)程中，不斷調(diào)整和完善對(duì)齊方法，共同塑造出道德對(duì)齊的AI 系統(tǒng)，讓AI 成為真正服務(wù)于人類的工具，助力推動(dòng)人類社會(huì)的健康和可持續(xù)發(fā)展，以科技之光照亮未來(lái)之路.

4 結(jié)論

本文詳盡地探討了大模型在道德價(jià)值觀對(duì)齊所面臨的新挑戰(zhàn).我們首先審視了大模型與AI 倫理之間的緊密聯(lián)系，總結(jié)出了大模型在倫理實(shí)踐中存在的不足.基于此，我們分析了大模型在道德價(jià)值對(duì)齊上所面臨的特殊挑戰(zhàn)，這為我們研究如何更好地在AI 中引入道德價(jià)值觀提供了新的視角.基于上述分析，我們提出了一種新的針對(duì)大模型道德價(jià)值觀對(duì)齊的概念范式——平衡對(duì)齊，并從對(duì)齊的維度、對(duì)齊的評(píng)測(cè)以及對(duì)齊的方法等3 個(gè)方面，重新定義了大模型道德價(jià)值觀對(duì)齊的概念.呼吁學(xué)界跨越學(xué)科壁壘，共同構(gòu)建一個(gè)適應(yīng)大模型的、普適的AI 道德框架，這將為未來(lái)在大模型中實(shí)現(xiàn)道德價(jià)值觀對(duì)齊的研究提供富有啟示和引領(lǐng)方向的思考.相信AI 在道德價(jià)值的引領(lǐng)下，能夠解鎖更大的潛能，給人類社會(huì)帶來(lái)更廣泛、更深遠(yuǎn)的正面影響，持續(xù)推動(dòng)人類社會(huì)的進(jìn)步與發(fā)展，讓AI 與人類在共生的道路上交相輝映，攜手開創(chuàng)新紀(jì)元.

作者貢獻(xiàn)聲明：矣曉沅完成了文獻(xiàn)調(diào)研、對(duì)主流大模型的道德評(píng)測(cè)以及部分理論的提出和設(shè)計(jì)，并撰寫論文；謝幸提供了文章撰寫和組織的思路，為其中的理論和方法的設(shè)計(jì)提供了指導(dǎo)意見，并對(duì)文章進(jìn)行了修改和指導(dǎo).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡