人工智能價值對齊的倫理挑戰(zhàn)及其消解路徑

2024-12-19 00:00:00袁旭亮

倫理學(xué)研究 2024年6期

[摘要]人工智能自主性的增強使其具有了“主動”制造倫理問題的能力，這進(jìn)一步凸顯了確保高度自主的人工智能的價值觀與人類的價值觀保持一致的必要性，即實現(xiàn)人工智能與人類的價值對齊。當(dāng)前基于機器學(xué)習(xí)的人工智能價值對齊研究與實踐有蓬勃發(fā)展之勢，但是這一對齊路徑將會面臨由規(guī)范倫理學(xué)中的“是”到“應(yīng)該”的邏輯推導(dǎo)鴻溝導(dǎo)致的人工智能不能從數(shù)據(jù)信息中提取出價值規(guī)范的道德價值提取挑戰(zhàn)，以及行為倫理學(xué)中的“有限倫理”理論所揭示的人工智能學(xué)習(xí)的數(shù)據(jù)信息可能具有內(nèi)在道德缺陷的道德價值來源合道德性挑戰(zhàn)。這兩大倫理挑戰(zhàn)揭示了基于機器學(xué)習(xí)的人工智能價值對齊路徑所具有的深刻倫理缺陷，故而若想真正實現(xiàn)人工智能價值對齊，必須探究如何消解上述兩大倫理挑戰(zhàn)。

[關(guān)鍵詞]人工智能價值對齊；機器學(xué)習(xí)；“是”到“應(yīng)該”的邏輯推導(dǎo)鴻溝；有限倫理

[作者簡介]袁旭亮，大連理工大學(xué)大數(shù)據(jù)與人工智能倫理法律與社會研究中心、哲學(xué)系講師，碩士生導(dǎo)師，南開大學(xué)哲學(xué)博士。

*本文系國家社會科學(xué)基金重大項目“大數(shù)據(jù)環(huán)境下信息價值開發(fā)的倫理約束機制研究”（17ZDA023）的階段性成果。

新科技革命的迅猛發(fā)展使得人工智能迭代更新速度持續(xù)加快，在進(jìn)一步提高人工智能自主化和智能化水平的同時也衍生出尋求權(quán)力（power-seeking）、規(guī)范博弈（specification gaming）等根源于人工智能自主性的倫理問題。與數(shù)據(jù)安全問題、用戶隱私問題、算法公平性問題等人工智能技術(shù)誤用或濫用倫理風(fēng)險相比，上述倫理問題最顯著的特征是它們主要產(chǎn)生于人工智能的自主行動能力，也即在一定程度上是由人工智能“主動”制造的。在這一意義上，這些根源于人工智能自主性的倫理問題可以被稱為人工智能高階倫理問題。鑒于人工智能是上述人工智能高階倫理問題的主要制造者，那么在解決這類人工智能倫理問題時，不能完全依賴人類等外部力量，具有自主性的人工智能也應(yīng)參與其中，典型的如人工智能在道德敏感環(huán)境中按照人類的意圖、偏好或道德規(guī)范等行動，以使人工智能的判斷和行為與人類的相應(yīng)判斷和行為具有價值等價性，相關(guān)研究被稱為人工智能價值對齊（Arti？ ficial Intelligence Value Alignment）。

關(guān)于人工智能價值對齊的思想可以追溯到控制論創(chuàng)始人諾伯特·維納（Norbert Wiener）。1960年，維納在討論機器自動化的道德后果時曾強調(diào)使機器的目標(biāo)與人類的目標(biāo)相一致[1]（1358）。后來隨著關(guān)于人工智能驗證（verification）、有效性（validity）和控制（control）等研究的深入[2]（107-112），人工智能價值對齊在人工智能倫理、安全等領(lǐng)域獲得了廣泛關(guān)注，并在人工智能安全技術(shù)實踐中有了一些探索甚至初步實現(xiàn)，如在大模型（big model）領(lǐng)域，OpenAI將對齊性作為防范GPT-4安全風(fēng)險的主要措施[3]。關(guān)于人工智能價值對齊的實現(xiàn)路徑，基于人工智能發(fā)展的基于邏輯（Logic-Based）或基于機器學(xué)習(xí)（ML-Based）的底層框架劃分，以及機器倫理的“自上而下”（Top-Down）或“自下而上”（Bottom-Up）的實現(xiàn)路徑劃分，當(dāng)前主要有兩條路徑：一是將人類的道德規(guī)范直接灌輸給人工智能作為其倫理決策的依據(jù)，然后借由倫理決策依據(jù)的一致性保障導(dǎo)出的行動的倫理一致性；二是通過各類機器學(xué)習(xí)技術(shù)使人工智能掌握人類偏好，然后投人類所好，作出與人類相同或相似的倫理選擇。其中，第二條路徑在當(dāng)前的人工智能安全技術(shù)實踐中占據(jù)了主流地位并得到了廣泛應(yīng)用，如OpenAI所采取的關(guān)鍵性對齊技術(shù)就是GPT-4與領(lǐng)域?qū)＜业膶箿y試（Adversarial Testing via Domain Experts）和帶有人類反饋的強化學(xué)習(xí)（Reinforcement Learning with Human Feedback）[3]（11-12）。

由此，在人工智能業(yè)界，基于機器學(xué)習(xí)的人工智能價值對齊研究與實踐有蓬勃發(fā)展之勢。但是“價值”是一個典型的倫理概念，這使得人工智能價值對齊不僅僅是一個技術(shù)問題，還是一個倫理問題，故而需要從倫理上論證人工智能價值對齊的可能性和合理性[4]（94）。具體地，在基于機器學(xué)習(xí)實現(xiàn)人工智能價值對齊的技術(shù)實踐中，有兩個關(guān)鍵問題有待倫理學(xué)界解決：一是人工智能是否能夠從訓(xùn)練數(shù)據(jù)中真正學(xué)習(xí)到人類的道德價值，二是利用倫理學(xué)家的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來提高人工智能的道德學(xué)習(xí)效果是否真正可行。針對上述兩個問題，本文首先從規(guī)范倫理學(xué)和行為倫理學(xué)的基本理論出發(fā)揭示了基于機器學(xué)習(xí)的人工智能價值對齊路徑面臨的兩大倫理挑戰(zhàn)，即人工智能道德價值提取挑戰(zhàn)和道德價值來源合道德性挑戰(zhàn)①，隨后從人工智能的倫理學(xué)習(xí)方式和內(nèi)容兩個維度探討了消解上述兩大倫理挑戰(zhàn)的可能路徑。

一、“是”推不出“應(yīng)該”：人工智能的道德價值提取挑戰(zhàn)

“是”推不出“應(yīng)該”是規(guī)范倫理學(xué)中的一個著名論斷，源于大衛(wèi)·休謨（David Hume）在《人性論》中描述的其所發(fā)現(xiàn)的所有道德體系共有的一種“連系詞”轉(zhuǎn)換現(xiàn)象：“在我所遇到的每一個道德學(xué)體系中，我一向注意到，作者在一個時期中是照平常的推理方式進(jìn)行的……可是突然之間，我卻大吃一驚地發(fā)現(xiàn)，我所遇到的不再是命題中通常的‘是’與‘不是’等連系詞，而是沒有一個命題不是由一個‘應(yīng)該’或者一個‘不應(yīng)該’聯(lián)系起來的?！盵5]（505）休謨進(jìn)一步指出這一從“是”或“不是”到“應(yīng)該”或“不應(yīng)該”的“連系詞”轉(zhuǎn)換是在“不知不覺”中發(fā)生的并且未“舉出理由加以說明”，休謨警告這種無根由的命題“連系詞”轉(zhuǎn)換行為將會使“一切通俗的道德體系”面臨被“推翻”的危險，因為“是”或“不是”和“應(yīng)該”或“不應(yīng)該”刻畫的是命題詞項間的兩種截然不同的關(guān)系，由此，它們之間的轉(zhuǎn)換本質(zhì)上是不同性質(zhì)命題之間的邏輯推導(dǎo)，而推導(dǎo)關(guān)系能否成立以及如何成立需要“謹(jǐn)慎”考察。

這也即道德哲學(xué)中著名的從“是”能否推出“應(yīng)該”的問題。雖然休謨并未在其著作中明確給出回答，但是由休謨的道德源于情感的“假設(shè)”②以及休謨關(guān)于理性和趣味的界限與作用的區(qū)分③可知，休謨關(guān)于這一問題的回答是否定的，即從“是”推不出“應(yīng)該”。

“是”到“應(yīng)該”的邏輯推導(dǎo)不成立根源于事實與價值的二分。雖然在休謨的道德哲學(xué)中初步呈現(xiàn)了對事實與價值進(jìn)行二元區(qū)分的思想，但是馬克斯·韋伯（Max Weber）最早直接點明“是”推不出“應(yīng)該”的根源在于“從事實陳述到價值判斷的推演”[6]（44）是不可接受的。韋伯強調(diào)“‘存在知識’，即，關(guān)于‘是’什么的知識與‘規(guī)范知識’，即，關(guān)于‘當(dāng)是’什么的知識之間的邏輯（prinzipielle）區(qū)分”[6]（48），也即由“是”與“不是”作為“連系詞”的命題是事實命題，由“應(yīng)該”或“不應(yīng)該”作為“連系詞”的命題是價值命題，兩類命題分屬不同的范疇，“從范疇‘是’（is）到范疇‘應(yīng)當(dāng)’（ought）的跳躍”[6]（34）是不允許的。喬治·愛德華·摩爾（George Edward Moore）基于道德概念只能通過直覺來把握的直覺主義倫理學(xué)思想來說明事實命題到價值命題的不可推導(dǎo)性，并將從事實命題到價值命題的推導(dǎo)稱為犯了“自然主義謬誤”：“某物具有自然屬性X”是一個事實命題，斷定“某物是善的”是一個價值命題，用自然屬性X定義“善”意味著從事實命題推導(dǎo)出了價值命題，這種推導(dǎo)是一種自然主義謬誤[7]（11，128）[8]（94）。摩爾認(rèn)為無論是自然主義倫理學(xué)還是形而上學(xué)倫理學(xué)，任何試圖從非倫理前提推導(dǎo)出倫理結(jié)論的推理都犯了自然主義謬誤。另外，魯?shù)婪颉た柤{普（Rudolf Carnap）和阿爾弗雷德·艾耶爾（Alfred Jules Ayer）等也都將事實命題和價值命題的嚴(yán)格區(qū)分作為基本的倫理信條[9]（21）。

“是”推不出“應(yīng)該”逐漸演變成了規(guī)范倫理學(xué)的一條公理[10]（873），甚至被休謨的支持者視為道德哲學(xué)的一個根本原則[9]（19），如理查德·麥爾文·黑爾（Richard Mervyn Hare）將其稱為“休謨法則”（Hume’s Law）。基于機器學(xué)習(xí)實現(xiàn)人工智能價值對齊的方法論是人工智能能夠基于數(shù)據(jù)信息作出與人類具有價值等價性的決策和選擇。這一對齊方法的本質(zhì)是人工智能從數(shù)據(jù)信息（即事實命題）到倫理行為（即價值命題）的決策和選擇過程，因而它將面臨“是”推不出“應(yīng)該”的挑戰(zhàn)。這可以從邏輯學(xué)和認(rèn)知科學(xué)兩個視角來進(jìn)一步分析。

從邏輯學(xué)視角看，機器學(xué)習(xí)的邏輯學(xué)基礎(chǔ)是歸納推理。如與深度學(xué)習(xí)算法密切相關(guān)的聯(lián)結(jié)主義人工智能的學(xué)習(xí)過程可以歸結(jié)為“數(shù)據(jù)—建?！袆印?，其學(xué)習(xí)性體現(xiàn)為從數(shù)據(jù)中提煉出知識或規(guī)律的建模過程，本質(zhì)是基于統(tǒng)計學(xué)方法論的經(jīng)驗歸納；與強化學(xué)習(xí)算法密切相關(guān)的行為主義人工智能的學(xué)習(xí)過程可以歸結(jié)為“數(shù)據(jù)—行動”，其學(xué)習(xí)性體現(xiàn)為基于與環(huán)境互動的模仿過程，本質(zhì)是邏輯學(xué)中的類比推理。當(dāng)試圖基于機器學(xué)習(xí)實現(xiàn)人工智能價值對齊時，無論是聯(lián)結(jié)主義人工智能從數(shù)據(jù)信息歸納出價值規(guī)范用于指導(dǎo)人工智能的倫理行為決策，還是行為主義人工智能從“他人如此行動”的行為事實到“我也應(yīng)該這樣行動”的行為規(guī)范的倫理類比推理，都涉及了人工智能由事實命題推導(dǎo)出價值命題，因而都將面臨“是”推不出“應(yīng)該”的挑戰(zhàn)。

從認(rèn)知科學(xué)的視角看，聯(lián)結(jié)主義人工智能的認(rèn)知觀是“學(xué)而知之”，行為主義人工智能的認(rèn)知觀是“實踐出真知”[11]（57）。深度學(xué)習(xí)算法是對人腦從經(jīng)驗中歸納出一般規(guī)則的學(xué)習(xí)過程的模擬，因而聯(lián)結(jié)主義人工智能的認(rèn)知機制是“根據(jù)人提供的經(jīng)驗數(shù)據(jù)等信息去生成模型，即系統(tǒng)從數(shù)據(jù)中提煉規(guī)律，形成知識”[11]（52），這是一種“經(jīng)驗—理論”的經(jīng)驗歸納認(rèn)知進(jìn)路。這使得深度學(xué)習(xí)算法能夠較好地解決感性認(rèn)知中的識別問題，表現(xiàn)在其突破了符號主義人工智能根據(jù)設(shè)定的模型去處理問題的范圍約束，使人工智能具有了識別新對象的能力。但在倫理認(rèn)知領(lǐng)域，人工智能基于被提供的數(shù)據(jù)信息提煉出人類的一般性倫理知識或偏好，這一過程就是典型的從“是”到“應(yīng)該”的倫理認(rèn)知過程。強化學(xué)習(xí)算法是一種致力于實現(xiàn)使人工智能“像人一樣行動”的機器學(xué)習(xí)算法，其學(xué)習(xí)方法是與環(huán)境交互，因而行為主義人工智能的認(rèn)知機制是基于環(huán)境對行為的反饋產(chǎn)生指導(dǎo)行動的知識，是一種“感知—行動”的具身認(rèn)知進(jìn)路。強化學(xué)習(xí)將深度學(xué)習(xí)的“數(shù)據(jù)—建?！袆印钡摹敖！杯h(huán)節(jié)取消，從“數(shù)據(jù)”直接導(dǎo)向“行動”，避免了深度學(xué)習(xí)在建模時面臨的從“是”到“應(yīng)該”的推不出挑戰(zhàn)。不過從知識形態(tài)的角度看，具身認(rèn)知形成的是關(guān)于“如何做”的知識[11]（58），當(dāng)涉及道德敏感環(huán)境時，形成的是關(guān)于“應(yīng)該如何做”的倫理知識。因而在強化學(xué)習(xí)的“數(shù)據(jù)—行動”背后隱藏著從“人類如此行動”的行為事實描述到“人工智能也應(yīng)如此行動”的人工智能倫理認(rèn)知，由此也將面臨從“是”到“應(yīng)該”的推不出挑戰(zhàn)。

從“是”推不出“應(yīng)該”，這一事實命題到價值命題的邏輯推導(dǎo)鴻溝作用于人工智能的涉?zhèn)惱韺W(xué)習(xí)，所導(dǎo)致的結(jié)果是人工智能不能從數(shù)據(jù)信息中提取出價值規(guī)范。除了在人工智能從數(shù)據(jù)信息到價值規(guī)范的學(xué)習(xí)過程將面臨由“是”推不出“應(yīng)該”導(dǎo)致的道德價值提取挑戰(zhàn)外，在人工智能將自上而下被灌輸?shù)膬r值規(guī)范應(yīng)用于實踐時，將會遭遇從“應(yīng)該”到“是”的價值規(guī)范實踐轉(zhuǎn)化鴻溝，表現(xiàn)是“抽象的倫理概念、原則直接介入到具象的動態(tài)實踐中，結(jié)果常常因耦合性不夠而導(dǎo)致倫理規(guī)范向?qū)嵺`轉(zhuǎn)化脫節(jié)、效率不高等問題”[12]（88-89），這是人工智能道德價值實踐轉(zhuǎn)化挑戰(zhàn)。

二、有限倫理：人工智能道德價值來源的合道德性挑戰(zhàn)

數(shù)據(jù)是人工智能學(xué)習(xí)的“原料”，無論是聯(lián)結(jié)主義人工智能還是行為主義人工智能，其學(xué)習(xí)過程都始于輸入的原始數(shù)據(jù)，聯(lián)結(jié)主義人工智能基于原始數(shù)據(jù)提煉模型，行為主義人工智能基于原始數(shù)據(jù)直接確定行動。因而對于基于機器學(xué)習(xí)的人工智能而言，原始數(shù)據(jù)影響甚至決定著其學(xué)習(xí)效果。這可以從原始數(shù)據(jù)的“量”和“質(zhì)”兩個維度來考察。原始數(shù)據(jù)的“量”關(guān)涉提供給人工智能供其學(xué)習(xí)的數(shù)據(jù)的數(shù)量，數(shù)據(jù)的數(shù)量之所以會影響人工智能的學(xué)習(xí)效果，是因為機器學(xué)習(xí)探究到的事物之間的聯(lián)系本質(zhì)上是事物之間的統(tǒng)計相關(guān)性，從統(tǒng)計推理的可靠性視角看，大數(shù)據(jù)是事物間的強統(tǒng)計相關(guān)性的必要條件。原始數(shù)據(jù)的“質(zhì)”則關(guān)涉提供給人工智能供其學(xué)習(xí)的數(shù)據(jù)的質(zhì)量，數(shù)據(jù)是人工智能的直接學(xué)習(xí)對象，對人工智能的學(xué)習(xí)內(nèi)容和結(jié)果具有本體論上的決定作用，這在人工智能倫理領(lǐng)域體現(xiàn)在兩個方面：一方面，從輸出結(jié)果的道德屬性來看，根植于計算機科學(xué)領(lǐng)域著名的“GIGO定律”（Garbage In，Garbage Out）①，不道德數(shù)據(jù)輸入將直接導(dǎo)致不道德結(jié)果輸出，《自然》雜志關(guān)于大數(shù)據(jù)算法的透明度與問責(zé)的評論文章曾言，“偏見進(jìn)，偏見出”（Bias In，Bias Out）；另一方面，就不道德人工智能的產(chǎn)生根源來講，除卻人為因素外，數(shù)據(jù)的不道德性是不道德人工智能的另一主要產(chǎn)生根源，因為當(dāng)前人工智能所具有的數(shù)據(jù)處理能力主要是數(shù)據(jù)的提取、分類、預(yù)測等能力，本質(zhì)上并不具備數(shù)據(jù)道德屬性的判斷能力，因而不道德的數(shù)據(jù)將會“教壞”人工智能，如孫偉平教授所言“各種各樣的數(shù)據(jù)不公正因素的‘算法內(nèi)化’是導(dǎo)致算法歧視的重要原由”[13]（48）。影響數(shù)據(jù)質(zhì)量的因素主要有數(shù)據(jù)的來源、采集數(shù)據(jù)時依據(jù)的標(biāo)準(zhǔn)、數(shù)據(jù)的準(zhǔn)確性和可靠性、數(shù)據(jù)的時效性等。

接下來我們將從數(shù)據(jù)的來源的角度（主要是采集誰的數(shù)據(jù)）考察數(shù)據(jù)的“質(zhì)”對實現(xiàn)人工智能價值對齊的影響。在人工智能倫理、安全的哲學(xué)研究與技術(shù)實踐中，蘇珊·利·安德爾森（Susan Leigh Anderson）等建議利用倫理學(xué)家的數(shù)據(jù)作為人工智能的訓(xùn)練數(shù)據(jù)以防止人工智能產(chǎn)生的不道德行為[14]（479）；OpenAI聘請長期對人工智能對齊、網(wǎng)絡(luò)安全等領(lǐng)域進(jìn)行研究的專家作為紅隊（red team）與GPT-4進(jìn)行對抗性測試以提高GPT-4的安全性和對齊性[3]。這些建議與技術(shù)實踐主要是基于專家的數(shù)據(jù)更為準(zhǔn)確和可靠的預(yù)設(shè)：數(shù)據(jù)本質(zhì)上是人類行為的表征形式，充分的專業(yè)訓(xùn)練一方面可以使專家有更好的行為表現(xiàn)，另一方面可以減輕導(dǎo)致普通人表現(xiàn)不好的因素對專家的影響。

然而行為倫理學(xué)的研究表明，盡管專業(yè)的倫理知識學(xué)習(xí)可以加深人們對倫理的理解，但是無論一個人的倫理知識如何豐富、對倫理的理解如何深入，在實踐中進(jìn)行倫理決策時都將受到許多限制，從而導(dǎo)致人們的實際倫理行為可能達(dá)不到外界或他自身對其倫理行為表現(xiàn)的預(yù)期，特別是倫理學(xué)家在處理問題時可能沒有作出外界或他自身所期望的完美倫理表現(xiàn)。行為倫理學(xué)中的“有限倫理”（bounded ethicality）理論認(rèn)為，這一問題的根源主要在于人們的一些涉?zhèn)惱硇袨榭赡苁瞧湓跓o意識狀態(tài)下作出的，由此導(dǎo)致該類行為不滿足人們所秉持的道德規(guī)范[15]（75）。

“有限倫理”理論是美國諾貝爾經(jīng)濟(jì)學(xué)獎獲得者、計算機科學(xué)家赫伯特·西蒙（Herbert Simon）提出的“有限理性”（bounded rationality）理論在倫理決策領(lǐng)域的擴展。傳統(tǒng)經(jīng)濟(jì)學(xué)預(yù)設(shè)了人是“完全的理性行動者”，即“有清晰定義的偏好，以無偏的方式使用所有相關(guān)的信息，而且能夠準(zhǔn)確無誤地解決棘手的最優(yōu)化問題”[16]（97）。然而西蒙認(rèn)為“人類的理性是有限的，受到環(huán)境和人類計算能力的極大限制”[17]（34），在真實世界，人們雖然試圖作出最優(yōu)決策，但是決策過程顯然不能滿足完全理性的所有要求，人們經(jīng)常會犯一些偏離理性的系統(tǒng)性錯誤，如無意識狀態(tài)下的不道德行為。

這涉及意識思維和無意識思維與人類行為的關(guān)系問題?；诎５旅傻隆ず麪枺‥dmund Husserl）的意識現(xiàn)象學(xué)和西格蒙德·弗洛伊德（Sigmund Freud）的“心而上學(xué)”（Meta-Psychologie），人類心靈可分為意識和無意識兩部分[18]（138）。其中，意識因是彰顯的，呈現(xiàn)為直觀性的意識現(xiàn)象，其作為哲學(xué)和心理學(xué)的研究對象和論題的地位并無太多爭議，而無意識因其是潛隱的、不顯現(xiàn)的，其作為哲學(xué)和心理學(xué)的研究對象和論題的地位經(jīng)由弗朗茲·克萊門斯·布倫塔諾（Franz Clemens Brentano）對內(nèi)意識和無意識的區(qū)分，赫爾曼·艾賓浩斯（Hermann Ebbinghaus）的記憶心理學(xué)對無意識心理狀態(tài)的實驗研究，最終在弗洛伊德的“三重心理地域說”（意識、前意識、無意識）和“三重心理結(jié)構(gòu)說”（本我、自我、超我）等無意識心理學(xué)的研究的基礎(chǔ)上才得以確立[18]（140-151）。對意識思維和無意識思維與人類行為的關(guān)系，一般公認(rèn)意識思維能夠誘發(fā)人類行為，而無意識思維能否誘發(fā)人類行為則存在爭議。但是，弗洛伊德認(rèn)為口誤、遺忘等行為是人類“反向意志”作用的結(jié)果，“這種反向意志雖然通常并不為當(dāng)事人所知或承認(rèn)，這卻并不妨礙它在無意識層面對人的心理與行為發(fā)揮關(guān)鍵性的甚至在某種意義上可以說是決定性的作用”[19]（92），因而無意識思維也能夠如意識思維一樣被作為人類行為的動因。比較典型性的，如人們認(rèn)知和決策過程中的一些自動性（automatic）現(xiàn)象，心理學(xué)家約翰·巴格（John Bargh）和塔尼亞·沙特朗（Tanya Chartrand）將這些現(xiàn)象的不可控制性和必然性稱為“無法忍受的自動性”（the unbearable automaticity of being）[20]（462）。

當(dāng)無意識思維作用于人們的道德判斷時，可能會使人們作出與自身秉持的道德規(guī)范不一致的行為。如人們的群體內(nèi)偏好（In-group Favoritism）行為：人們可能不會故意歧視他人，但是當(dāng)他們無意之中給予自己喜歡或認(rèn)識的人更多偏好時，可能造成對那些沒有這種關(guān)系的人的無意識歧視[21]（77）。這是一種典型的有限倫理行為，人們無意不公正，但是他們的實際行為與他們所期望的公正表現(xiàn)之間存在偏差。多莉·丘格（Dolly Chugh）等認(rèn)為有限倫理行為的根源是一種特定的自我觀，即人們認(rèn)為他們是“有道德的”（moral）、“有能力的”（competent）和“應(yīng)得的”（deserving），其中，“有道德的”是指人們認(rèn)為其自身具有足夠甚至是相比于他人更高的道德敏感性，不會做不道德的行為，“有能力的”是指人們認(rèn)為其自身具有在完成給定任務(wù)時避免不道德行為的能力，“應(yīng)得的”是指人們認(rèn)為其自身具有比他人更大的道德貢獻(xiàn)[15]（80-86）。依據(jù)行為動機理論，人們的行為一般都會傾向于維護(hù)自我價值[22]（1），因而如果人們在行動時無意識地傾向于這種“自我中心倫理”（egocentric ethics）的道德觀，人們將無法正確認(rèn)識他所處的道德狀況，從而作出有道德缺陷的行為。并且，這樣的有限倫理行為是普遍的，即包括經(jīng)受了專業(yè)倫理訓(xùn)練的倫理學(xué)家在內(nèi)的所有人都可能作出與其所秉持的道德規(guī)范不一致的不道德行為，并產(chǎn)生難以克服的即人們在行動時無法認(rèn)識并規(guī)避其決策中的道德缺陷。

進(jìn)一步分析可知，出于維護(hù)“自我中心倫理”道德觀的無意識思維應(yīng)是弗洛伊德“三重心理地域說”所界定的“前意識”。弗洛伊德在劃分心理區(qū)域時，首先劃分了意識和無意識兩種意識類型，隨后借助“壓抑”（Verdr？ngung）概念①進(jìn)一步又將無意識劃分為兩種：一種無意識是潛隱的，雖然其在當(dāng)下沒有被意識到，但是原則上隨時都可以轉(zhuǎn)變?yōu)橐庾R（即被重新意識到），弗洛伊德將其稱為“前意識”；另一種無意識雖也是潛隱的，但它是壓抑的結(jié)果，原則上則永遠(yuǎn)不能變?yōu)橐庾R。[18]（148）顯然出于維護(hù)“自我中心倫理”道德觀的無意識思維符合弗洛伊德對“前意識”的界定，因為雖然人們在行動時無法意識到它的存在，但是如果事后重新考察該行為的不道德性的來源時，一般都能夠認(rèn)識到該行為的不道德性是其無意識思維導(dǎo)致的。

除了“有限理性”和“有限倫理”外，與這兩個理論平行的“有限意識”（bounded awareness）理論[23]（10）也可以用于解釋為什么人們?nèi)菀壮霈F(xiàn)實際的倫理行為偏離其所秉持的道德規(guī)范的倫理行為的失范現(xiàn)象。認(rèn)知心理學(xué)研究表明，人們在決策過程中大腦可能專注于特定信息而沒有注意到其他相關(guān)信息，由此忽略了作出好決策所需的關(guān)鍵性信息。這種認(rèn)知“聚焦失敗”（focusing failure）現(xiàn)象被稱為“有限意識”。很顯然，“有限意識”作用于人類的倫理決策領(lǐng)域時，也將導(dǎo)致人類可能作出不符合其所秉持的道德規(guī)范的不道德行為。

如同“有限理性”理論挑戰(zhàn)了傳統(tǒng)經(jīng)濟(jì)學(xué)的人是完全理性的預(yù)設(shè)，“有限倫理”理論還挑戰(zhàn)了人可以是完全倫理的認(rèn)識?；凇坝邢迋惱怼崩碚摚词故墙?jīng)過專業(yè)訓(xùn)練的倫理學(xué)家也可能作出不道德行為，那么這就對建議用來自倫理學(xué)家的數(shù)據(jù)作為人工智能的訓(xùn)練數(shù)據(jù)以提高人工智能的道德性的哲學(xué)研究與技術(shù)實踐提出了挑戰(zhàn)，這一挑戰(zhàn)的內(nèi)核是人工智能進(jìn)行倫理學(xué)習(xí)的數(shù)據(jù)信息是否是完全合道德性的。

三、人工智能價值對齊倫理挑戰(zhàn)的可能消解路徑

人工智能價值對齊是當(dāng)前人工智能業(yè)界應(yīng)對人工智能倫理風(fēng)險問題的一種重要解決方案，同時在人工智能倫理學(xué)界，人工智能價值對齊也獲得了高度重視和廣泛研究，如閆宏秀教授認(rèn)為，從人機（技）融合的視角來看人工智能價值對齊可以被視為人類通往未來的必經(jīng)之路[24]（26），閆坤如教授也指出，人工智能價值對齊成為人工智能安全發(fā)展的前提和基本要義，是人工智能發(fā)展的根本性、基礎(chǔ)性工作[4]（94）。但是本文利用規(guī)范倫理學(xué)和行為倫理學(xué)的理論論證了當(dāng)前主流的基于機器學(xué)習(xí)的人工智能價值對齊路徑面臨著兩大倫理挑戰(zhàn)：一是規(guī)范倫理學(xué)中的“是”到“應(yīng)該”的邏輯推導(dǎo)鴻溝導(dǎo)致的人工智能不能從數(shù)據(jù)信息中提取出價值規(guī)范的道德價值提取挑戰(zhàn)；二是行為倫理學(xué)中的“有限倫理”理論揭示的人工智能學(xué)習(xí)的數(shù)據(jù)信息可能具有內(nèi)在道德缺陷的道德價值來源合道德性挑戰(zhàn)。這兩大倫理挑戰(zhàn)揭示了當(dāng)前主流的基于機器學(xué)習(xí)的人工智能價值對齊路徑的深刻倫理缺陷，故而，若想真正實現(xiàn)人工智能價值對齊，必須探究如何消解上述兩大倫理挑戰(zhàn)。

基于上文對人工智能道德價值提取挑戰(zhàn)和道德價值來源合道德性挑戰(zhàn)的論證和分析可以發(fā)現(xiàn)，這兩大挑戰(zhàn)分別對應(yīng)人工智能的倫理學(xué)習(xí)方式和內(nèi)容。由于當(dāng)前仍處于弱人工智能時代[25]（37），人工智能雖然具有愈加強大的算力和獨立行動能力，但是在道德養(yǎng)成上其“沒有自我意識或意向性，不具備亞里士多德意義上與實踐相關(guān)的實踐理性和倫理德性，也不具有休謨式道德發(fā)動意義上的情感”[25]（37）。故而當(dāng)下的人工智能一方面沒有自我意識和倫理德性，無法通過內(nèi)省的方式進(jìn)行倫理學(xué)習(xí)；另一方面其以大數(shù)據(jù)為關(guān)鍵要素、以機器學(xué)習(xí)為技術(shù)核心，并且機器學(xué)習(xí)技術(shù)與一些倫理學(xué)思想也具有較強的內(nèi)在契合性。如功利主義倫理學(xué)與強化學(xué)習(xí)的內(nèi)在邏輯本質(zhì)上是一致的，它們都基于獎勵最大化的目標(biāo)導(dǎo)向，希瑟·洛夫（Heather Roff）就曾直接指出“應(yīng)該立即看到強化學(xué)習(xí)非常像功利主義，因為基于強化學(xué)習(xí)的主體和功利主義道德主體都試圖通過最大化未來狀態(tài)、目標(biāo)或結(jié)果的價值或善來決定當(dāng)前的行為”[26]（5）。由此，各種機器學(xué)習(xí)技術(shù)成為當(dāng)前人工智能的主要倫理學(xué)習(xí)方式，刻畫人類倫理行為的數(shù)據(jù)信息成了當(dāng)前人工智能的主要倫理學(xué)習(xí)內(nèi)容。既然人工智能道德價值提取挑戰(zhàn)和道德價值來源合道德性挑戰(zhàn)與人工智能的倫理學(xué)習(xí)方式和內(nèi)容密切相關(guān)，那么若想消解這兩大倫理挑戰(zhàn)，實現(xiàn)真正的人工智能價值對齊，就需在這兩個方面下功夫。

首先，關(guān)于人工智能的倫理學(xué)習(xí)方式，人工智能應(yīng)通過“基于邏輯”+“基于機器學(xué)習(xí)”的方式進(jìn)行倫理學(xué)習(xí)，即首先在人工智能中預(yù)置人類基本價值規(guī)范，然后人工智能在此基礎(chǔ)上利用機器學(xué)習(xí)技術(shù)進(jìn)行進(jìn)一步的倫理學(xué)習(xí)。人工智能的“基于邏輯”的倫理學(xué)習(xí)，即為人工智能嵌入道德算法，將人類基本價值規(guī)范通過道德代碼的形式預(yù)置到人工智能中，由于這些價值規(guī)范是預(yù)先嵌入到人工智能中的，而非人工智能從訓(xùn)練數(shù)據(jù)中提取的，因而將不會遇到“是”到“應(yīng)該”的邏輯推導(dǎo)鴻溝導(dǎo)致的人工智能不能從數(shù)據(jù)信息中提取出價值規(guī)范的道德價值提取挑戰(zhàn)。但是預(yù)置的僅僅是人類的基本價值規(guī)范，也即人類的價值共識，基于價值多元主義思想還需在此基礎(chǔ)上“尊重不同的道德習(xí)慣和文化傳統(tǒng)”，故人工智能需要通過機器學(xué)習(xí)技術(shù)進(jìn)行進(jìn)一步的倫理學(xué)習(xí)，以獲得更為廣泛的道德價值。那此時如何應(yīng)對“是”到“應(yīng)該”的邏輯推導(dǎo)鴻溝導(dǎo)致的人工智能道德價值提取挑戰(zhàn)呢？由于在人工智能中已經(jīng)預(yù)置了人類基本價值規(guī)范，而“通過內(nèi)置道德決策場景的指導(dǎo)性決策標(biāo)準(zhǔn)……可以使其具備道德推理能力”[27]（138），故這些預(yù)置的人類基本價值規(guī)范將賦予人工智能一定的道德推理能力，在此基礎(chǔ)上，預(yù)置的人類基本價值規(guī)范還可以為具備一定道德推理能力的人工智能從數(shù)據(jù)信息中提取出價值規(guī)范提供參考與借鑒，具體表現(xiàn)為，人工智能的道德價值提取將從原先的“數(shù)據(jù)信息”“價值規(guī)范”演變?yōu)椤叭祟惢緝r值規(guī)范數(shù)據(jù)信息”“價值規(guī)范”。人工智能的道德推理能力以及其道德價值提取過程的演變應(yīng)該能夠在一定程度上消解人工智能面臨的道德價值提取挑戰(zhàn)。

其次，關(guān)于人工智能的倫理學(xué)習(xí)內(nèi)容，應(yīng)包括預(yù)置的人類基本價值規(guī)范和刻畫人類倫理行為的數(shù)據(jù)信息。一方面，人類基本價值規(guī)范是人類已達(dá)成共識的道德價值，并且經(jīng)受了時間和人類道德實踐的雙重檢驗，可以被視為人類在意識思維下形成的道德認(rèn)識和道德選擇，因而不會面臨“有限倫理”的挑戰(zhàn)。另一方面，在人工智能基于訓(xùn)練數(shù)據(jù)進(jìn)行倫理學(xué)習(xí)時，預(yù)置的人類基本價值規(guī)范可以幫助人工智能識別和約束刻畫了人類無意識狀態(tài)下的不道德行為的數(shù)據(jù)信息，對由此產(chǎn)生的人工智能的錯誤倫理學(xué)習(xí)進(jìn)行有效道德糾偏，從而幫助人工智能應(yīng)對道德價值來源的合道德性挑戰(zhàn)。

結(jié)語

“見賢思齊”是人類道德養(yǎng)成和糾偏的有效方法，將這一方法擴展到人工智能倫理領(lǐng)域，使人工智能在倫理上向人類看齊，實現(xiàn)人工智能與人類的價值對齊，將可以有效防范人工智能倫理風(fēng)險。但是從規(guī)范倫理學(xué)和行為倫理學(xué)來看，當(dāng)前主流的基于機器學(xué)習(xí)的人工智能價值對齊路徑面臨著道德價值提取挑戰(zhàn)和道德價值來源合道德性挑戰(zhàn)，這是基于各類機器學(xué)習(xí)技術(shù)的人工智能價值對齊路徑所具有的深刻倫理缺陷。對這些倫理缺陷的揭示不僅有助于發(fā)現(xiàn)人工智能價值對齊技術(shù)發(fā)展中隱藏的倫理障礙以便推動人工智能價值對齊技術(shù)實現(xiàn)突破，同時還將有助于解釋當(dāng)前已經(jīng)出現(xiàn)的偽對齊、欺騙性對齊等價值對齊失?，F(xiàn)象。

此外，人工智能的道德價值提取挑戰(zhàn)和道德價值來源合道德性挑戰(zhàn)沖擊了實現(xiàn)人工智能價值對齊的倫理可能性和合理性。因而若想實現(xiàn)真正的人工智能價值對齊，必須消解這兩大挑戰(zhàn)。在當(dāng)前的弱人工智能時代，這兩大挑戰(zhàn)的根源主要在于人工智能倫理學(xué)習(xí)的方式（機器學(xué)習(xí)）和內(nèi)容（數(shù)據(jù)信息）?；谶@一認(rèn)識，在弱人工智能時代，可通過“基于邏輯”+“基于機器學(xué)習(xí)”相結(jié)合的倫理學(xué)習(xí)方式教會人工智能人類的價值規(guī)范和倫理偏好來實現(xiàn)人工智能價值對齊。將來，若隨著人工智能技術(shù)的發(fā)展，人工智能產(chǎn)生了自我意識、情感、實踐理性和德性品格等，像人類一樣具備了內(nèi)省式的倫理學(xué)習(xí)能力，人工智能的道德價值提取挑戰(zhàn)和道德價值來源合道德性挑戰(zhàn)則將不復(fù)存在，那時就可以基于人工智能對人類的道德認(rèn)同來實現(xiàn)人工智能與人類的價值對齊，并嘗試構(gòu)建人工智能與人類的價值共同體，從而達(dá)到人工智能與人類的共存、共生、共融。

[參考文獻(xiàn)]

[1]WIENER N. Some Moral and Technical Consequences of Automation：As Machines Learn They May Develop Unforeseen Strategies at Rates that Baffle Their Programmers[J].Science，1960，131（3410）.

[2]RUSSELL S，DEWEY D，TEGMARK M. Research Priorities for Robust and Beneficial Artificial Intelligence[J].AI Magazine，2015，36（4）.

[3]ACHIAM J，ADLER S，AGARWAL S，et al. GPT-4 Technical Report[J/OL].Arxiv Preprint，（2024-03-01）[2024-03-04].https：//arxiv.org/abs/2303.08774.

[4]閆坤如.人工智能價值對齊的價值表征及倫理路徑[J].倫理學(xué)研究，2024（4）.

[5]休謨.人性論[M].關(guān)文運，譯.北京：商務(wù)印書館，2016.

[6]韋伯.社會科學(xué)方法論[M].朱紅文，陳亞明，鄧建平，等譯.北京：中國人民大學(xué)出版社，1992.

[7]摩爾.倫理學(xué)原理[M].陳德中，譯.北京：商務(wù)印書館，2017.

[8]陳曉平.“是—應(yīng)該”問題及其解答[J].現(xiàn)代哲學(xué)，2002（3）.

[9]程仲棠.從“是”推不出“應(yīng)該”嗎？（上）：休謨法則的哲學(xué)根據(jù)質(zhì)疑[J].學(xué)術(shù)研究，2000（10）.

[10]KIM T W，HOOKER J，DONALDSON T. Taking Principles Seriously：A Hybrid Approach to Value Align？ ment in Artificial Intelligence[J].Journal of Artificial Intelligence Research，2021，70.

[11]肖峰.人工智能與認(rèn)識論的哲學(xué)互釋：從認(rèn)知分型到演進(jìn)邏輯[J].中國社會科學(xué)，2020（6）.

[12]薛桂波，趙建波.從“應(yīng)當(dāng)”到“是”：人工智能倫理規(guī)范實踐策略探析[J].自然辯證法研究，2023（1）.

[13]孫偉平.價值哲學(xué)視域中的算法歧視與社會公正[J].哲學(xué)研究，2023（3）.

[14]ANDERSON S L，ANDERSON M. A Prima Facie Duty Approach to Machine Ethics：Machine Learning of Features of Ethical Dilemmas，Prima Facie Duties，and Decision Principles Through a Dialogue with Ethicists[M]// ANDERSON S L，ANDERSON M（eds.）. Machine Ethics. Cambridge：Cambridge University Press，2011.

[15]CHUGH D，BAZERMAN M H，BANAJI M R. Bounded Ethicality as a Psychological Barrier to Recogniz？ ing Conflicts of Interest[M]//MOORE D A，CAIN D M，LOEWENSTEIN G，et al（eds.）. Conflicts of Interest：Chal？ lenges and Solutions in Business，Law，Medicine，and Public Policy. Cambridge：Cambridge University Press，2005.

[16]劉易斯-伯克，布里曼，廖福挺.社會科學(xué)研究方法百科全書精編版A-D[M].沈崇麟，趙鋒，高勇，譯.重慶：重慶大學(xué)出版社，2022.

[17]SIMON H. Reason in Human Affairs[M].Stanford：Stanford University Press，1983.

[18]倪梁康.意識現(xiàn)象學(xué)與無意識研究的可能性[J].中國社會科學(xué)，2021（3）.

[19]盧毅.“無意之罪”何以歸責(zé)？：哲學(xué)與精神分析論域下的“無意識意愿”及其倫理意蘊[J].哲學(xué)研究，2020（1）.

[20]BARGH J A，CHARTRAND T L. The Unbearable Automaticity of Being[J].American Psychologist，1999，54（7）.

[21]SEZER O，GINO F，BAZERMAN M H. Ethical Blind Spots：Explaining Unintentional Unethical Behavior[J].Current Opinion in Psychology，2015（6）.

[22]DUNNING D. A Newer Look：Motivated Social Cognition and the Schematic Representation of Social Con？ cepts[J]. Psychological Inquiry，1999，10（1）.

[23]BAZERMAN M H，CHUGH D. Bounded Awareness：Focusing Failures in Negotiation[M]//Negotiation Theo？ ry and Research. New York：Psychology Press，2006.

[24]閆宏秀，李洋.價值對齊是人類通往未來的“必經(jīng)之路”嗎？[J].科學(xué)·經(jīng)濟(jì)·社會，2024（2）.

[25]龔群.論弱人工智能體的道德性考察[J].哲學(xué)研究，2023（3）.

[26]ROFF H M. Expected Utilitarianism[J/OL].Arxiv Preprint，2008[2024-03-04].https：//arxiv.org/abs/2008.07321.

[27]閆坤如.人工智能體價值對齊的分布式路徑探賾[J].上海師范大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2024（4）.

（責(zé)任編輯：孫保學(xué)）

①這一研究思路借鑒了金泰旺（Tae Wan Kim）、約翰·胡克（John Hooker）和托馬斯·唐納森（Thomas Donaldson）等人的文章。參見Tae Wan Kim，John Hooker and Thomas Donaldson，“Taking Principles Seriously：A Hybrid Approach to Value Alignment in Artificial Intelligence”，in Journal of Artificial Intelligence Research，2021，Vol.70，pp.873—875。

②在《道德原則研究》中，休謨認(rèn)為“我們所持的假設(shè)卻是淺顯明白的。它堅持道德性是由情感所規(guī)定的。它將德性界定為凡是給予旁觀者以快樂的贊許情感的心理活動或品質(zhì)，而惡行則相反”。參見休謨：《道德原則探究》，曾曉平譯，商務(wù)印書館2001年版，第141頁。

③休謨在《道德原則研究》中對理性和趣味的界限和作用做了區(qū)分，認(rèn)為“前者傳達(dá)關(guān)于真理和謬誤的知識；后者產(chǎn)生關(guān)于美和丑、德性和惡行的情感”。參見休謨：《道德原則探究》，曾曉平譯，商務(wù)印書館2001年版，第146頁。

①即如果輸入的是垃圾數(shù)據(jù)，那么輸出的也將是垃圾數(shù)據(jù)。

①“壓抑本身是一種無意識的防御機制，它可以將已經(jīng)歷的意識生活連同其沉淀物排擠和轉(zhuǎn)移到無意識領(lǐng)域，并使其不再能夠有意識地受支配。”參見倪梁康：《意識現(xiàn)象學(xué)與無意識研究的可能性》，載《中國社會科學(xué)》2021年第3期，第149頁。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能價值對齊的倫理挑戰(zhàn)及其消解路徑