人工智能價值對齊的價值表征及倫理路徑

2024-09-11 00:00:00閆坤如

倫理學(xué)研究 2024年4期

[摘要]人工智能價值對齊是一個規(guī)范性問題，也是個技術(shù)性問題，既需要從倫理上論證對齊的可能性和合理性，也需要從技術(shù)上實現(xiàn)人工智能對齊的目標(biāo)。為了實現(xiàn)人工智能價值對齊的目標(biāo)，需要分析人工智能價值對齊的內(nèi)涵要義、明確人工智能價值對齊的價值表征，通過分析人工智能價值對齊的原則和方法，在分析人工智能技術(shù)本性和倫理疑難的基礎(chǔ)上，堅持人工智能在社會中的地位是一個規(guī)范性問題，而不是一個描述性問題，是人決定人工智能技術(shù)的研發(fā)和應(yīng)用，人為人工智能技術(shù)立法。此外，還需打通人工智能價值對齊的道德規(guī)范和設(shè)計的技術(shù)標(biāo)準(zhǔn)之間的邏輯鴻溝，從技術(shù)層面和規(guī)范層面給出人工智能價值對齊的倫理路徑。

[關(guān)鍵詞]人工智能對齊；價值對齊；價值表征

[作者簡介]閆坤如，華南師范大學(xué)哲學(xué)與社會發(fā)展學(xué)院教授，博士生導(dǎo)師。

*本文系國家社會科學(xué)基金重大項目“負(fù)責(zé)任的人工智能及其實踐的哲學(xué)研究”（21ZD063）的階段性成果。

人工智能技術(shù)迅猛發(fā)展，引發(fā)生產(chǎn)、生活方式變革，也改變?nèi)祟惱斫馐澜绲姆绞?。同時，人工智能技術(shù)革命的顛覆性作用引發(fā)隱私泄露、數(shù)據(jù)鴻溝、就業(yè)替代等社會問題，因人工智能技術(shù)的自主性和算法不透明性等原因?qū)е聜惱盹L(fēng)險劇增，為了人工智能技術(shù)的安全發(fā)展和應(yīng)用，需要人工智能技術(shù)滿足人類的需求和期望，這就是人工智能價值對齊（Artificial Intelligence Value Alignment）。人工智能價值對齊是一個重要的領(lǐng)域，因為隨著人工智能系統(tǒng)變得越來越強(qiáng)大，它們可能以與人類目標(biāo)不一致的方式行事。人工智能價值對齊成為人工智能安全發(fā)展的前提和基本要義，引發(fā)了理論界和產(chǎn)業(yè)界的關(guān)注。人工智能價值對齊是人工智能發(fā)展的根本性、基礎(chǔ)性工作，是需要優(yōu)先考慮的問題，也是一項具有挑戰(zhàn)性的工作。

一、人工智能對齊的內(nèi)涵要義與價值表征

人工智能對齊對于人工智能技術(shù)的發(fā)展和應(yīng)用都是根本性的。在此語境中，澄清人工智能對齊的內(nèi)涵、挖掘其技術(shù)的內(nèi)在屬性，分析其價值表征顯得尤為重要。

1.人工智能對齊的內(nèi)涵分析

人工智能對齊是一個新領(lǐng)域，研究如何使所創(chuàng)造的系統(tǒng)能夠滿足人類的需求和期望，人工智能對齊的目標(biāo)是防止人工智能的運(yùn)行違背特定個人、群體或整個社會的利益。1960年，“控制論之父”諾伯特·維納（Norbert Wiener）在著作《自動化的道德和技術(shù)后果》中指出，隨著機(jī)器學(xué)習(xí)進(jìn)一步發(fā)展，它們可能會超出人類預(yù)期?！拔覀冏詈猛耆_定賦予機(jī)器的目標(biāo)就是我們真正想要的目標(biāo)?！盵1]（1355-1358）這是人工值智能對齊的初步表達(dá)，人工智能對齊（AI alignment）就是人工智能價值對齊，維納認(rèn)為研發(fā)機(jī)器的目標(biāo)是最大限度地實現(xiàn)人的價值，是實現(xiàn)人類目標(biāo)。布萊恩·克里斯?。˙rain Christian）在《人機(jī)對齊：如何讓人工智能學(xué)習(xí)人類價值觀》中對人工智能對齊給出的定義為：“如何確保這些模型捕捉我們的規(guī)范和價值觀，理解我們的意思或意圖，最重要的是，做我們想做的事，已經(jīng)成為計算機(jī)科學(xué)領(lǐng)域最核心、最緊迫的科學(xué)問題之一。它就是：對齊問題?！盵2]（11）2019年，弗吉尼婭·迪格納姆（Virginia Dignum）提出人工智能“以人類福祉為中心，并與社會價值觀和倫理原則保持一致”[3]（2）。人工智能對齊指的是人工智能系統(tǒng)的目標(biāo)與人類利益與價值觀相一致，人工智能發(fā)展符合人類意圖。通過上述對人工智能對齊內(nèi)涵要義的分析，我們可以看出，人工智能對齊是研究如何使人類創(chuàng)造的人工智能系統(tǒng)能夠滿足人類的需求和期望，讓人工智能技術(shù)的能力和行為與人類的價值、真實意圖和倫理原則相一致，目標(biāo)是為了人工智能系統(tǒng)的安全應(yīng)用，避免人工智能技術(shù)違背人類意愿。從這個意義上講，人工智能價值對齊是人工智能技術(shù)安全使用和規(guī)范發(fā)展的核心議題和最根本問題。

通過以上對人工智能對齊內(nèi)涵要義的分析，我們可以看出，人工智能價值對齊既是一個過程也是一個結(jié)果。人工智能對齊的目標(biāo)具有兩重性，對齊具有倫理目標(biāo)和技術(shù)目標(biāo)。人工智能對齊的出發(fā)點和落腳點是體現(xiàn)人類意愿，中期倫理目標(biāo)是設(shè)計和使用過程中體現(xiàn)人類價值觀和道德規(guī)范，中期技術(shù)目標(biāo)是人工智能系統(tǒng)的研發(fā)和運(yùn)行安全可靠、值得信賴；人工智能對齊的終極倫理目標(biāo)是人類福祉、社會公平公正、人類的自由解放等，人工智能對齊的終極技術(shù)目標(biāo)是技術(shù)為人類服務(wù)而非技術(shù)控制人類，技術(shù)為“我”而非技術(shù)異“我”，更不是“我”為技術(shù)。

2.人工智能技術(shù)的工具性價值分析

人工智能技術(shù)應(yīng)符合人類意圖，不違背人類發(fā)明和使用技術(shù)的初衷，符合人類意圖是技術(shù)價值的邏輯起點。一方面，技術(shù)是內(nèi)在價值與工具性價值的統(tǒng)一體，首先，技術(shù)具有內(nèi)在價值，技術(shù)能解決問題、提高效率、改善生活，是人類文明的標(biāo)志和社會發(fā)展的重要驅(qū)動力；其次，技術(shù)具有工具性價值，它是為了滿足人類自身愿望、實現(xiàn)人類特定目的的工具。技術(shù)從研發(fā)開始就體現(xiàn)設(shè)計者的意志和愿望，負(fù)載了人類價值。技術(shù)在人類文明發(fā)展中發(fā)揮重要作用，技術(shù)工具史也就是人類文明史，沒有技術(shù)工具的發(fā)明和制造，就沒有人類文明的產(chǎn)生和發(fā)展。另一方面，技術(shù)也可能成為破壞環(huán)境、加劇不平等和威脅人類福祉的工具。如果人工智能技術(shù)不與人類的價值觀和根本利益對齊，則可能導(dǎo)致人工智能技術(shù)的行為不符合甚至違背人類意愿，不能體現(xiàn)人類的價值目標(biāo)。技術(shù)的內(nèi)在價值和工具性價值表明人工智能技術(shù)的價值表征是作為工具實現(xiàn)人類福祉而存在，是為了滿足人類的目的，是為人類的自由和幸福，技術(shù)發(fā)展也要接受人類的評估和考量。通過對技術(shù)價值表征分析，我們可以看出，無論人工智能技術(shù)是否具有智能、作用多么強(qiáng)大，都只是作為工具而存在，而技術(shù)工具必須滿足人類愿望，必須與人類價值觀和倫理原則保持一致，不對人類的價值和權(quán)利造成干擾和傷害，也就是說，人工智能技術(shù)發(fā)展必須堅持與人類價值對齊，而不能違背人類意志和愿望。

3.人工智能技術(shù)內(nèi)在屬性是風(fēng)險性

人工智能技術(shù)風(fēng)險指的是人工智能技術(shù)研發(fā)和使用引起社會結(jié)構(gòu)變化，在推動人類進(jìn)步和為人類帶來福祉的同時，因其不確定性和復(fù)雜性造成各種損失的可能性。人工智能技術(shù)的風(fēng)險屬性取決于其不確定性程度，人智能系統(tǒng)中存在的算法偏差、模糊邏輯和模糊集合等不確定性均可能偏離人工智能技術(shù)的初衷而引發(fā)風(fēng)險，人工智能在給人類帶來福祉和便利的同時，也帶來了危害公共安全、隱私泄露、算法偏見、就業(yè)替代等一系列的倫理挑戰(zhàn)。英國巴斯大學(xué)的喬安娜·布賴森（Joanna Bryson）和艾倫·溫菲爾德（Alan Winfield）在《人工智能和自主系統(tǒng)的標(biāo)準(zhǔn)化倫理設(shè)計考慮》[4]（116-119）中指出，隨著人工智能發(fā)展到超過人類能力的程度，它可能會控制我們的資源并戰(zhàn)勝我們的物種，最終導(dǎo)致人類滅絕。機(jī)器取代人、控制人的后果引發(fā)人工智能技術(shù)應(yīng)該以人類價值觀為目標(biāo)的思考。首先，人工智能技術(shù)能力超過人類，它雖然是人類研發(fā)的工具，是對人類智力和體力的增強(qiáng)，也是人類肢體的延伸，但從研發(fā)之始，就預(yù)設(shè)了其能力超過人類，技術(shù)人工物超過人類能力是人類“善假于物”的表現(xiàn)。例如，阿爾法狗下圍棋戰(zhàn)勝人類說明機(jī)器人通過學(xué)習(xí)智能可能超過人類；運(yùn)用人工智能技術(shù)的自動文本翻譯速度超過人類；運(yùn)用自動駕駛系統(tǒng)的汽車決策和行動超過人類；機(jī)器算法的數(shù)據(jù)處理規(guī)模和速度遠(yuǎn)超人類等。其次，人工智能技術(shù)作為工具有失控風(fēng)險。人工智能技術(shù)發(fā)展難以控制，具有潛在的風(fēng)險屬性。人工智能設(shè)計階段可能產(chǎn)生道德算法風(fēng)險和道德決策風(fēng)險；人工智能使用階段潛藏人類主體性地位被削弱的風(fēng)險、數(shù)據(jù)隱私泄漏風(fēng)險、算法歧視、道德標(biāo)準(zhǔn)固化等風(fēng)險。人工智能技術(shù)風(fēng)險的本質(zhì)既具有客觀實在性，也與相關(guān)主體的價值取向和價值選擇相關(guān)，體現(xiàn)了不同利益相關(guān)者的價值傾向和倫理考量。再次，人工智能技術(shù)可能反過來控制人類。例如，決策中的數(shù)據(jù)依賴、個性化推薦中的算法控制、衛(wèi)星導(dǎo)航的技術(shù)依賴、手機(jī)上癮、網(wǎng)絡(luò)沉迷等現(xiàn)象表現(xiàn)為人類生產(chǎn)生活依賴技術(shù)，甚至表現(xiàn)為技術(shù)操控人類，人被技術(shù)束縛甚至裹挾。隨著人工智能的進(jìn)化，人的主體性有喪失的可能性。梅拉妮·米歇爾（Melanie Mitchell）在《AI 3.0》中闡述了人工智能失控風(fēng)險，“從圖靈測試到奇點之爭，我們無法預(yù)測智能將帶領(lǐng)我們?nèi)ネ翁帯盵5]（47）。通過以上分析可知，人工智能技術(shù)具有風(fēng)險屬性，為了保障人工智能技術(shù)的安全可靠，從研發(fā)的技術(shù)邏輯開端就必須要考慮人類價值觀和倫理規(guī)范。

二、人工智能對齊的思路、原則與方法

人工智能對齊要求人工智能根據(jù)人類意愿的設(shè)計，實現(xiàn)人類的意愿。學(xué)者從不同思路給出了人工智能對齊的原則和方法。

1.人工智能對齊的思路分析

學(xué)者從不同視角來分析人工智能對齊問題。迄今為止，為了避免人工智能失控，學(xué)者和產(chǎn)業(yè)界人士做了很多嘗試，歸納起來，規(guī)范人工智能技術(shù)發(fā)展主要有以下幾種思路。

第一種思路是不研發(fā)自主性人工智能機(jī)器，讓人工智能技術(shù)的發(fā)展局限在人類的工具層面；第二種思路是增強(qiáng)人工智能系統(tǒng)透明性，對其科學(xué)原理和技術(shù)手段、技術(shù)規(guī)則進(jìn)行解釋；第三種思路是為人工智能嵌入人類道德。第一種思路不研發(fā)自主性人工智能會限制人工智能技術(shù)發(fā)展、阻礙人類文明進(jìn)步。目前，各個國家把人工智能技術(shù)發(fā)展提升到國家戰(zhàn)略地位，成為國際競爭的核心技術(shù)，人工智能技術(shù)是社會進(jìn)步的新引擎，阻礙或者限制其發(fā)展既不現(xiàn)實也不可能；第二種思路增強(qiáng)人工智能系統(tǒng)的透明性，打開算法黑箱，讓人工智能體的行為可以得到解釋。但如果不透明性或者自主性是人工智能系統(tǒng)的本質(zhì)特征所在，正如人腦不是白箱一樣，不透明性也是人工智能系統(tǒng)的獨(dú)特性所在，打開人工智能技術(shù)黑箱之路既是不具有理論可能性也是不具有技術(shù)可行性的難題；第三種思路把人類道德嵌入人工智能系統(tǒng)，這種思路成為價值對齊的最佳選擇。文森特·邦尼曼斯（Vincent Bonnemains）、克萊爾·索雷爾（Claire Saurel）等人在《嵌入倫理：技術(shù)和倫理挑戰(zhàn)》[6]（41-58）中提出一種可以被人工倫理推理的形式化的方法，該方法包括用形式化的工具來描述一個情境和倫理原則模型，并解釋為什么一個給定的規(guī)定在倫理上是可接受的，或者說是不可接受的。納文·森達(dá)爾·戈文達(dá)拉朱魯（Naveen Sundar Govindarajulu）和塞爾默·布林斯霍爾德（Selmer Bringsjord）在其論文《道德規(guī)范必須嵌入機(jī)器人的操作系統(tǒng)》[7]（85-99）中提出通過設(shè)計把人類道德嵌入人工智能系統(tǒng)中，讓人工智能系統(tǒng)具有道德決策能力。嘗試將人類道德嵌入人工智能體，讓人工智能可以按照人類道德行動，從而讓機(jī)器行動符合人類價值觀，即發(fā)展人工智能技術(shù)是為了人類的福祉和價值目標(biāo)。

2.人工智能價值對齊的原則

人工智能價值對齊原則的提出可以追溯到艾薩克·阿西莫夫（Isaac Asimov）。1942年，美國科幻作家阿西莫夫提出，隨著機(jī)器的自主性越來越強(qiáng)，要制定相應(yīng)的原則維護(hù)人工智能技術(shù)安全，他提出了著名的機(jī)器人學(xué)三大法則，即：“一、機(jī)器人不得傷害人類，或因不作為而使人類受到傷害。二、除非違背第一法則，機(jī)器人必須服從人類的命令。三、在不違背第一及第二法則的情況下，機(jī)器人必須保護(hù)好自己?！盵8]（1）阿西莫夫試圖提出的發(fā)展機(jī)器人的三大法則是人工智能價值對齊的最初原則，其他學(xué)者承繼阿西莫夫的機(jī)器人學(xué)法則，從不同視角對人工智能對齊的原則和方法進(jìn)行探索。艾倫·J.湯姆森（Alan J Thomson）和丹尼爾·L.施莫爾特（Daniel L. Schmoldt）提出，計算機(jī)系統(tǒng)的開發(fā)本身就需要引入社會倫理和道德治理機(jī)制，提高代碼本身的質(zhì)量[9]（85-102）。2006年，吉安馬爾科·維格（Gianmarco Veruggio）主張機(jī)器人的設(shè)計者、制造者、編程者和使用者應(yīng)對機(jī)器人的社會后果進(jìn)行控制監(jiān)督，使機(jī)器人造福于人類[10]（2-8）。瑞安·湯肯斯（Ryan Tonkens）提出了什么樣的人工智能機(jī)器可以被創(chuàng)造的問題，分析了組織和個人應(yīng)該承擔(dān)的道德責(zé)任[11]（421-438）。還有一些學(xué)者立足于人工智能價值對齊原則的具體可操作性內(nèi)容進(jìn)行分析。例如，2015年，美國人工智能專家斯圖亞特·羅素（Stu？ art Russell）、“開放慈善項目”（Open Philanthropy Project）的項目經(jīng)理丹尼爾·杜威（Daniel Dewey）與麻省理工學(xué)院物理學(xué)教授、未來生命研究所（Future of Life Institute）創(chuàng)始人邁克斯·泰格馬克（Max Tegmark）提出人工智能價值對齊原則，將其表述為“我們?nèi)绾谓⑴c人類價值觀一致的自治系統(tǒng)？”[12]（105-114）2023年10月，北京大學(xué)、劍橋大學(xué)、卡耐基美隆大學(xué)等聯(lián)合發(fā)表《人工智能對齊：全面性綜述》[13]就如何確保AI系統(tǒng)的行為與人類的意圖和價值觀保持一致提出四個關(guān)鍵原則，即：魯棒性（Robustness）、可解釋性（Interpretability）、可控性（Controllability）、倫理性（Ethicality）原則（簡稱為RICE原則），其中魯棒性原則指的是人工智能系統(tǒng)具有穩(wěn)定性，人工智能系統(tǒng)具有抵御外在或內(nèi)在干擾而維持系統(tǒng)正常運(yùn)行的能力；可解釋性原則指的是人工智能系統(tǒng)自主性、系統(tǒng)決策過程、推理方法、模型推理等具有透明性，可以被人類理解和解釋；可控性原則指人工智能系統(tǒng)的行為由人類指導(dǎo)，人類能夠?qū)θ斯ぶ悄芟到y(tǒng)進(jìn)行有效的監(jiān)督、干預(yù)和糾正等；倫理性原則指的是人工智能系統(tǒng)堅持全球價值標(biāo)準(zhǔn)，符合人類社會的價值觀。這四個人工智能對齊原則指導(dǎo)人工智能系統(tǒng)與人類意圖和價值觀相一致。但總的來說，這四個原則只有倫理性涉及人工智能倫理對齊的原則，魯棒性、可解釋性和可控性屬于人工智能系統(tǒng)的安全性原則，且這四個原則本身并不是最終目標(biāo)，而是服務(wù)于人工智能對齊的中間階段的目標(biāo)，人工智能對齊的最終目標(biāo)要符合人類價值觀，維護(hù)人類的尊嚴(yán)和福祉。

3.人工智能對齊的方法

只有指導(dǎo)性原則而沒有具體的實施方法也不能達(dá)到人工智能價值對齊的目標(biāo)，學(xué)者意識到這個問題，紛紛給出人工智能價值對齊的方法。拉森·加布里埃爾（Lason GabrielIason）在論文《人工智能、價值與對齊》[14]（411-437）中給出了人工智能對齊的三種方法：（1）研究世界各地的人們持有的道德信仰之間是否有一種全球性的重疊的共識（global overlapping consensus）；（2）試圖用“無知之幕”（veil of ignorance）的理念為人工智能建立正義原則模型；（3）利用社會選擇理論來結(jié)合不同的觀點，滿足大多數(shù)人的偏好，通過社會選擇解決價值取向不同的問題。第一種方法面臨著人類多元價值觀融合難題，國際組織和行業(yè)學(xué)會從共同規(guī)范和職業(yè)道德方面關(guān)注全球重疊共識的形成，不同行業(yè)學(xué)會和職業(yè)群體積極參與，提出不同的價值對齊方案。有的行業(yè)學(xué)會或者組織從職業(yè)道德層面關(guān)注倫理對齊設(shè)計。例如，2015年，美國電氣與電子工程師協(xié)會（IEEE）提議了人工智能的“倫理對齊設(shè)計”（Ethi？ cally Aligned Design，簡稱EAD）的指導(dǎo)方針。2016年發(fā)布第一版“倫理對齊設(shè)計”倡議，2017年12月發(fā)布了《倫理對齊設(shè)計：將人類福祉與人工智能和自主系統(tǒng)優(yōu)先考慮的愿景》報告，呼吁將人類規(guī)范和道德價值觀嵌入人工智能系統(tǒng)中。這些方案比較宏觀，缺少具體的技術(shù)要求和具體可實施的設(shè)計標(biāo)準(zhǔn)。加布里埃爾的第二種價值對齊方法涉及羅爾斯的“無知之幕”思想實驗。無知之幕要求規(guī)則制定者對于社會信息完全掌握且是基于完全理性的，并且要求規(guī)則制定者擁有相同的效用函數(shù)和風(fēng)險偏好。人工智能系統(tǒng)不具有人類一樣的倫理主體地位，即便行為方式符合規(guī)范原則，但若對這些倫理規(guī)范的合理性缺少理解和把握，就不可能嚴(yán)格按照羅爾斯的“無知之幕”來運(yùn)行。第三種方法是利用社會選擇理論滿足大多數(shù)人的價值目標(biāo)和價值偏好，但利益相關(guān)者的不同價值訴求差異性以及價值觀的多元性和復(fù)雜性，也使得社會選擇具有盲目性，不同時期具有不同的價值共識、不同行業(yè)具有不同行業(yè)的道德共識，通過社會選擇理論難以真正實現(xiàn)人工智能對齊。

通過上述對人工智能價值對齊的思路、原則和方法的挖掘，我們可以看出，學(xué)者對于人工智能對齊的研究要么是基于人工智能體的技術(shù)規(guī)范的研究，缺少對設(shè)計者行為或者意圖的研究，缺少對人工智能設(shè)計者和人工智能系統(tǒng)的兩個維度的關(guān)注；要么是基于職業(yè)倫理進(jìn)路分析人工智能價值對齊，缺少對人工智能技術(shù)的倫理困境的分析和哲學(xué)視角的反思，學(xué)者更多的是對人工智能對齊重要性的分析，缺少對人工智能對齊路徑的具體分析。如果想實現(xiàn)人工智能價值對齊，就必須分析人工智能系統(tǒng)的倫理地位，必須分析其對齊過程中的倫理疑難，必須把其倫理原則轉(zhuǎn)化為技術(shù)設(shè)計標(biāo)準(zhǔn)，從而真正達(dá)到人工智能價值對齊的目標(biāo)。

三、人工智能的倫理疑難及其哲學(xué)路徑分析

人工智能對齊既是規(guī)范性問題也是技術(shù)性問題，規(guī)范性問題主要表現(xiàn)在人工智能需要對齊哪些人類價值，需要把哪些道德規(guī)范嵌入人工智能系統(tǒng)，技術(shù)性問題是人工智能價值對齊需要哪些技術(shù)設(shè)計標(biāo)準(zhǔn)。人工智能系統(tǒng)越復(fù)雜，其面臨的道德問題也越復(fù)雜，技術(shù)難度也就越高。如何通過技術(shù)手段讓人工智能系統(tǒng)體現(xiàn)人類意圖，與人類的價值觀和目標(biāo)相一致呢？這是需要深入探討的問題。

1.人工智能技術(shù)研發(fā)和使用是一個規(guī)范性問題

人工智能技術(shù)發(fā)展的規(guī)范性是人工智能價值對齊的前提和基礎(chǔ)。人工智能對齊是一個規(guī)范性問題，人類決定研發(fā)和使用什么樣的人工智能技術(shù)，人工智能技術(shù)的適用范圍和應(yīng)用場景，以及需要什么樣的人工智能由人類來決策。人類預(yù)先在人工智能技術(shù)研發(fā)之初對技術(shù)風(fēng)險進(jìn)行前瞻性評估，評估技術(shù)潛在風(fēng)險和社會影響以及對人類主體性地位的挑戰(zhàn)，決定人工智能的研發(fā)可能性和使用范圍。雖然人工智能技術(shù)具有自主性，具有自我推理和自我決策能力，但人類是人工智能技術(shù)的“造物主”，人類可以選擇研發(fā)和使用人工智能系統(tǒng)的類型和屬性，可以決定具體的人工智能技術(shù)研發(fā)邊界，控制其使用規(guī)模，消除其負(fù)面影響和潛在風(fēng)險。人工智能系統(tǒng)的道德地位由人類來選擇和決定。人類的作用還表現(xiàn)在不能把人工智能體看作完全依賴于自身自主性的獨(dú)立主體，具體的人工智能技術(shù)出現(xiàn)是人類基于自身利益進(jìn)行選擇的結(jié)果。因此，人工智能技術(shù)的研發(fā)和使用是一個規(guī)范的問題，而不是描述性問題。

2.人工智能對齊的規(guī)范性分析

規(guī)范性分析涉及很多方面，首先是人類價值多元性問題。人類價值外延豐富，包括生命、健康、安全、自由、正義、平等、仁慈原則等。人類價值具有復(fù)雜性和社會性。其次，道德主體價值目標(biāo)多樣性和價值訴求多樣性。不同道德主體具有不同的價值目標(biāo)，不同利益相關(guān)者之間的價值訴求是不同的。例如，人工智能系統(tǒng)研發(fā)者注重算力，人工智能系統(tǒng)運(yùn)用者注重效益，人工智能系統(tǒng)用戶注重系統(tǒng)的可信賴性，政府部門注重人工智能系統(tǒng)使用的公平性和社會影響等。再次，道德的動態(tài)性與人工智能程序的變動性，當(dāng)價值本身保持不變時，對價值的理解或解釋可能發(fā)生變化。例如“安全”價值，在自動駕駛汽車設(shè)計中，可以指駕駛員和乘客的安全（乘員安全），也可以指路人的安全。最后，人工智能價值對齊實施過程中可能產(chǎn)生價值沖突或者陷入倫理困境，例如，自動駕駛汽車危急時刻的決策到底是以車內(nèi)人優(yōu)先還是以行人優(yōu)先？我們不能因為價值多元性和變動性而否認(rèn)全球價值共識的可能性，雖然各利益相關(guān)者價值訴求各有不同，但所有人都注重人工智能系統(tǒng)的安全性和可解釋性。

人工智能對齊是人工智能系統(tǒng)設(shè)計和發(fā)展的目標(biāo)，也是人工智能技術(shù)發(fā)展的過程，就像在海上一直航行的特修斯之船一樣邊走邊修，在人工智能技術(shù)發(fā)展過程中糾偏正向，通過在設(shè)計中包含人類意圖，在算法運(yùn)行中符合和體現(xiàn)人類價值觀，最終實現(xiàn)與人類根本利益一致的目標(biāo)。為了實現(xiàn)這樣的目標(biāo)，需要在設(shè)計中嵌入人類價值，需要在算法運(yùn)行過程中協(xié)調(diào)不同利益相關(guān)者的利益。2017年，千名人工智能相關(guān)領(lǐng)域的專家聯(lián)合簽署了《阿西洛馬人工智能23條原則》，旨在指導(dǎo)全球AI技術(shù)的發(fā)展，其中重要的一條原則是倫理和價值原則，即AI系統(tǒng)的設(shè)計者和建設(shè)者有責(zé)任和機(jī)會塑造這些道德含義，確保其目標(biāo)和行為與人類的價值觀相一致。AI系統(tǒng)應(yīng)遵守人類的價值觀，包括尊嚴(yán)、權(quán)利、自由和文化多樣性。2023年11月1日，在首屆全球人工智能安全峰會中，中、美等28國通過《布萊切利AI宣言》（Bletchley Declaration），旨在表達(dá)對未來強(qiáng)大人工智能模型對人類生存造成威脅的擔(dān)憂，以及對當(dāng)前人工智能增強(qiáng)有害或偏見信息的擔(dān)憂，希望通過法規(guī)等方式降低相關(guān)風(fēng)險，同意通過國際合作，建立人工智能的監(jiān)管體系。亞馬遜、微軟、谷歌、IBM、Facebook和蘋果聯(lián)合建立了人工智能行業(yè)聯(lián)盟，共同研究和制定人工智能技術(shù)的最佳實踐方案。

3.人工智能對齊的技術(shù)性問題分析

人工智能對齊需要將人工智能對齊的技術(shù)可操作性難題和人工智能對齊的價值目標(biāo)轉(zhuǎn)化為技術(shù)標(biāo)準(zhǔn)進(jìn)行分析。首先，人工智能對齊不同技術(shù)路線存在可操作性難題。人工智能技術(shù)有符號主義人工智能、聯(lián)結(jié)主義人工智能和行為主義人工智能等不同的技術(shù)路線。符號主義人工智能通過數(shù)理邏輯、啟發(fā)式算法等技術(shù)讓機(jī)器具有推理能力，讓機(jī)器具有計算智能；聯(lián)結(jié)主義人工智能利用仿生學(xué)模擬人類大腦生物結(jié)構(gòu)和神經(jīng)網(wǎng)絡(luò)，讓機(jī)器具有感知智能；行為主義人工智能通過像人一樣思考和行動讓機(jī)器具有了認(rèn)知智能。技術(shù)路線的復(fù)雜性為人工智能對齊帶來技術(shù)可操作性難題。其次，技術(shù)的不透明性和算法黑箱帶來人工智能對齊的技術(shù)可操作性難題。人工智能系統(tǒng)具有復(fù)雜性和不透明性，算法黑箱是人工智能系統(tǒng)的固有問題，人工智能系統(tǒng)具有自主性和自我推理、自我決策能力，不受外界干擾，并非完全按照人類設(shè)計的算法來行動，因此，算法黑箱使得讓人工智能技術(shù)發(fā)展符合人類的價值目標(biāo)遇到難題。最后，人工智能技術(shù)應(yīng)用場景的多元性為技術(shù)可操作性帶來困難。不同場景有不同的技術(shù)要求和設(shè)計標(biāo)準(zhǔn)。例如，人工智能虛擬助手需要能理解并回答用戶的問題，執(zhí)行一些簡單的任務(wù)，如設(shè)置提醒、播放音樂或提供天氣預(yù)報等。個性化推薦場景需要運(yùn)用推薦算法進(jìn)行商品推薦。自動駕駛場景需要識別路標(biāo)、預(yù)測行為和進(jìn)行決策等。人工智能技術(shù)應(yīng)用場景的復(fù)雜性為人工智能對齊帶來技術(shù)難題。

人工智能對齊的倫理規(guī)范和具體的技術(shù)設(shè)計標(biāo)準(zhǔn)之間存在難以跨越的邏輯鴻溝，道德是人類的屬性，而設(shè)計需要具體的技術(shù)標(biāo)準(zhǔn)和技術(shù)規(guī)范，倫理規(guī)范如何轉(zhuǎn)換成設(shè)計標(biāo)準(zhǔn)是一個邏輯難題。如果不能搭建倫理規(guī)范與技術(shù)設(shè)計標(biāo)準(zhǔn)之間的橋梁，則無法跨越這個邏輯鴻溝，人工智能對齊的目標(biāo)也就無法真正實現(xiàn)。為了實現(xiàn)人工智能對齊的目標(biāo)，需要解決兩個問題。首先，技術(shù)具有道德調(diào)節(jié)作用是人工智能對齊的技術(shù)前提，如果技術(shù)不能調(diào)節(jié)道德，不能把道德嵌入物中，則不能實現(xiàn)人工智能價值對齊的目標(biāo)。荷蘭特溫特大學(xué)的彼得-保羅·維貝克（Peter-Paul Verbeek）認(rèn)為技術(shù)具有道德調(diào)節(jié)作用，人類可以把價值嵌入技術(shù)人工物中[15]（361-380）。其次，需要把價值目標(biāo)轉(zhuǎn)化為具體的設(shè)計標(biāo)準(zhǔn)。價值對齊不是掛在嘴邊的口號，為了能成功落地，必須把不同場景的價值目標(biāo)轉(zhuǎn)化為具體的設(shè)計標(biāo)準(zhǔn)，實現(xiàn)價值目標(biāo)的具體場景落地，比如人工智能系統(tǒng)的“安全性”價值目標(biāo)可以轉(zhuǎn)換為“技術(shù)魯棒性”“安全可中斷性”等技術(shù)設(shè)計標(biāo)準(zhǔn)；人工智能系統(tǒng)的“可解釋性”價值目標(biāo)可以轉(zhuǎn)換為“故障透明性”“數(shù)據(jù)可追溯性”等設(shè)計標(biāo)準(zhǔn)；人工智能系統(tǒng)的“公正性”價值目標(biāo)可以轉(zhuǎn)換為“避免算法歧視”“避免算法濫用”等設(shè)計標(biāo)準(zhǔn)；人工智能系統(tǒng)的“可控性”價值目標(biāo)可以轉(zhuǎn)換為“系統(tǒng)可追蹤”“系統(tǒng)可追溯”設(shè)計標(biāo)準(zhǔn)等。只有這樣，才能實現(xiàn)真正的人工智能技術(shù)的價值對齊，才能安全地使用人工智能技術(shù)，才能把人工智能技術(shù)限制在可控范疇內(nèi)。

結(jié)語

人工智能技術(shù)在社會中的地位是一個規(guī)范性問題，技術(shù)本身沒有道德性，使用技術(shù)的人的道德水平?jīng)Q定了技術(shù)發(fā)展的方向和可能性，是人類決定具體人工智能技術(shù)的研發(fā)和使用邊界，人為人工智能技術(shù)立法。人類研發(fā)和使用人工智能系統(tǒng)是為了減輕負(fù)擔(dān)，增強(qiáng)人類福祉，應(yīng)該在研發(fā)和使用過程中體現(xiàn)人類意志和價值觀，但因人工智能系統(tǒng)的復(fù)雜性、自主性和算法的不透明性，人工智能價值對齊并非一蹴而就，人工智能價值對齊既是一個目標(biāo)也是一個過程。為了實現(xiàn)人工智能價值對齊的目標(biāo)，必須先對人類價值觀進(jìn)行考量和分析，再在具體的人工智能技術(shù)發(fā)展過中實現(xiàn)價值對齊的目標(biāo)。人類研發(fā)和使用人工智能系統(tǒng)必須尊重人類的選擇，符合人類的意愿和價值觀，維護(hù)人類尊嚴(yán)，確保人類的主體性地位，以實現(xiàn)人類的自由和解放為最終價值目標(biāo)。

[參考文獻(xiàn)]

[1]WIENER N. Some Moral and Technical Consequences of Automation[J].Science，1960，131（3410）.

[2]BRIAN C. The Alignment Problem：Machine Learning and Human Values[M].Norton：W.W.Norton Compa？ ny，2020.

[3]DIGNUM V. Responsible Artificial Intelligence：How to Develop and Use AI in a Responsible Way[M].Swit？ zerland：Springer Nature，2019.

[4]BRYSON J，WINFIELDA F T. Standardizing Ethical Design for Artificial Intelligence and Autonomous Systems[J].Computer，2017，50（5）.

[5]梅拉妮·米歇爾.AI 3.0[M].王飛躍，李玉珂，王曉，等譯.成都：四川科學(xué)技術(shù)出版社，2021.

[6]BONNEMAINS V，SAUREL C，TESSIER C. Embedded Ethics：Some Technical and Ethical Challenges[J].Eth？ ics and Information Technology，2018（20）.

[7]GOVINDARAJULU N S，BRINGSJORD S.Ethical Regulation of Robots Must Be Embedded in Their Operating Systems[C]//TRAPPL R（ed.）. A Construction Manual for Robots’Ethical Systems：Requirements，Methods，Implemen？ tations.Springer International Publishing，2015.

[8]阿西莫夫.銀河帝國8：我，機(jī)器人[M].葉李華，譯.南京：江蘇文藝出版社，2013.

[9]THOMDON A J，SCHMOLDT D L. Ethics in Computer Software Design and Development[J].Computers and Electronics in Agriculture，2001，30.

[10]VERUGGIO G，OPERTO F. Roboethics：A Bottom-up Interdisciplinary Discourse in the Field of Applied Ethics in Robotics[J].International Review of Information Ethics，2006（12）.

[11]TONKENS R. A Challenge for Machine Ethics[J]. Minds and Machines，2009，19（3）.

[12]RUSSELL S，DEWEY D，TEGMARK M. Research Priorities for Robust and Beneficial Artificial Intelligence[J].AI Magazine，2015，36（4）.

[13]JI J，QIU T，CHEN B，et al. AI Alignment：A Comprehensive Survey[J/OL].[2023-10-30]. https：//arxiv.org/ abs/2310.19852.

[14]GABRIEL L. Artificial Intelligence，Values，and Alignment[J].Minds and Machines，2020（30）.

[15]VERBEEK P-P. Materializing Morality：Design Ethics and Technological Mediation[J].Science，Technology and Human Values，2006，31（3）.

（責(zé)任編輯：孫保學(xué)）

倫理學(xué)研究2024年4期

倫理學(xué)研究的其它文章: 社交媒體健康傳播的倫理問題及規(guī)制; 泰州學(xué)派“百姓日用即道”思想對生態(tài)倫理建構(gòu)的現(xiàn)實價值; 羅爾斯式的職業(yè)選擇自由是一種基本自由嗎？; 電車難題再審視：從“悲劇性的”情形與后果評價談起; 算法主義的倫理批判; 德雷福斯解決文明間倫理沖突的方案

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能價值對齊的價值表征及倫理路徑