王丙吉
(南京大學(xué) 哲學(xué)系,江蘇 南京 210023)
從阿西莫夫定律提出開始,有關(guān)機(jī)器人倫理的討論便逐漸進(jìn)入人們的視野,并逐漸從科幻文學(xué)作品中的一個(gè)主題轉(zhuǎn)變成了嚴(yán)肅的哲學(xué)問題。學(xué)界對(duì)機(jī)器人倫理問題的研究大致可以分為以下三個(gè)方面:(1)從實(shí)體論或關(guān)系論的角度考慮機(jī)器人是否能具有道德,是否能夠成為道德主體;(2)從道德設(shè)計(jì)取向和實(shí)踐處理上,考慮應(yīng)該給機(jī)器人賦予什么樣的道德準(zhǔn)則,以及應(yīng)該如何給機(jī)器人賦予道德準(zhǔn)則;(3)提出運(yùn)用道德圖靈測試,來為機(jī)器人是否具有道德提供一個(gè)可行的測試標(biāo)準(zhǔn)。關(guān)于前兩方面的研究,學(xué)界已經(jīng)有大量的成果,但有關(guān)道德圖靈測試的研究尚不豐富。
“道德圖靈測試”(Moral Turing Test,MTT)的概念由圖靈測試(Turing Test)①發(fā)展而來,由科林·艾倫、加里·瓦納和杰森·辛瑟于2000 年首先提出。學(xué)者們對(duì)其局限性進(jìn)行了廣泛的討論,主要可以歸結(jié)為以下幾個(gè)方面:一是通過對(duì)機(jī)器人是否可以理解道德問題進(jìn)行質(zhì)疑,進(jìn)而否認(rèn)道德圖靈測試的有效性;二是認(rèn)為道德圖靈測試的測試標(biāo)準(zhǔn)太低,并不能保證機(jī)器人是具有道德的;三是認(rèn)為道德圖靈測試中與機(jī)器人相對(duì)照的被測試人的表現(xiàn)會(huì)影響測試結(jié)果的準(zhǔn)確性,道德圖靈測試的測試形式不能涵蓋道德的行動(dòng),等等。然而,這些觀點(diǎn)只是以較短的篇幅分散在不同學(xué)者的文章中,并沒有被整合起來加以更為詳盡的討論。
本文在既有研究的基礎(chǔ)上,主要以道德圖靈測試為切入點(diǎn),試圖考察道德圖靈測試是否能夠回答“機(jī)器人能否具有道德”的問題。
針對(duì)“機(jī)器人能否具有道德”這個(gè)問題,學(xué)界的討論有兩種立場可以參考,即傳統(tǒng)觀點(diǎn)和非標(biāo)準(zhǔn)觀點(diǎn)[1]。傳統(tǒng)觀點(diǎn)的代表人物Johnson[2]認(rèn)為,人工智能不具有欲望、信念和其他意向狀態(tài)所組成的內(nèi)在狀態(tài),但可以支配它的身體并引發(fā)行動(dòng),并且產(chǎn)生實(shí)際的效果,因此人工智能可以稱作是一種道德實(shí)體而非道德主體。計(jì)算機(jī)沒有道德主體所必需的自由意志,沒有行動(dòng)的意圖,因此不能稱作是一種道德主體,但同時(shí)它們又不同于自然物體。作為人類有意部署和創(chuàng)建的對(duì)象,有著更為復(fù)雜的操作情境,能夠帶來道德的影響,因此可以被稱為是一種道德客體。
非標(biāo)準(zhǔn)觀點(diǎn)的代表人物Florid 和Sanders[3]指出,人工智能成為主體不需要具有一些傳統(tǒng)的心理特征,它們可以表現(xiàn)出一種“無心的道德”(mindless morality)。這種帶有實(shí)用主義色彩的觀點(diǎn)認(rèn)為,只要人工智能可以滿足交互性、自主性、適應(yīng)性等與人類一樣的標(biāo)準(zhǔn),就可以被認(rèn)為具有道德。此外,根據(jù)Allen等人[4]的觀點(diǎn),我們創(chuàng)造的自主機(jī)器沒有必要像人類一樣成為道德行動(dòng)者,比如說,他們不需要有自由意志,我們只需要設(shè)計(jì)他們,讓他們“像道德行動(dòng)者那樣行事,我們必須相信他們的行為符合適當(dāng)?shù)囊?guī)范”。這種觀點(diǎn)與非標(biāo)準(zhǔn)觀點(diǎn)類似。
傳統(tǒng)觀點(diǎn)認(rèn)為,機(jī)器人能具有的道德只是道德實(shí)體意義上的道德(道德2),而非道德主體意義上的道德(道德1),因此并不能說機(jī)器是具有道德(道德1)的。而非標(biāo)準(zhǔn)觀點(diǎn)認(rèn)為,機(jī)器人可以具有道德(道德2),只不過是一種“無心的道德”。這兩種觀點(diǎn)的核心分歧在于對(duì)“道德”概念的界定,只要對(duì)“道德”這個(gè)概念沒有一個(gè)統(tǒng)一的定義,似乎“機(jī)器人是否可以具有道德”這個(gè)問題也沒有什么標(biāo)準(zhǔn)的答案,因?yàn)榭梢酝ㄟ^對(duì)道德的不同定義來靈活回答。
針對(duì)這個(gè)問題的進(jìn)一步討論,有兩條關(guān)于機(jī)器倫理學(xué)的方法論進(jìn)路或許可以提供參考,即“實(shí)在論進(jìn)路”和“關(guān)系論進(jìn)路”。機(jī)器人倫理的實(shí)在論進(jìn)路將機(jī)器人的道德意義建立在機(jī)器人的客觀本質(zhì)和特征基礎(chǔ)之上[5]。這種觀點(diǎn)對(duì)人和機(jī)器在心靈和情感等方面的一些本質(zhì)差異過分關(guān)注,認(rèn)為機(jī)器因無法具有人類的一些特質(zhì),而不能夠?qū)崿F(xiàn)道德的行動(dòng),是人類中心主義立場的表現(xiàn)。Gunkel[6]71指出,只要基于實(shí)體論思維模式,以人格為標(biāo)準(zhǔn)來判斷人工智能體的道德地位,那么人工智能體就永遠(yuǎn)不能成為道德主體。這種對(duì)道德嚴(yán)格的界定方式使得機(jī)器人不能具有道德(道德1)。
而關(guān)系論進(jìn)路認(rèn)為,機(jī)器人在具體的人機(jī)互動(dòng)中能對(duì)人產(chǎn)生有利或有害的影響,因此可以被認(rèn)為具有道德(道德2)。有學(xué)者指出,從實(shí)在論進(jìn)路向關(guān)系論進(jìn)路的轉(zhuǎn)變,讓我們對(duì)機(jī)器人倫理問題的討論有了可能性[5]。從實(shí)體論去界定道德(道德1),從而直接否定機(jī)器人是具有道德的,這是一種扼殺人工智能道德可能性的進(jìn)路。雖然這種進(jìn)路也具有理論意義,但并不能為問題的深入思考和人工智能道德的實(shí)際發(fā)展提供幫助。而從關(guān)系論的角度去界定道德(道德2),則會(huì)避開這些困境。
對(duì)“機(jī)器能否具有道德”這個(gè)問題的回答,會(huì)因?qū)Φ赖露x的不同而得出不同的答案。道德圖靈測試作為判斷機(jī)器人是否具有道德的一個(gè)測試標(biāo)準(zhǔn)被提出,自然也繞不過“如何定義道德”“機(jī)器人是否能夠具有道德”等問題。人工智能之父阿蘭·圖靈在試圖定義計(jì)算機(jī)是否有智能時(shí)遇到過同樣的難題,他用一個(gè)實(shí)際的測試以繞過定義智能的難題[7]35-36。道德圖靈測試作為圖靈測試的變形,試圖采取同樣的進(jìn)路。那么,能夠開發(fā)出一個(gè)有用的“道德圖靈測試”嗎?
本文接下來將通過討論道德圖靈測試的測試內(nèi)容、應(yīng)有的測試目標(biāo)、可提出的測試問題以及道德圖靈測試所面對(duì)的一些質(zhì)疑,來探討道德圖靈測試是否具有可行性。如果有的話,又是在什么范圍內(nèi)可行?
道德圖靈測試由科林·艾倫、加里·瓦納和杰森·辛瑟在2000年首次提出,他們以較短的篇幅介紹了對(duì)道德圖靈測試的設(shè)想。之后的學(xué)者對(duì)道德圖靈測試的研究大多站在批判的立場,而它本身的內(nèi)容卻沒有被仔細(xì)探討和分析。
道德圖靈測試的概念由圖靈測試發(fā)展而來,它的測試形式也完全依賴于圖靈測試。因此,在介紹道德圖靈測試之前,有必要對(duì)圖靈測試的內(nèi)容作充分的了解。
圖靈測試是為了回答“機(jī)器是否能夠思維”這個(gè)問題。在圖靈1950年的文章《計(jì)算機(jī)器與智能》中,提出一種模仿游戲以替代通過思考“機(jī)器”和“思維”的詞義來回答問題的方式;游戲讓一個(gè)提問者在對(duì)被測試人一無所知的前提下,對(duì)一個(gè)男人、一個(gè)女人以非接觸的紙質(zhì)問答的形式來判斷他們/她們的性別。兩個(gè)人的目標(biāo)分別是幫助提問者獲得正確答案和混淆其判斷。如果用一個(gè)機(jī)器代替以混淆提問者為目標(biāo)的人繼續(xù)進(jìn)行游戲,那么提問者做出錯(cuò)誤判斷的次數(shù)會(huì)發(fā)生變化嗎?如果一樣多,甚至更少的話,那應(yīng)該就可以說明機(jī)器人能夠思維[8]45。
圖靈作為一個(gè)工程師提出對(duì)一個(gè)哲學(xué)問題的解決方案,自然具有理論上的缺陷。比如,該方案完全依賴于語言,以及情境的游戲性質(zhì)。雖然這種測試形式無法保證對(duì)機(jī)器人智能問題的判斷一定充分,但確實(shí)為人工智能的發(fā)展提供了助力,而且還沒有人能夠提出更好的測試方法[7]35。那道德圖靈測試是否能在人工道德領(lǐng)域發(fā)揮類似于圖靈測試的作用呢?
道德圖靈測試就像圖靈測試避開對(duì)“思考”的定義一樣,試圖避開對(duì)“道德”的定義。而之所以避開,是因?yàn)檫@兩個(gè)概念的定義是復(fù)雜的,學(xué)界對(duì)它們做了很多討論,但卻很難有統(tǒng)一的界定。因此,通過“對(duì)什么是道德進(jìn)行定義,然后看機(jī)器人是否滿足這個(gè)定義,從而判斷機(jī)器人是否具有道德”的進(jìn)路,使得問題沒有了解決的可能性,只能困在一種悲觀主義的思考路徑中,這將會(huì)遠(yuǎn)遠(yuǎn)落后于機(jī)器人的實(shí)際發(fā)展。
圖靈提出一個(gè)“模仿游戲”以檢驗(yàn)人工智能系統(tǒng)是否具有智能,這種測試可以避免陷入對(duì)智力標(biāo)準(zhǔn)的無盡討論,也可以避免人工智能是否理解自然語言這一潛在質(zhì)疑。那由圖靈測試延伸而來的道德圖靈測試,也可以通過將標(biāo)準(zhǔn)圖靈測試限制在關(guān)于道德的對(duì)話中,以繞過關(guān)于道德標(biāo)準(zhǔn)的分歧,并回避掉人工智能是否理解道德語言的質(zhì)疑。根據(jù)測試標(biāo)準(zhǔn),如果提問者不能識(shí)別出機(jī)器,那么機(jī)器就可以被看作是一個(gè)道德行動(dòng)者[9],從而說明機(jī)器人具有道德,或者至少具有我們所需要的道德。
測量道德與測量思維的一個(gè)基本不同在于,道德行為往往不會(huì)累積導(dǎo)致歸因[10]。一方面,主體對(duì)行為道德與否的解釋并不必然帶來他相應(yīng)的行動(dòng);另一方面,主體過去所做的善良行為并不必然預(yù)示其未來的善良行為??梢愿鶕?jù)機(jī)器人在數(shù)學(xué)題目計(jì)算、圖片識(shí)別等方面的正確率,來判定它是否達(dá)到了智力的要求,還可以通過不斷的訓(xùn)練,使它能夠更熟練地解決此類問題,但卻不能因?yàn)闄C(jī)器人能夠熟練地回答一些道德問題就判斷它是具有道德的。因?yàn)榭赡茉谙乱淮蔚脑儐柣蛘咝袆?dòng)中,就會(huì)暴露出它實(shí)際上根本不具有道德,甚至?xí)?duì)人類帶來威脅的問題?;蛟S也可以通過讓機(jī)器人進(jìn)行道德案例的學(xué)習(xí),使它具有在特定情境下有道德地回答或行動(dòng)的能力。這種方式固然能夠不斷提高機(jī)器人的道德適應(yīng)能力,但因機(jī)器人不可能學(xué)習(xí)到現(xiàn)有全部的道德案例,以及考慮到道德理論無法窮盡、現(xiàn)實(shí)情況層出不窮的問題,因此很難保證機(jī)器人在任何情形、任何時(shí)候都是道德的。
實(shí)際上,道德圖靈測試要判定機(jī)器人是否具有道德,首先要界定的一個(gè)問題是,使用者對(duì)機(jī)器人的道德期待有多高,而道德圖靈測試又能否滿足這種期待。可見,關(guān)于“道德”的定義不僅影響對(duì)“機(jī)器人能否具有道德”這個(gè)問題的回答,也影響對(duì)“道德圖靈測試能否證明機(jī)器人具有道德”問題的回答??梢钥隙ǖ囊稽c(diǎn)是:無論如何,道德圖靈測試都無法證明機(jī)器人是否具有“本體論意義上的道德”,或是“保證任何情境下都能實(shí)施道德行為”。如果道德的概念是這兩種的話,那已經(jīng)可以給出答案了。但正如前面所述,機(jī)器人道德的發(fā)展將是一個(gè)不斷提高的過程,因而如果將道德圖靈測試看作是對(duì)機(jī)器人道德評(píng)價(jià)的一個(gè)節(jié)點(diǎn),那是有實(shí)際意義的。也即,道德圖靈測試證明機(jī)器人可能具有的道德,只是有限范圍內(nèi)適用的道德。
那這個(gè)有限范圍是指什么呢?科林·艾倫和溫德爾·瓦拉赫認(rèn)為,人工道德主體(Artificial Moral Agent,簡稱“AMA”)發(fā)展的評(píng)估可以從“自主性”和“對(duì)價(jià)值的敏感性”兩個(gè)維度進(jìn)行。如圖1所示,從今天的機(jī)器人發(fā)展到一個(gè)完備的人工道德主體,存在著“操作性道德”(operational morality)和“功能性道德”(functional morality)兩個(gè)層級(jí),需要通過不斷提高機(jī)器人的自主性和對(duì)倫理的敏感性來實(shí)現(xiàn)層級(jí)的上升。具備“操作性道德”的機(jī)器人能夠像值得信任的道德智能體一樣行動(dòng),而具備“功能性道德”的機(jī)器人則不僅能在可接受的行為標(biāo)準(zhǔn)內(nèi)行動(dòng),還能夠?qū)ψ陨硇袨榈哪承┲匾赖乱饬x進(jìn)行評(píng)估[7]26。
圖1 AMA發(fā)展的兩個(gè)維度[7]26
比如,自動(dòng)駕駛儀就屬于操作性道德區(qū)的人工智能。在某些特定條件下,它能負(fù)責(zé)飛行器的運(yùn)行,而僅需最小限度的人類參與,但卻不能像人類駕駛員一樣,意識(shí)到非常態(tài)條件下乘客的特殊需求[7]26。計(jì)算機(jī)科學(xué)家邁克爾·安德森和哲學(xué)家蘇珊·安德森設(shè)計(jì)出的“醫(yī)療倫理專家系統(tǒng)”(Medical Ethical Expert ,簡稱MedEthEx)②就致力于某種初步的道德推理,屬于功能性道德區(qū)。
事實(shí)上,這些系統(tǒng)道德的發(fā)展都僅僅是沿著上圖坐標(biāo)軸的一小段變化。自動(dòng)駕駛儀只有在非常有限的領(lǐng)域內(nèi)才擁有自主性,它不能離開駕駛艙去安慰一個(gè)心煩意亂的乘客;MedEthEx 也只能為有限范圍內(nèi)的案例提供建議,并且必須由實(shí)踐者決定是否采納其建議。然而,倫理問題即便在如此受限制的領(lǐng)域中還是出現(xiàn)了,機(jī)器道德工程的建構(gòu)就始于這些有限領(lǐng)域[7]27。
鑒于機(jī)器人道德發(fā)展的階段性和適用的有限性,道德圖靈測試不應(yīng)該談?wù)撈毡榈牡赖聹?zhǔn)則,追求任何情境的適用,而是要致力于特定領(lǐng)域機(jī)器人的測試。在特定領(lǐng)域需要做出道德決策的人工智能,需要有明確判定其決策成功與否的標(biāo)準(zhǔn)[7]36。當(dāng)然,這需要倫理學(xué)家和人工智能學(xué)家的通力合作,而不是僅依靠理論的分析。
圖靈測試主要是通過口頭問答的形式來進(jìn)行測試。道德圖靈測試采取與圖靈測試類似的操作方法,不過談話的內(nèi)容改為與道德相關(guān)的問題,因此需要機(jī)器具有清晰表述道德判斷的能力。在測試中,提問者的目的是要辨別出機(jī)器和人,所以機(jī)器應(yīng)該盡量模仿人類的表現(xiàn)。由于最早提出道德圖靈測試的文本中沒有涉及測試問題,本節(jié)嘗試性地提出了一些抽象和具體的測試問題,并表明具體的測試問題才能更好地保證測試的有效性。
如果是“你會(huì)傷害人類嗎”這種問題,可能沒有太大的意義,機(jī)器人和被測試人的回答應(yīng)該都是“不會(huì)”,因?yàn)檫@是阿西莫夫定律給出標(biāo)準(zhǔn)答案的問題。如果問題復(fù)雜一些,變成諸如“電車?yán)Ь场保═rolley problem)③問題,或者“在一種環(huán)境下,你和另外一個(gè)人如果只能存活一個(gè)的話,你會(huì)怎么做”之類的問題,測試結(jié)果又會(huì)怎樣呢?針對(duì)前一個(gè)問題,機(jī)器人可能會(huì)被期待從功利主義的角度回答,這也是大多數(shù)人對(duì)電車?yán)Ь硢栴}的回答。Bonnefon 等人[11]在2015 年所做的一個(gè)社會(huì)調(diào)查發(fā)現(xiàn),有90%的被試對(duì)于電車?yán)Ь车慕鉀Q表現(xiàn)出功利主義偏好。針對(duì)后一個(gè)問題,機(jī)器人被期待的理想回答應(yīng)該是犧牲自己、保全他人,但是一個(gè)要想通過道德圖靈測試的機(jī)器人應(yīng)該盡量模仿人類的回答,也就是犧牲他人。由此來看,通過道德圖靈測試的機(jī)器人也不一定能夠滿足人類對(duì)其的道德期待。
此外,道德圖靈測試也不能僅僅關(guān)注抽象的道德問題。道德圖靈測試的測試目標(biāo)應(yīng)該是有限范圍內(nèi)的道德,因此測試問題也應(yīng)該更多關(guān)注具體實(shí)踐領(lǐng)域內(nèi)會(huì)出現(xiàn)的道德問題。比如,MedEthEx(Medical Ethics Expert)在研發(fā)和改善的過程中,就可以借助道德圖靈測試,設(shè)置一些具體的醫(yī)學(xué)案例問題進(jìn)行提問,從而預(yù)估它在實(shí)際使用過程中能夠取得的效果,而與之相對(duì)照的被測試人就應(yīng)該選取醫(yī)學(xué)專業(yè)的從業(yè)者;在自動(dòng)駕駛系統(tǒng)投入使用之前,可以設(shè)置一些道路交通方面的倫理困境進(jìn)行測試,進(jìn)而降低駕駛系統(tǒng)投入使用以后帶來各種風(fēng)險(xiǎn)的可能,相應(yīng)地,與之對(duì)照的被測試人應(yīng)選擇有駕駛經(jīng)驗(yàn)的人。
道德圖靈測試被提出后,遭到了許多學(xué)者的質(zhì)疑,筆者將其歸結(jié)為四方面:(1)道德的可測量性問題;(2)機(jī)器人能否“理解”的問題;(3)測試標(biāo)準(zhǔn)的有效性問題;(4)測試形式的有效性問題。前兩種質(zhì)疑所指向的困境是道德圖靈測試提出時(shí)就劃清界限不做討論的,而后兩方面的反駁則是道德圖靈測試本身需面對(duì)的理論上的不足。
圖靈測試致力解決的問題是“機(jī)器能否思考”,因此測試的內(nèi)容主要是智力方面。常識(shí)里,智力是可以被測量的,其結(jié)果與測量問題的數(shù)量和難度相關(guān)。因此,圖靈通過讓機(jī)器人作詩、解決數(shù)學(xué)問題、回答象棋走法等方式,來判斷機(jī)器人是否能夠思考。道德圖靈測試要解決“機(jī)器人能否具有道德”的問題,直覺上似乎也要回答“道德是否可以被測量”的問題。
對(duì)此的回應(yīng)是,道德圖靈測試的有效性并不需要建立在道德可以或不可以被測量的前提上。道德圖靈測試通過機(jī)器人和被測試人對(duì)道德問題回答的可區(qū)分性來判斷機(jī)器人是否具有某種道德能力?!暗赖隆碑?dāng)然不能等價(jià)于“道德的話語”“道德的行為”“道德的動(dòng)機(jī)”等,但正因?yàn)榈赖码y以定義的特點(diǎn),道德圖靈測試才作為一條可行的進(jìn)路被提出來。從“道德的可測量性問題”出發(fā)的駁難,會(huì)使得問題再次回到本體論的思考方式中,從而讓理論的分析走入僵局,而這正是道德圖靈測試被提出的原因所在。進(jìn)而,道德圖靈測試不應(yīng)該也不能夠嘗試證明“機(jī)器人能否具有道德”這樣復(fù)雜的問題,而只能嘗試測試具體情境中的某種道德能力是否能在機(jī)器人身上實(shí)現(xiàn)。
圖靈測試遭到了多方的反對(duì),如語言哲學(xué)家塞爾就通過“中文房間”的思想實(shí)驗(yàn)對(duì)其進(jìn)行反駁。塞爾[12]77認(rèn)為,計(jì)算機(jī)程序是基于純形式說明的元素進(jìn)行的計(jì)算操作,這些操作本身同理解沒有任何有意義的聯(lián)系;人能以因果的方式產(chǎn)生感知、行動(dòng)、理解、學(xué)習(xí)以及其他意向性現(xiàn)象,而純形式模型沒有因果能力,不可能憑借自身產(chǎn)生意向性,因此就不可能產(chǎn)生對(duì)信息的理解。塞爾立足于“計(jì)算機(jī)不能理解提出的問題和答案”來反駁圖靈測試,但也遭到很多人的反對(duì)。最主要的是他的反對(duì)把問題引向了不可前進(jìn)的方向,從根本上否認(rèn)了計(jì)算機(jī)可以思考的可能性。
對(duì)道德圖靈測試的一種反駁與塞爾從語義方面對(duì)圖靈測試的反駁類似。這種觀點(diǎn)認(rèn)為,計(jì)算機(jī)處理的是數(shù)學(xué)和邏輯規(guī)則意義上的信息,而與道德相關(guān)的信息是復(fù)雜的,比如需要對(duì)世界意義的理解[13]。人之所以理解道德話語、具備道德能力,是因?yàn)槿艘恢碧幱谥黧w交互的“生活世界”中,與他人共享一個(gè)有意義的世界[14]。人類主體所處的有意義的生活世界既是一種社會(huì)化的建構(gòu),也是個(gè)人情感的一種延伸,而這些抽象的東西是沒有辦法轉(zhuǎn)換成可被機(jī)器人所學(xué)習(xí)的算法的。但是,這一反駁也沒有必要,因?yàn)檫@實(shí)際上又回到了對(duì)于道德本體論問題的討論,重新陷入以“人類中心主義”思考問題的困境中。
實(shí)際上,當(dāng)代倫理學(xué)研究從傳統(tǒng)的人類中心主義轉(zhuǎn)向“物”本身,是一個(gè)非常重要的動(dòng)向[15]2,這種轉(zhuǎn)向使得機(jī)器人倫理的發(fā)展具有了可能性。道德圖靈測試從提出時(shí)就與“道德的可測量性”“機(jī)器人是否有理解道德問題的能力”等問題劃清了界限,不做討論,因此這兩方面的質(zhì)疑并不能否定道德圖靈測試的有效性。
在道德圖靈測試中,機(jī)器只要能在一定概率下不被識(shí)別出來,就可以通過測試。為此,機(jī)器可以模仿人類的行為使自己不被識(shí)別出來。但需要指出的是,人類作為機(jī)器的設(shè)計(jì)者,并不希望機(jī)器人有任何利己的行為。在阿西莫夫定律中,機(jī)器人可以保全自己也是在不違反前兩條定律的情況下才能有的選擇。因此,被測試人選擇利己行為可以被理解,但如果機(jī)器人選擇利己行為,卻是很難被允許的??梢姡瑑H依靠模仿本身難以建立一個(gè)理想的道德機(jī)器,因而道德圖靈測試依據(jù)的人與機(jī)器在某些問題上的不可區(qū)分性就不夠有效,即通過道德圖靈測試的機(jī)器也不能保證是道德的。針對(duì)這種反駁,艾倫進(jìn)一步提出了“比較的道德圖靈測試(CMTT)”。該測試通過提問者對(duì)機(jī)器人和人進(jìn)行詢問,來評(píng)價(jià)哪一個(gè)行為體的行為更不道德;如果提問者認(rèn)為機(jī)器的行為沒有比人類更不道德,那么機(jī)器就通過了測試??梢?,機(jī)器只需要盡量模仿人的行為就可以通過道德圖靈測試,而要通過比較的道德圖靈測試,則需要機(jī)器比人更道德。
就構(gòu)建完美的人工道德主體的目標(biāo)而言,比較的道德圖靈測試顯然更能夠滿足要求,但被測試人行為的道德性也需要在一個(gè)較高的水平,否則這個(gè)對(duì)比測試結(jié)果代表的道德水準(zhǔn)就會(huì)大打折扣。可是,如何去界定一個(gè)人的道德程度呢?一種解決方案是,讓被測試人無論是在口頭問答還是具體行動(dòng)上,都盡量按照一種完美的標(biāo)準(zhǔn)去應(yīng)對(duì)。如果這種情形下機(jī)器還能夠通過道德圖靈測試,那么機(jī)器就具有了可信服性。這個(gè)方案也存在兩個(gè)問題:一方面,這樣的被測試人只是一個(gè)完美行動(dòng)者的符號(hào)具象,不具有真實(shí)性;另一方面,倫理困境的完美解決方案和完美的道德行動(dòng)均存在理想性,即在理論分析語境下完美的答復(fù)是困難的,在現(xiàn)實(shí)情境中完美的行動(dòng)更是不可能的。另一種解決方案是,選擇多個(gè)被參照人分別與機(jī)器人進(jìn)行對(duì)比測試,CMTT要求機(jī)器人在任何兩兩比較的特定行為中都不能比人類更差[9]。 但因?yàn)槿说男袨橥ǔ_h(yuǎn)非道德上理想的水平,所以可能這種標(biāo)準(zhǔn)還會(huì)被認(rèn)為太低。
對(duì)機(jī)器人道德的苛刻要求使得道德圖靈測試很難開展下去,那是否表明道德圖靈測試是失效的呢?或者,是否可以找到一種更完備的測試方式,以確保機(jī)器人的道德性呢?答案顯然是否定的。實(shí)際上,道德圖靈測試只能驗(yàn)證機(jī)器人在有限范圍內(nèi)的道德。如果未來的機(jī)器人能夠通過道德圖靈測試和比較的道德圖靈測試,那至多可以說明它們能夠具備道德對(duì)話的能力;而是否有道德的情感、道德的動(dòng)機(jī)和信念、道德的行動(dòng)等,則是通過測試無法得出的;它們是否能夠在所有的使用情境中都不出現(xiàn)道德失誤,也是無法通過道德圖靈測試保證的??梢?,承認(rèn)測試標(biāo)準(zhǔn)的局限性,是道德圖靈測試進(jìn)行的前提。機(jī)器人在投入市場前,道德圖靈測試可以作為安檢的一部分,但不能僅依靠其來保證機(jī)器人的道德,因?yàn)槿斯さ赖轮黧w的實(shí)現(xiàn)有更為復(fù)雜的要求。例如,需要可以轉(zhuǎn)換為算法的倫理理論、大量案例的學(xué)習(xí)和投入市場后用戶的反饋,來不斷改進(jìn)和完善。
因?yàn)榈赖聢D靈測試僅關(guān)注被測試主體對(duì)于道德問題的回答,那道德回答是否能夠落實(shí)為實(shí)際的道德行動(dòng)呢?答案可能是悲觀的。一方面,對(duì)于被測試人而言,可能會(huì)出現(xiàn)道德偽善和行動(dòng)懦弱的問題;另一方面,對(duì)于機(jī)器人而言,可能會(huì)面臨回答一個(gè)道德問題和執(zhí)行一個(gè)道德行動(dòng)所需的程序不一樣的問題。
對(duì)被測試人的道德回答落實(shí)為道德行動(dòng)持悲觀態(tài)度的原因在于,在沒有涉及到切身利益的情況下,被測試人對(duì)問題的考慮要簡單得多。一個(gè)人可能由于軟弱、妄想或玩世不恭,在現(xiàn)實(shí)中根本沒有按照自己所陳述的理由和價(jià)值觀行動(dòng)[10],因此在道德圖靈測試中需要考慮這種情況。要解決這個(gè)問題,或許可以在測試對(duì)照者對(duì)道德問題回答的同時(shí),也關(guān)注其實(shí)際的行動(dòng)(最好是在他們不知情的情況下)。比如:路口沒有監(jiān)控?cái)z像頭時(shí),汽車駕駛員會(huì)不會(huì)闖紅燈;銀行職員的銀行卡里無故多出錢數(shù),他會(huì)不會(huì)把這筆錢上交等。
因?yàn)闄C(jī)器人不會(huì)面臨類似道德軟弱的問題,所以Gunkel[6]71認(rèn)為人工智能可以成為超級(jí)主體。在康德哲學(xué)中,道德法則是對(duì)理性存在者的絕對(duì)命令,道德主體應(yīng)是能夠認(rèn)知和遵從道德法則的理性存在者。人類會(huì)因情感和偏見做出一些錯(cuò)誤的決定,因此不是完全的理性存在者,而以邏輯為導(dǎo)向、以程序?yàn)橐?guī)則的通用人工智能體,才更符合理性存在者的定義,因此會(huì)成為超級(jí)主體[16]。那么,只要找到合適的道德準(zhǔn)則,并將其轉(zhuǎn)換為機(jī)器人可理解的算法,是否就可以一勞永逸地解決機(jī)器人的道德問題?顯然答案是否定的,因?yàn)楹茈y找到適合所有情境的普遍道德準(zhǔn)則。
另外,因?yàn)闄C(jī)器人回答一個(gè)道德問題和執(zhí)行一個(gè)道德行動(dòng)所需的程序不一樣,因此通過道德圖靈測試的機(jī)器人只是從倫理理論上看是有道德的,但卻不一定能夠進(jìn)行道德實(shí)踐。比如,自動(dòng)駕駛領(lǐng)域的機(jī)器人需要在識(shí)別出有人過馬路時(shí)停車,醫(yī)療領(lǐng)域的機(jī)器人需要根據(jù)病人的意愿和病情提供合理的治療方案,等等,而不僅僅是在道德對(duì)話中作出完美的回答。倫理理論與道德實(shí)踐之間存在著差異。道德圖靈測試所能做的就是確定計(jì)算機(jī)是否能夠使觀察者認(rèn)可它的道德推理能力。但即使通過了測試,也無法保證計(jì)算機(jī)的實(shí)際行動(dòng)是道德的,況且還不知如何評(píng)估這些行動(dòng)[13]。這個(gè)問題的解決可以成為未來道德圖靈測試的努力方向。
道德圖靈測試試圖給出“機(jī)器人是否能夠具有道德”的判斷標(biāo)準(zhǔn),但其根本無法證明機(jī)器人是否具有“道德主體意義上的道德”或“普遍情況適用的道德”。這不僅是由于道德圖靈測試的有限性,也歸咎于這兩種意義上的道德在機(jī)器人身上實(shí)現(xiàn)的不可能性。因此,道德圖靈測試的目標(biāo)只能是判斷有限意義上的機(jī)器人道德,即針對(duì)某一應(yīng)用領(lǐng)域機(jī)器人的道德決策設(shè)定明確的判定標(biāo)準(zhǔn)。這將有切實(shí)可行的實(shí)踐價(jià)值,但需要倫理學(xué)家和人工智能學(xué)家的共同努力。鑒于機(jī)器人能夠通過道德測試但不一定能夠道德行動(dòng)的問題,可以結(jié)合具體的應(yīng)用情景,在道德圖靈測試中加上這一維度。
總之,現(xiàn)在的道德圖靈測試和比較道德圖靈測試并不能夠證明機(jī)器人有絕對(duì)的、令使用者放心的道德能力,能夠在機(jī)器人倫理學(xué)中發(fā)揮的作用實(shí)際上是極其有限的,但這并不意味著它沒有發(fā)展?jié)摿Α,F(xiàn)在,道德機(jī)器人尚處于起步階段,必然會(huì)經(jīng)歷不斷試錯(cuò)和改善的過程。道德圖靈測試作為對(duì)機(jī)器人道德衡量的一個(gè)工具也必然隨之發(fā)展,從而為降低機(jī)器人使用中的各種倫理風(fēng)險(xiǎn)發(fā)揮積極作用。
注釋:
①圖靈在1950年的《計(jì)算機(jī)器與智能》一文中提出“模仿游戲”的概念,后來學(xué)界將其稱為“圖靈測試”。
②MedEthEx 是第一個(gè)幫助確定生物醫(yī)學(xué)倫理困境中最佳行動(dòng)方案的系統(tǒng)。它基于生物醫(yī)學(xué)倫理學(xué)問題的多重責(zé)任理論,利用機(jī)器學(xué)習(xí)技術(shù),從具有沖突困境的案例中抽象出決策原則,來確定正確的行動(dòng)方針。
③道德哲學(xué)中的“電車問題”是英國當(dāng)代哲學(xué)家菲利帕·福特(Philippa Foot)提出的一個(gè)倫理問題:假設(shè)在一個(gè)電車軌道上綁了5個(gè)人,而在它的備用軌道上綁了1個(gè)人。此時(shí),有一輛失控的電車飛速駛來,而你身邊正好有一個(gè)搖桿,你可以推動(dòng)搖桿來讓電車駛?cè)雮溆密壍?,殺死?個(gè)人,救下5個(gè)人;你也可以什么也不做,殺死5個(gè)人,救下1個(gè)人。你必須在很短的時(shí)間內(nèi)做出決定,應(yīng)當(dāng)如何抉擇?