許 為
(浙江大學(xué)心理科學(xué)研究中心,杭州 310058)
隨著人工智能(AI)技術(shù)的應(yīng)用和發(fā)展,目前社會對AI的關(guān)注已不僅僅局限于技術(shù),而是開始更多地考慮其他非技術(shù)的因素。2018年埃森哲(Accenture)咨詢對全球25個國家的6300多名企業(yè)IT高管的問卷調(diào)查表明,新技術(shù)對社會所產(chǎn)生的影響呈現(xiàn)出5個趨勢,其中之一是公民化的AI,即隨著AI技術(shù)在人們工作和生活中的應(yīng)用推廣,AI研發(fā)應(yīng)該促使AI解決方案成為負(fù)責(zé)任的、富有成效的社會成員(Accenture,2018)。
類似于核能和生化技術(shù)的“雙重用途”性質(zhì),AI帶來的回報與潛在的風(fēng)險共存。由于AI的開發(fā)和使用是一種去中心化的全球現(xiàn)象,進(jìn)入門檻相對較低,使得控制越加困難(Li & Etchemendy,2018)。一些利用不完整或被扭曲的數(shù)據(jù)訓(xùn)練而成的基于機(jī)器學(xué)習(xí)(ML)的智能系統(tǒng)可能會導(dǎo)致該系統(tǒng)產(chǎn)生有偏見性的“思考”,輕易地放大偏見和不公平等,它們遵循的“世界觀”有可能促使某些用戶群體陷入不利的地位,影響社會的公平性,產(chǎn)生社會偏見。正因為如此,一些AI項目最終未能投入使用(Guszcza,2018)。例如,2016年微軟在Twitter上發(fā)布了一個AI驅(qū)動的聊天機(jī)器人Tay,計劃通過與人類用戶的對話交流,提高其智能程度,并可為用戶帶來具個性化的使用體驗。Tay是模仿美國青少年女孩而設(shè)計的,但是,當(dāng)Tay和人類聊天不到24小時,她就被“教壞”了,變成了一個集反猶太人、性別歧視、種族歧視于一身的“不良少女”,最終微軟不得不將Tay下線。當(dāng)越來越普遍的基于AI/ML的企業(yè)、政府服務(wù)等智能決策系統(tǒng)投入使用時,這些具有偏見的“世界觀”所產(chǎn)生的決策,將直接影響人們?nèi)粘5墓ぷ骱蜕?。人們甚至?dān)心AI將來可能排斥人類,人類終將失去控制,智能武器甚至可能會對人類造成災(zāi)難。
針對這些擔(dān)憂和潛在的負(fù)面影響,近幾年在學(xué)術(shù)界,斯坦福大學(xué)、加州大學(xué)伯克利分校、MIT等大學(xué)分別成立了“以人為中心的AI(Human-Centered AI,HAI)”的研究機(jī)構(gòu),開展一系列研究。這些HAI研究的策略強(qiáng)調(diào)AI的下一個前沿不能僅僅是技術(shù),它也必須是人文的(humanistic)、合乎道德倫理的、惠及人類的;AI是增強(qiáng)人的能力而不是取代人。例如,斯坦福大學(xué)認(rèn)為AI的研發(fā)應(yīng)該遵循三個目標(biāo):在技術(shù)上達(dá)到反映以人類智慧為特征的深度;提高人的能力,而不是取代人;關(guān)注AI對人類的影響(Li & Etchemendy,2018)。在工業(yè)界,許多公司從人文AI的理念出發(fā),提倡AI解決方案應(yīng)該是負(fù)責(zé)任的、合乎道德倫理的、保護(hù)個人隱私、安全和包容的,并且分別制定了AI技術(shù)開發(fā)的指導(dǎo)原則,從開發(fā)流程、開發(fā)工具、開發(fā)人員培訓(xùn)等方面規(guī)范AI的研發(fā)工作。在專業(yè)行業(yè)學(xué)會,一些專業(yè)學(xué)會已經(jīng)或正在制定行業(yè)規(guī)范。例如,電氣和電子工程師協(xié)會(IEEE)正在出版“道德化的設(shè)計:將人類福祉與AI和自主智能系統(tǒng)優(yōu)先考慮的愿景”從業(yè)人員手冊(IEEE,2018)。
以上這些跨領(lǐng)域的努力主要是從倫理道德和技術(shù)兩個方面來尋求如何推進(jìn)HAI的解決方案。從人因?qū)W科(包括人因?qū)W、工程心理學(xué)、人機(jī)交互、人類工效學(xué)、用戶體驗等)的角度出發(fā),HAI還應(yīng)該考慮以下幾方面。
1.2.1 AI的“黑匣子”問題
普華永道(PwC)咨詢(2019)對1000多名已經(jīng)采納AI技術(shù)的企業(yè)高官的調(diào)查表明,61%的受訪者認(rèn)為創(chuàng)建透明的和可解釋的AI是建立AI可信度、推廣AI技術(shù)的重要步驟之一。作為目前AI的核心技術(shù),ML算法模型和學(xué)習(xí)過程不透明,所輸出的決策結(jié)果不直觀,對于許多非技術(shù)用戶來說,這些智能系統(tǒng)就像一個“黑匣子”(black box),在深度學(xué)習(xí)中用于模式識別的神經(jīng)網(wǎng)絡(luò)尤其如此(Bathaee,2018)。這種“黑匣子”現(xiàn)象導(dǎo)致用戶對AI智能系統(tǒng)的輸出結(jié)果和決策產(chǎn)生疑問,你為什么這么做,為什么會是這樣的結(jié)果,你什么時候成功或者失敗,我什么時候可以信任你,等等。由于AI的“黑匣子”效應(yīng)所導(dǎo)致的AI透明性、解釋性等問題,直接影響用戶對智能系統(tǒng)的信任度和決策效率,從而影響AI的推廣(Donahoe,2018;Zhou,et al.,2018)。AI“黑匣子”現(xiàn)象有可能在各類基于AI的智能系統(tǒng)的使用中發(fā)生,包括AI在金融股票、醫(yī)療診斷、工業(yè)流程監(jiān)控、安全檢測、就業(yè)招聘、貸款審批、法律判決、大學(xué)錄取、智能監(jiān)控、自主智能系統(tǒng)(自動駕駛車、智能機(jī)器人等)等領(lǐng)域中的應(yīng)用。
1.2.2 AI的應(yīng)用落地場景和用戶體驗
以往一些AI項目花費(fèi)了較大的成本,由于缺乏使用價值而失敗。目前AI領(lǐng)域就開發(fā)智能系統(tǒng)的瓶頸效應(yīng)已達(dá)成共識:一個是AI技術(shù);另一個是AI應(yīng)用落地場景的定位(李彥宏等,2017)。智能系統(tǒng)的設(shè)計一定要有明確的目的,通過提供有用的(即合適的應(yīng)用場景和產(chǎn)品功能)AI解決方案來滿足用戶需求,這樣的智能系統(tǒng)才能被用戶所接受,并且產(chǎn)生社會和經(jīng)濟(jì)效益。
從可用的(即易學(xué)易用)AI解決方案的角度來說,智能系統(tǒng)在用戶體驗(UX)設(shè)計上也面臨著一些挑戰(zhàn),需要人因?qū)W科在人機(jī)交互設(shè)計等方面的參與。例如,Nielsen Norman Group(2018)對美國市場上三個頂級品牌的語音交互智能助手的UX測試結(jié)果表明,所測試的智能助手在所有6類復(fù)雜問題任務(wù)上都失敗,僅在一些簡單的查詢?nèi)蝿?wù)上成功,由此可見人機(jī)交互設(shè)計的重要性。另外,近幾年自動駕駛汽車已經(jīng)導(dǎo)致了多起致命事故。例如,2016年,一輛正處在自動駕駛模式(自適應(yīng)速度控制加上自動車道跟蹤)狀態(tài)的特斯拉自動駕駛車撞向高速公路上行駛的卡車,導(dǎo)致司機(jī)死亡。美國國家運(yùn)輸安全委員會(NTSB)的調(diào)查發(fā)現(xiàn),其原因是司機(jī)過度依賴自動化和缺乏對汽車操縱的參與(NTSB,2017)。2018年,在亞利桑那州測試期間,優(yōu)步自動駕駛汽車撞死了一名行人,在事故中司機(jī)未能及時發(fā)現(xiàn)行人,從而未能在應(yīng)急狀態(tài)下迅速采取人工操縱干預(yù)(Garcia & Randazzo,2018)。這些事故的發(fā)生說明了人因?qū)W科在智能系統(tǒng)的人機(jī)交互、情景意識等設(shè)計方面的重要性。
從AI技術(shù)發(fā)展的歷史來看(見表1),AI在2006年左右進(jìn)入第三次浪潮,重要的是AI在一些應(yīng)用場景下開始滿足用戶的需要,開始形成一些實(shí)際的應(yīng)用解決方案和商業(yè)模式,這是第三次浪潮與前兩次浪潮本質(zhì)上的不同:有用的AI(李開復(fù),王詠剛,2017)。另外,在第三次AI浪潮中,除了AI技術(shù)的提升和實(shí)際應(yīng)用的解決方案以外,人們開始從AI的倫理道德、“黑匣子”效應(yīng)引發(fā)的AI可解釋性、AI的應(yīng)用場景和UX等各方面來考慮AI解決方案,這些考慮都是圍繞人的因素展開。因此,我們認(rèn)為目前AI正在進(jìn)入一個“技術(shù)提升和應(yīng)用+以人為中心”的新階段(見表1),兩者缺一不可,而這種“以人為中心”的階段新特征與人因?qū)W科的理念不謀而合。
歷史似乎在重復(fù)。上世紀(jì)80年代個人電腦剛興起時,計算機(jī)應(yīng)用產(chǎn)品的用戶主要是程序員等專家用戶,因此在設(shè)計中,程序員只考慮技術(shù)因素,不考慮可用性,這種現(xiàn)象被稱為“專家為專家設(shè)計”(許為,2003)。目前,AI解決方案同樣也面臨類似的問題,許多AI研發(fā)集中在技術(shù)上,AI的“黑匣子”問題就是一個例子,AI人員為自己設(shè)計,而不是為普通目標(biāo)用戶考慮(Miller,et al.,2017)。如同30年前“以用戶為中心的設(shè)計”(User-Centered Design,UCD)實(shí)踐的興起,今天,智能時代的新版UCD(即HAI)的實(shí)踐再一次歷史性地落在了人因?qū)W科的肩上,同時也為人因?qū)W科的研究和應(yīng)用提供了新機(jī)遇。
綜上所述,隨著AI技術(shù)的推廣,社會和用戶需要HAI的解決方案。但是,目前HAI的工作主要是從倫理道德以及技術(shù)兩個方面來推進(jìn),缺乏對人因工效學(xué)方面的綜合考慮。同時,目前人因?qū)W科在AI研發(fā)中的學(xué)科作用還沒有充分發(fā)揮。針對這種狀況,人因?qū)W科應(yīng)該如何提供科學(xué)支持,從而完善HAI的整體解決方案?這就是本文需要回答的問題。
為此,本文首先提出一個擴(kuò)展的HAI概念模型,然后從人因?qū)W科的角度,圍繞可解釋和可理解的AI、有用和可用的AI等關(guān)鍵問題,討論和分析目前相關(guān)的研究和應(yīng)用,提出今后工作的具體建議,從而為HAI提供一個全面的整體解決方案。最后,針對HAI解決方案,總結(jié)和展望今后人因?qū)W科的工作。
表1 AI的三次浪潮和發(fā)展的階段特征
(來源:Xu,2019)
本文提出一個擴(kuò)展的HAI概念模型(見圖1)。根據(jù)該模型,HAI解決方案的研發(fā),需要從三個方面來綜合考慮:
(1)倫理化設(shè)計(ethically aligned design)。從倫理、道德等角度出發(fā),AI應(yīng)該致力于解決社會偏見、維護(hù)公平和公正、避免對人的傷害等問題,利用AI來增強(qiáng)人的能力而不是取代人。
(2)充分反映人類智能的技術(shù)。進(jìn)一步提升AI技術(shù)以達(dá)到反映以人類智能為特征的深度(更像人類的智能)。
(3)人因工效學(xué)設(shè)計。AI應(yīng)該是可解釋的、可理解的、有用的和可用的,充分考慮人的因素來提供符合人因工效學(xué)要求的AI解決方案。
該模型的目的就是提供滿足人類需求的、可信任的、可廣泛推廣應(yīng)用的AI解決方案,最終為人類提供安全的、高效的、健康的、滿意的基于計算技術(shù)的工作和生活。
HAI概念模型中的“倫理化設(shè)計”和“充分反映人類智能的技術(shù)”的內(nèi)容已在現(xiàn)有的HAI概念中體現(xiàn),為了提供完整的HAI解決方案,擴(kuò)展的HAI概念模型增加了“人因工效學(xué)設(shè)計”,并且強(qiáng)調(diào)了以下兩個目標(biāo):①克服AI的“黑匣子”問題,為用戶提供可解釋和可理解的AI,從而提高用戶的信任度和決策效率;②開發(fā)具有合適的應(yīng)用落地場景和產(chǎn)品功能的(有用的)、易學(xué)易用的(可用的)滿足用戶需求的AI解決方案。
擴(kuò)展的HAI概念模型也強(qiáng)調(diào)了三方面工作之間的協(xié)同互補(bǔ)關(guān)系。例如,如果不考慮AI對人類的影響(倫理道德等),片面地從技術(shù)上使AI“更像人類”,從長遠(yuǎn)來說,AI實(shí)際上不可能達(dá)到以人為中心的目的,最終可能傷害人類;另一方面,倫理化設(shè)計的AI強(qiáng)調(diào)增強(qiáng)人的能力而不是取代人,在實(shí)際應(yīng)用中需要人因工效學(xué)設(shè)計的支持。例如,智能自動駕駛車的人機(jī)界面需要給人類駕駛員提供足夠的情境意識(SA)和有效的控制界面,從而確保在應(yīng)急時刻駕駛員能夠快速有效地掌握駕駛控制權(quán),近幾年所發(fā)生的多起自動駕駛車致命事故充分說明了人因工效學(xué)設(shè)計的重要性。
該HAI模型也充分體現(xiàn)了UCD在AI研發(fā)中的設(shè)計理念,旨在促進(jìn)智能時代背景下繼續(xù)關(guān)注以用戶為中心的設(shè)計理念?;赨CD的AI解決方案就是從目標(biāo)用戶的需求出發(fā),研發(fā)AI技術(shù),提供滿足用戶需求的AI解決方案。用戶的需求包括對AI的倫理道德、AI的可解釋性和可理解性、AI技術(shù)的應(yīng)用、AI的有用性、AI的可用性等方面的各種需求,只有滿足了這些用戶需求的方案才是我們所追求的HAI整體解決方案。
解決AI黑匣子問題的第一步就是要打開“黑匣子”,讓AI透明化。透明的AI幫助用戶了解AI技術(shù)是如何工作和幫助他們做決策的。AI的透明度也具有針對性,例如,監(jiān)管機(jī)構(gòu)需要獲得高水平的透明度,而一般用戶可能只需要中等水平的透明度(Hosanagar & Jair,2018)。以往針對AI透明度的研究主要通過兩種途徑:對ML過程的可視化和對ML算法的解釋,但是這些途徑在解釋ML算法時有偏差,并且主要依賴于抽象的可視化方法或統(tǒng)計算法,反而有可能進(jìn)一步增加復(fù)雜性(Amershi,et al.,2015;Chen,et al.,2016)。
AI透明度幫助用戶確定系統(tǒng)使用了什么算法和參數(shù),提供了訓(xùn)練和最終參數(shù)(比如,深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)層與層之間的權(quán)重矩陣)。但是,這些算法源代碼和學(xué)習(xí)參數(shù)并不提供有關(guān)智能系統(tǒng)的行為信息,而且許多AI系統(tǒng)非常復(fù)雜,決策模型在學(xué)習(xí)過程中隨時間而改進(jìn),很少反映在其源代碼中,僅通過查看算法和源代碼是無法完全理解AI的。在許多情況下透明度并不能有效地支持用戶解釋智能系統(tǒng)的決策以及過程(Winfeld & Jirotka,2018)。因此,光靠透明度是不夠的,AI應(yīng)該是可解釋的。
可解釋的AI(eXplainable AI,XAI)除了幫助用戶確定所使用的算法和參數(shù)以外,也提供了理由:機(jī)器在想什么,為什么這樣想。例如,對一項根據(jù)個人行為數(shù)據(jù)來預(yù)測患有肺癌可能性的智能系統(tǒng)來說,透明度會告訴用戶使用了哪些輸入?yún)?shù)和算法;而XAI通過分析算法所使用的各種輸入,單獨(dú)和成組地測量每個輸入的影響,最后報告對預(yù)測結(jié)果影響最大的輸入集合。因此,透明度有助于點(diǎn)亮AI的黑匣子模型,而XAI則可以向用戶解釋為什么(PwC,2018)。
XAI越來越得到各方面研究的重視,最具代表性的研究是DARPA 2016年啟動的XAI五年計劃(Gunning,2017)。該計劃組織了美國13所大學(xué)和研究機(jī)構(gòu),主要致力于研發(fā)一系列新的或改進(jìn)的ML技術(shù)來獲取可解釋的ML算法模型。同時,該計劃也考慮:(1)開發(fā)AI的解釋用戶界面(UI)模型,希望借助于新的人機(jī)交互技術(shù)(例如,可視化UI,語音對話);(2)評估現(xiàn)有心理學(xué)的解釋理論來協(xié)助XAI的研究。該XAI項目最終計劃的成果是一系列開發(fā)工具包、ML算法模型、UI軟件模塊等,協(xié)助未來XAI解決方案的開發(fā)。
人因?qū)W科對解釋UI和心理學(xué)解釋理論的應(yīng)用轉(zhuǎn)換工作更感興趣。對于AI的解釋UI,應(yīng)綜合考慮新型人機(jī)交互技術(shù)、UI交互設(shè)計方案(人機(jī)解釋式對話等)、心理學(xué)的解釋理論、用戶心理模型等。例如,Kulesza,at al.(2015)的研究采用了用戶參與、個性化、可解釋智能系統(tǒng)的研究思路。他們采用交互式ML解釋調(diào)試的原理建立了一個基于ML的智能化文件分類設(shè)計原型,系統(tǒng)向用戶解釋所做出的預(yù)測,然后允許用戶通過UI的人機(jī)交互執(zhí)行必要的改錯更正作業(yè),并向?qū)W習(xí)系統(tǒng)提供反饋,同時用戶可以通過UI提供個性化學(xué)習(xí)系統(tǒng)的預(yù)測或建議,幫助建立起有效的用戶心理模型。實(shí)驗表明,基于該原理的設(shè)計將參與者對系統(tǒng)的理解度提高了52%,參與者的糾錯率是使用傳統(tǒng)“黑匣子”ML系統(tǒng)的2倍。
在評估現(xiàn)有心理學(xué)解釋理論方面,心理學(xué)家已經(jīng)開展了許多針對解釋概念、表征、機(jī)制、測量、建模等方面的研究。例如,誘導(dǎo)性推理、因果推理、自我解釋、對比解釋、反事實(shí)推理、機(jī)制性解釋等(Lombrozo,2012;Hoffman,et al,2017)。這些心理學(xué)研究有助于為XAI的研究開發(fā)出有效的計算模型來表征可解釋的結(jié)果、構(gòu)建有效的解釋UI、預(yù)測和評估解釋的有效性。盡管許多理論假設(shè)已在心理學(xué)實(shí)驗中得到驗證,但是目前還缺乏全面成熟的能夠形成有效預(yù)測的解釋理論,需要開展進(jìn)一步的研究。DARPA也計劃利用心理學(xué)的解釋理論來幫助開發(fā)新的解釋計算模型,同時利用這些理論來建立一個XAI有效性的測評框架(Gunning,2017)。
人們開始意識到人因?qū)W科在XAI研發(fā)中的作用。Miller,et al.(2017)的研究表明以往絕大多數(shù)XAI項目沒有考慮非AI學(xué)科對XAI的價值,XAI研究人員正在為他們自己建立XAI,而不是針對預(yù)期的用戶。Miller,et al.(2017)認(rèn)為如果XAI采用合適的人因?qū)W科、心理學(xué)等模型,更多地關(guān)注人而不是技術(shù),XAI的研發(fā)則更有可能取得成功;另外,XAI的UX設(shè)計應(yīng)由用戶需求驅(qū)動,通過UX測試來驗證。DARPA的XAI計劃也鼓勵人因?qū)W科和AI學(xué)科之間的合作(Gunning,2017)。
DARPA的XAI研究計劃現(xiàn)在正處于五年計劃的中期,還沒有成熟的結(jié)果發(fā)表,尤其與人因?qū)W科相關(guān)的研究。然而,已有研究者質(zhì)疑基于可解釋的AI并不能保證所有的用戶可以理解,比如,數(shù)據(jù)科學(xué)家的“可解釋的AI”版本對大多數(shù)人來說是難以理解的。根據(jù)UCD的設(shè)計理念,我們需要為各類目標(biāo)用戶提供符合他們各自需求(例如,領(lǐng)域知識水平)的可理解的AI??山忉孉I的最終目的應(yīng)該確保用戶可以理解AI解決方案的輸出信息(即可理解的AI),從而幫助用戶提高決策效率。
總的來說,目前針對可理解的AI的研究尚處于起步階段,許多研究還停留在概念上。從UCD的理念出發(fā),可理解的AI需要AI專家與人因?qū)W科專家的合作,結(jié)合AI技術(shù)和UX知識,根據(jù)用戶的能力和需求來提供對AI智能系統(tǒng)輸出的解釋,最終達(dá)到可理解的目的。目前研究的思路主要從智能系統(tǒng)UI和可理解AI的建模、心理學(xué)和認(rèn)知工程理論模型的應(yīng)用、可理解AI的用戶驗證等三個方面開展。
首先,在智能系統(tǒng)UI和可理解AI建模方面,Zhou,et al.,(2018)針對目前基于ML的智能決策系統(tǒng)不考慮用戶認(rèn)知狀態(tài)在整個人機(jī)回路中的作用的現(xiàn)狀,提出了一個帶有多模態(tài)自適應(yīng)UI的ML智能決策系統(tǒng)概念模型。該模型通過對用戶一些行為和生理測量指標(biāo)的建模分析來理解用戶在決策過程中的認(rèn)知狀態(tài),該系統(tǒng)根據(jù)這些反饋的用戶認(rèn)知狀態(tài)可以自適應(yīng)地改進(jìn)基于ML的決策屬性參數(shù)甚至ML模型,從而使得ML更加可理解,該模型有待于實(shí)驗驗證。Doran,et al.(2017)認(rèn)為用戶的背景知識不一樣,由用戶自己去推斷和理解系統(tǒng)的決策是不可靠的,因此,他們提出了一個采用推理引擎的增強(qiáng)型可理解的模型。該引擎可以將智能系統(tǒng)給出的符號輸出與知識庫(域)結(jié)合起來,而知識庫將這些符號間的所有關(guān)系加以編碼,利用知識庫中的關(guān)系編碼可以對智能系統(tǒng)的輸出決策作出合理的推論。
其次,在心理學(xué)和認(rèn)知工程理論模型的應(yīng)用方面,選擇和轉(zhuǎn)化有效的理論模型可以幫助實(shí)現(xiàn)可理解的AI。Paudyal & Wong(2018)在一項有關(guān)倫理道德刑事情報分析和決策的研究中開發(fā)了一個基于ML的可視化刑事情報分析系統(tǒng)。該研究采用了Rasmussen(1985)的抽象層次結(jié)構(gòu)(AH)模型,構(gòu)建了一個基于AH的抽象層次結(jié)構(gòu)空間,該空間表征了重要功能與道德目標(biāo)之間的關(guān)系以及領(lǐng)域內(nèi)的一些制約條件。該AH模型可以在系統(tǒng)開發(fā)之前定義工作領(lǐng)域中各種變量之間的所有因果功能關(guān)系,從而確定了不同場景中領(lǐng)域數(shù)據(jù)之間的解釋關(guān)系,也確定了在ML的不同學(xué)習(xí)階段中數(shù)據(jù)之間的關(guān)系,而不是遵循傳統(tǒng)的調(diào)查分析流程。他們下一步的工作是完善基于AH模型的對ML計算過程的表征,應(yīng)用語義映射等方法將領(lǐng)域內(nèi)的關(guān)鍵功能關(guān)系視覺化在UI上,從而有效地支持用戶的決策。
最后,從可理解性AI的用戶驗證的角度考慮,AI的可理解性需要實(shí)驗驗證其有效性。針對XAI的有效性和理解性驗證,Hoffman,et al.(2018)初步提出了一個測評指標(biāo)框架,包括用戶對XAI的滿意度、心理模型、信任度、工作績效。DARPA的XAI研究項目雖然沒有對可理解的AI有明確的定義,但是也考慮到如何來測評XAI的有效性,并且提出了一個類似的XAI有效性評價框架(Gunning,2017)。
綜上所述,有關(guān)AI解釋性和理解性方面的研究目前方興未艾,不能光依賴于ML算法等技術(shù)手段,需要人因?qū)W科的參與和支持。人因?qū)W科今后的主要工作思路可以從以下幾方面考慮。
首先,開展AI解決方案的UI建模和人機(jī)交互方案的工作。利用現(xiàn)有的人機(jī)交互技術(shù),人因?qū)W科可以從自適應(yīng)界面、界面視覺化建模、自然交互式人機(jī)對話等方面來為HAI解決方案提供有效的人機(jī)交互設(shè)計。針對以往大多數(shù)可解釋和可理解AI的研究是基于靜態(tài)、單向、單一信息傳達(dá)式的人機(jī)交互方案,下一步需要研究允許用戶通過與AI系統(tǒng)的交互式對話來進(jìn)行探索式、雙向交互式人機(jī)對話,最后設(shè)計出可理解的解釋UI(Abdul,et al.,2018)。另外,通過提供用戶與AI系統(tǒng)交互式和協(xié)同適應(yīng)性的任務(wù)(例如,錯誤檢測)來研究基于人機(jī)之間協(xié)同對話式的“探索性解釋”人機(jī)交互方案。Kulesza,at al.(2015)的研究已經(jīng)帶有這種思路。
其次,進(jìn)一步挖掘和應(yīng)用轉(zhuǎn)化相關(guān)的心理學(xué)理論。人因?qū)W科可以利用其交叉學(xué)科的特點(diǎn)起到一個中間橋梁作用,加快從理論到應(yīng)用的轉(zhuǎn)化,通過與AI專家的合作來構(gòu)建有助于可解釋和可理解AI的UI模型或者計算模型。例如,采用Rasmussen的AH模型和Vicente & Rasmussen的生態(tài)用戶界面(EID)模型(Rasmussen,1985;Vicente & Rasmussen,1992)。AH各層次間內(nèi)嵌著一系列目標(biāo)導(dǎo)向(“目的-手段”)的功能關(guān)系,這些關(guān)系有助于有效地表征一個復(fù)雜工作領(lǐng)域內(nèi)各種變量之間的因果功能系統(tǒng),有可能為用戶建立一個有效的對應(yīng)于全工作領(lǐng)域的心理模型,從而為復(fù)雜領(lǐng)域的智能系統(tǒng)構(gòu)建一個能夠有效支持可解釋和可理解AI的基于EID的UI。Paudyal & Wong(2018)的探索性研究提供了很好的啟發(fā)。
再次,人因?qū)W科要發(fā)揮自己的學(xué)科特長,為測評方法、測評指標(biāo)、實(shí)驗設(shè)計和變量控制等方面提供支持?,F(xiàn)有許多研究中缺乏用戶參與的實(shí)驗測評來驗證所提出的研究方案,或者測評中缺乏嚴(yán)謹(jǐn)?shù)男袨榭茖W(xué)實(shí)驗方法(Abdul,et al.,2018),人因?qū)W科在這方面可以發(fā)揮自己的學(xué)科特長。從社會技術(shù)系統(tǒng)的視野出發(fā),進(jìn)一步開展用戶(包括組織)對AI的信任度、AI應(yīng)用接受度與AI解釋性和理解性之間的關(guān)系,并且考慮其他變量的影響(比如,文化,用戶知識和技能,應(yīng)用領(lǐng)域,個體和組織決策行為,員工技能更新等)。
最后,將UCD方法融入AI解決方案的研發(fā)流程來優(yōu)化跨學(xué)科的合作。例如,采用領(lǐng)域用戶參與AI解決方案開發(fā)流程的方法(Zhou & Chen,2018;Zhu,et al.,2018)。為避免算法偏差,在ML建模、算法培訓(xùn)、培訓(xùn)目標(biāo)設(shè)立、模型驗證等方面開展人因?qū)W科與AI專家合作的方法,優(yōu)化目前單一的AI技術(shù)手段。
有用的AI(useful AI)可以為AI解決方案提供滿足用戶需求的應(yīng)用落地場景以及所需的功能,為用戶提供有益的使用價值。從AI發(fā)展的歷史來看(見表1),有用的AI促進(jìn)了AI技術(shù)能夠解決實(shí)際問題(李開復(fù),王詠剛,2017),并且AI的應(yīng)用落地場景的定位已成為影響AI發(fā)展的瓶頸效應(yīng)的主要因素之一(李彥宏等,2017)。許為(2019)也在提出的智能產(chǎn)品功能的三維空間概念模型中,將AI應(yīng)用場景定義為除了人機(jī)協(xié)同和人機(jī)融合的智能水平以外的第三個關(guān)鍵維度。針對有用的AI,人因?qū)W科應(yīng)該起主導(dǎo)作用,充分發(fā)揮本身行為學(xué)科的特點(diǎn)和研究方法,可以從以下幾方面開展工作。
首先,從社會和用戶的需求出發(fā),挖掘合適有效的應(yīng)用落地場景。這些需求可以來自不同用戶群體對生活、工作、醫(yī)療、娛樂等方面的多層次需求。比如,隨著社會的進(jìn)步,促使人們比以往更多地考慮殘疾人、老年人、康復(fù)病人等特殊用戶群體的需求,從而開拓了為這些特殊群體服務(wù)的一系列智能產(chǎn)品的應(yīng)用落地場景。另外,作為AI熱門課題的情感計算,在技術(shù)上正在逐步趨向成熟,目前要解決的關(guān)鍵問題之一是挖掘符合社會和用戶需求的應(yīng)用落地場景。
其次,采用有效的UCD方法來挖掘應(yīng)用落地場景?,F(xiàn)有的UCD方法主要針對非智能系統(tǒng)產(chǎn)品,智能系統(tǒng)的UX設(shè)計需要提升UCD方法(許為,2019)。例如,應(yīng)用AI和大數(shù)據(jù)技術(shù)對實(shí)時在線上下文場景和用戶行為等數(shù)據(jù)進(jìn)行建模分析,來預(yù)測用戶使用場景(吳書等,2016;Kleppe & Otte,2017)。此外,利用人因?qū)W科中一些有效的用戶研究方法(比如,民族志法和現(xiàn)場情境探測法)來挖掘社會技術(shù)大環(huán)境中的用戶需求、用戶行為、應(yīng)用場景模型等(許為,2005)。
再次,采用UX驅(qū)動的創(chuàng)新設(shè)計方法來挖掘用戶需求和應(yīng)用場景。許為(2019)根據(jù)UX驅(qū)動的三因素創(chuàng)新設(shè)計的概念模型,總結(jié)歸納了基于UCD用戶研究、AI和大數(shù)據(jù)等技術(shù)的多種挖掘用戶需求的創(chuàng)新設(shè)計方法。例如,通過基于對當(dāng)前用戶痛點(diǎn)的分析、基于對用戶實(shí)時在線行為數(shù)據(jù)的分析和建模,基于潛在的應(yīng)用場景和用戶需求,或者基于用戶差異化體驗的需求等方法來挖掘用戶需求和應(yīng)用場景。
最后,將UCD方法融入智能系統(tǒng)的研發(fā)流程中來挖掘用戶需求和應(yīng)用場景。目前挖掘市場新產(chǎn)品的方法在許多情況下是采用傳統(tǒng)的市場調(diào)研方法,這些收集到的用戶意見或偏好信息在理解用戶的實(shí)際使用場景、用戶行為等方面受到很大的限制。另外,人因?qū)W科人員介入研發(fā)流程的時間往往太遲,許多情況下是在基于市場調(diào)研的產(chǎn)品決策作出以后(Xu,2014)。因此,人因?qū)W科人員應(yīng)該在研發(fā)流程的初期,直接參與新產(chǎn)品定義的工作,盡早采用有效的用戶行為研究方法來挖掘用戶需求和應(yīng)用場景,找到新產(chǎn)品的最佳UX落地區(qū)(許為,2017)。
可用的AI(usable AI)通過有效的人機(jī)交互設(shè)計為用戶提供易學(xué)易用和最佳UX的HAI解決方案。在過去的30年中,人因?qū)W科針對計算技術(shù)產(chǎn)品的UCD實(shí)踐累積了豐富的經(jīng)驗,形成了比較成熟的方法。針對智能系統(tǒng)的UX設(shè)計,首先需要從智能系統(tǒng)的新特征出發(fā),提升現(xiàn)有UCD方法(許為,2019),然后在挖掘出滿足用戶需求的落地應(yīng)用場景的前提下,既要開展必要的人因?qū)W科研究,也要利用人機(jī)交互技術(shù)和有效的方法開展針對智能系統(tǒng)的UX設(shè)計。這些工作可以從以下幾方面考慮。
開展針對智能系統(tǒng)中新型人機(jī)關(guān)系的人因?qū)W科研究。隨著機(jī)器智能中學(xué)習(xí)能力的加入,智能系統(tǒng)中的人機(jī)關(guān)系已經(jīng)從人機(jī)交互向人機(jī)融合/人機(jī)團(tuán)隊合作(human-computer integration/teaming)轉(zhuǎn)化(例如,F(xiàn)arooq & Grudin,2016)。這種人機(jī)之間的新型動態(tài)化合作關(guān)系直接影響到HAI解決方案的可用性和UX,也為可用的AI設(shè)計增加了復(fù)雜性,有一系列問題需要系統(tǒng)化的人因?qū)W科研究。例如,人機(jī)之間的動態(tài)功能和任務(wù)分配,動態(tài)的目標(biāo)設(shè)定,人機(jī)之間決策權(quán)的分配,人機(jī)之間知識的獲取和管理。另外,為了在操作中開展有效的人機(jī)合作,一方面,智能化的機(jī)器需要可理解的設(shè)計來保證人類操作員了解機(jī)器的狀態(tài);另一方面,需要建立有效的人類操作員的行為和能力模型,使得智能化的機(jī)器擁有監(jiān)控人類操作員行為狀態(tài)的手段,保證人機(jī)之間分享彼此的SA,同步協(xié)調(diào)彼此的任務(wù)目標(biāo)和行為控制。
作為一個應(yīng)用實(shí)例,當(dāng)前汽車機(jī)載系統(tǒng)技術(shù)正在由自動化(即系統(tǒng)依賴于固定規(guī)則而自動執(zhí)行預(yù)定任務(wù)的能力,需要時由人工操作來干預(yù))向自主化(autonomy)過渡。自主化是系統(tǒng)利用AI等技術(shù),能夠在沒有人工干預(yù)的情況下執(zhí)行學(xué)習(xí)、推理、問題解決、自適應(yīng)執(zhí)行等任務(wù)的能力。在理想的全自主化狀態(tài)下,系統(tǒng)可以在所有事先未預(yù)期設(shè)計的場景中成功執(zhí)行任務(wù)。就目前社會技術(shù)系統(tǒng)的整體水平來說(包括技術(shù)、交通基礎(chǔ)設(shè)施、用戶信任和接受度、法律、規(guī)范等等),還沒有全自動駕駛的汽車可以在沒有任何人為干預(yù)的情況下能夠安全地處理所有未知和動態(tài)交通環(huán)境中的駕駛場景(相當(dāng)于汽車工程師協(xié)會/SAE定義的第5級全自主化水平),行業(yè)還需要很長時間來創(chuàng)建能夠智能化“解決”所有駕駛場景任務(wù)的基于AI等技術(shù)的系統(tǒng)。在實(shí)現(xiàn)此目標(biāo)之前,人與機(jī)載系統(tǒng)之間必然存在人機(jī)交互(即人-自主化交互,human-autonomy interaction),傳統(tǒng)人-自動化交互中的人因?qū)W問題依然存在(例如,“自動化難題/automation conundrum”),即隨著系統(tǒng)自主化程度的提高,人類操作員的SA越低,越不可能在需要時成功接管對系統(tǒng)的控制,并且人-自動化交互中存在的人因?qū)W問題可能會表現(xiàn)得更為嚴(yán)重(Endsley,2017;de Visser,et al 2018)。更重要的是,在這種人-自主化系統(tǒng)(autonomous systems)中,人類操作員要承擔(dān)兩個角色:(1)人-自主化交互中的監(jiān)控員角色,其中自主化系統(tǒng)充當(dāng)工具;(2)人-自主化團(tuán)隊合作(human-autonomy teaming)中的合作者角色,其中帶有機(jī)器智能的自主化系統(tǒng)充當(dāng)合作隊友。這種機(jī)器從“工具”向“合作隊友”的轉(zhuǎn)變代表了人-自主化系統(tǒng)中人機(jī)關(guān)系研究和應(yīng)用設(shè)計范式的重大轉(zhuǎn)變,也帶來了一系列人因?qū)W新問題(例如,如何確定、測量和設(shè)計人機(jī)雙方之間動態(tài)化功能交換所需的信任?如何建立有效的情境模型使兩者之間達(dá)到共享的SA和自主化?如何提供合適的自主化級別和選擇來支持兩者間的無縫轉(zhuǎn)換)。近些年所發(fā)生的多起自動駕駛車致命事故說明了計算技術(shù)和工程界顯然高估了當(dāng)前的技術(shù)水平,低估了人因?qū)W等問題的影響。有關(guān)這方面的詳細(xì)討論將在下一篇系列文章中展開(“五論以用戶為中心的設(shè)計:從自動化到智能時代的自主化以及自動駕駛車”)。
今后的工作還包括開展針對智能系統(tǒng)的人機(jī)交互UI研究。除了前面所討論的針對可解釋和可理解AI的研究,人因?qū)W科應(yīng)該與AI領(lǐng)域密切合作開辟多種研究思路。例如,IBM沃森研究中心的認(rèn)知環(huán)境實(shí)驗室開展了基于AI的智能規(guī)劃系統(tǒng)開發(fā)的可視化人機(jī)交互系統(tǒng)研究。不同于以往在UI層面上注重對系統(tǒng)決策結(jié)果可視化的手段,他們通過將人機(jī)融合的內(nèi)部決策過程的可視化來提升人類操作員的決策效率(Chakraborti,et al.,2018)。Dudley & Kristensson(2018)則采用了非領(lǐng)域?qū)<矣脩魠⑴c的方法。基于用戶與ML之間的協(xié)同適應(yīng)式學(xué)習(xí)過程,他們提出了一個結(jié)構(gòu)化的交互式ML(IML)模型,同時為IML人機(jī)交互界面設(shè)計提供了一系列原則。另外,新的人機(jī)交互技術(shù)(語音、體感交互等)已經(jīng)為智能系統(tǒng)提供了更自然的UI,人因?qū)W科可利用多模態(tài)通道間的互補(bǔ)性,整合多通道的交互來優(yōu)化人機(jī)交互。
提升智能系統(tǒng)人機(jī)交互設(shè)計的思路和方法。在構(gòu)建人機(jī)交互界面的概念模型和設(shè)計原型中,不同于以往首先注重UI結(jié)構(gòu)和視覺等設(shè)計,可采納Google所推崇的“AI先行”的設(shè)計思路(李開復(fù),王詠剛,2017)。首先開展動態(tài)化的人機(jī)功能、任務(wù)的分析和分配(隨著智能機(jī)器學(xué)習(xí)能力的提高),優(yōu)先利用機(jī)器智能功能(智能搜索、智能推薦、實(shí)時用戶行為監(jiān)測、上下文場景信息監(jiān)測、語音輸入、人臉識別等),減少重復(fù)的人工活動,將用戶的資源優(yōu)化在重要任務(wù)上。例如,Xu,Furie,et al.(2019)在一項有關(guān)智能供應(yīng)鏈解決方案的人因?qū)W研究中,在開展傳統(tǒng)的人機(jī)交互設(shè)計之前,他們首先進(jìn)行一系列人機(jī)作業(yè)和任務(wù)分析,優(yōu)先考慮了智能系統(tǒng)的一系列功能,優(yōu)化了人機(jī)功能分配,大大減少了人工作業(yè)。結(jié)果表明,新的解決方案在生產(chǎn)效率、業(yè)務(wù)成本、用戶體驗等方面都獲得了非常顯著的改進(jìn)。另外,在智能在線系統(tǒng)設(shè)計中,可以利用實(shí)時用戶個性化的數(shù)據(jù)建模(數(shù)字化用戶人物畫像等)來提供基于用戶差異性的個性化功能和內(nèi)容,或者提供與用戶上下文使用場景匹配的實(shí)時動態(tài)化功能和內(nèi)容(Sun,et al.,2017)。
開展針對智能系統(tǒng)UX驗證測評的研究和應(yīng)用。傳統(tǒng)的系統(tǒng)驗證測試方法假設(shè)系統(tǒng)本身沒有學(xué)習(xí)能力來改變其行為,具有確定性和可預(yù)測性;而智能系統(tǒng)的行為隨時間而學(xué)習(xí)發(fā)展,具有非確定性的,智能系統(tǒng)的驗證測評是當(dāng)前研究課題之一。例如,Webster et al.(2018)曾采用多種方法的組合(包括模型驗證、仿真測試、用戶參與的驗證)在對智能機(jī)器人的系統(tǒng)驗證中取得了較為理想的效果。智能系統(tǒng)帶有學(xué)習(xí)和行為的特征,人因?qū)W科應(yīng)該結(jié)合本身帶有行為學(xué)科的特點(diǎn)主動與軟硬件工程中傳統(tǒng)的測試方法合作,尋找出一種更適合于智能系統(tǒng)的測評方法。另外,在UCD實(shí)踐中,針對低保真智能產(chǎn)品設(shè)計原型的早期UX測評,需要采用新方法(比如,WOZ設(shè)計原型)來模擬智能系統(tǒng)的學(xué)習(xí)和行為,從而有效地測評機(jī)器智能的功能以及人機(jī)交互(Martelaro & Ju,2017)。
開發(fā)針對智能系統(tǒng)的人機(jī)交互設(shè)計標(biāo)準(zhǔn)。目前還缺乏具體系統(tǒng)化的針對智能系統(tǒng)的人機(jī)交互設(shè)計標(biāo)準(zhǔn)。IEEE現(xiàn)有的AI設(shè)計指南主要是從道德倫理等角度來提供指導(dǎo)(IEEE,2018)。針對工業(yè)界的需求,美國人因和工效學(xué)會(HFES)就自動駕駛車的人機(jī)交互設(shè)計提出了一些設(shè)計原則(HFES,2018)。國際標(biāo)準(zhǔn)化組織(ISO)也看到了這種緊迫性,作者所參與的國際標(biāo)準(zhǔn)化組織(ISO)人-系統(tǒng)交互技術(shù)標(biāo)準(zhǔn)專家組(ISO TC 159/SC4/WG6)正在起草智能系統(tǒng)中所存在的人因?qū)W問題的技術(shù)文件,然后確定開發(fā)這方面國際標(biāo)準(zhǔn)化工作的重點(diǎn)(ISO,2019)。
最后,人因?qū)W科要善于利用新思路和方法來支持可用的HAI解決方案,尤其是復(fù)雜領(lǐng)域的智能解決方案。例如,應(yīng)用神經(jīng)人因?qū)W(neuroergonomics)的腦電成像技術(shù)所獲取的腦電成像測量指標(biāo)來支持自適應(yīng)智能系統(tǒng)的設(shè)計(Borghetti,et al.,2017);利用認(rèn)知計算建模方法為智能系統(tǒng)提供實(shí)時的自適應(yīng)人機(jī)交互方案(Cassenti,et al.,2018);采用面向情景意識的設(shè)計(Endsley et al.,2012)可以為自動駕駛車、大數(shù)據(jù)信息視覺化等人機(jī)交互設(shè)計提供人因?qū)W的指導(dǎo)(Sirkin,et al.,2017)。
以上主要討論了針對HAI模型中“人因工效學(xué)設(shè)計”方面的工作,人因?qū)W科還可以為其他方面的工作做出貢獻(xiàn)(見圖1)。例如,對于“倫理化設(shè)計”,AI工程師通常缺乏將倫理道德方面的考慮應(yīng)用于工程設(shè)計的正式培訓(xùn),傾向于將這些考慮視為解決技術(shù)問題的另一種形式。AI界現(xiàn)在已經(jīng)認(rèn)識到倫理化AI設(shè)計需要與其他學(xué)科的合作(Donahoe,2018)。人因?qū)W科可從更廣泛的社會技術(shù)系統(tǒng)角度(即廣義的宏觀工效學(xué)),采用社會和行為科學(xué)等方法來開展這方面的研究。從文化、心理、組織、社會等角度,研究“倫理化設(shè)計AI”相關(guān)因素(比如,AI公平和公正性、人類操作員的決策控制權(quán))對用戶信任、員工和組織決策、員工工作效率、人機(jī)協(xié)作策略、員工技能成長、人力資源等方面的影響,從而為HAI解決方案、相關(guān)政策和規(guī)范的制定等工作提供依據(jù)。
針對HAI模型中的“充分反映人類智能的技術(shù)”,人因?qū)W科可通過與AI領(lǐng)域的合作,為算法建模、訓(xùn)練和測試做出貢獻(xiàn)。例如,人因?qū)W科可以利用本身跨學(xué)科的特點(diǎn),幫助AI專業(yè)人員充分理解認(rèn)知心理學(xué)中有關(guān)人類智能的理論模型(例如,人類信息加工的方式和策略、人類知識的表征和結(jié)構(gòu)),加速將認(rèn)知心理學(xué)理論應(yīng)用在AI的建模和算法中。另外,提倡以人為中心的ML方法,在基于ML的智能系統(tǒng)的數(shù)據(jù)建模、訓(xùn)練、測試中,人因?qū)W科與AI人員合作,定義預(yù)期的UX目標(biāo),幫助優(yōu)化ML的訓(xùn)練數(shù)據(jù)和算法,避免極端的算法偏差(Koene,et al.,2018)。
綜合以上的討論和分析,可以作出以下總結(jié)和展望:
第一,當(dāng)前第三次AI浪潮呈現(xiàn)出“技術(shù)提升和應(yīng)用+以人為中心”的特征,為人因?qū)W科的應(yīng)用提供了一個新的歷史機(jī)遇。目前人因?qū)W科在AI解決方案研發(fā)中的學(xué)科作用有待于全面進(jìn)一步的發(fā)揮,并且是非常必要和緊迫的。
第二,本文提出了一個擴(kuò)展的HAI概念模型。根據(jù)該模型,需要從三個方面來綜合考慮HAI整體解決方案的研發(fā):倫理化設(shè)計、充分反映人類智能的技術(shù)、人因工效學(xué)設(shè)計。針對人因工效學(xué)設(shè)計,人因?qū)W科要發(fā)揮主導(dǎo)作用,致力于提供可解釋的、可理解的、有用的和可用的AI。同時,人因?qū)W科也可以為AI倫理化設(shè)計和技術(shù)更新提供學(xué)科支持。
第三,為支持HAI的整體解決方案,人因?qū)W科今后的主要工作包括:開展針對智能時代新型人機(jī)關(guān)系的研究,開展有效的UI建模和人機(jī)交互設(shè)計,加速相關(guān)心理學(xué)等學(xué)科理論的應(yīng)用轉(zhuǎn)化,制定智能系統(tǒng)人機(jī)交互設(shè)計的標(biāo)準(zhǔn),提升現(xiàn)有的方法(應(yīng)用落地場景的挖掘、UI原型設(shè)計、系統(tǒng)驗證和UX測評等),從社會技術(shù)系統(tǒng)的視野進(jìn)一步研究AI技術(shù)對人類各個方面的影響。
第四,人因?qū)W科專業(yè)人員要主動參與AI的研發(fā),積極開展與AI領(lǐng)域的合作,增加學(xué)科影響力。同時,增強(qiáng)自身的AI知識,充分考慮兩個領(lǐng)域之間流程和方法上的整合,從而促進(jìn)有效的合作。