徐昊骙 鄭旭濤 趙 陽 唐 寧 周吉帆 沈模衛(wèi)
(浙江大學(xué)心理與行為科學(xué)系,杭州 310028)
人機(jī)交互(human-computer interaction,HCI)是研究人類如何與計(jì)算機(jī)交互的科學(xué),其主要目標(biāo)是設(shè)計(jì)便捷可用的軟件和硬件(Ren & Bao,2020)。人機(jī)交互的概念起源于20 世紀(jì)70 年代,隨著計(jì)算機(jī)設(shè)備的快速進(jìn)步而獲得蓬勃發(fā)展,產(chǎn)生了大量與日常生活密切相關(guān)的應(yīng)用產(chǎn)品,并積累了豐富的交互設(shè)計(jì)理論和方法(Carroll,1997)。
經(jīng)典的人機(jī)交互理論中人被視作交互的主動(dòng)方,計(jì)算機(jī)被動(dòng)地接收指令并提供相應(yīng)的信息或功能反饋,界面作為交互指令及信息和功能反饋的主要載體,在人機(jī)交互過程中扮演關(guān)鍵角色,因而界面設(shè)計(jì)始終是人機(jī)交互研究的焦點(diǎn)所在(Myers,1998)。以界面為核心的人機(jī)交互設(shè)計(jì)理念隨著計(jì)算機(jī)的發(fā)展和普及而發(fā)生改變。在計(jì)算機(jī)發(fā)展初期,用戶均為擁有豐富經(jīng)驗(yàn)的專家,此時(shí)的人機(jī)交互側(cè)重于“人適應(yīng)機(jī)器”,界面設(shè)計(jì)的核心目標(biāo)是功能的實(shí)現(xiàn),專家用戶需要通過大量學(xué)習(xí)來掌握界面的使用方法(如:命令行)。隨著計(jì)算機(jī)功能日益豐富、受眾更加廣泛,人機(jī)交互的理念向“機(jī)器適應(yīng)人”或“人機(jī)相互適應(yīng)”轉(zhuǎn)變,“以用戶為中心”的設(shè)計(jì)理念被提出并得到廣泛發(fā)展(許為,2019,2022),成為人機(jī)交互領(lǐng)域遵循的核心原則。在該原則的指導(dǎo)下,界面設(shè)計(jì)越來越注重以接近自然交互的方式實(shí)現(xiàn)功能(如:圖形界面),普通用戶無須經(jīng)歷長時(shí)間專門培訓(xùn),便能夠順利使用計(jì)算機(jī)設(shè)備。
人機(jī)交互涉及多學(xué)科的交叉,從業(yè)者往往需要心理學(xué)、計(jì)算機(jī)、社會(huì)學(xué)、人類學(xué)、傳播、管理、運(yùn)籌學(xué)等多個(gè)相關(guān)領(lǐng)域的素養(yǎng),研究與設(shè)計(jì)工作的開展也常涉及多學(xué)科合作(Ren & Bao,2020)。心理學(xué)作為研究人類心理規(guī)律的基礎(chǔ)科學(xué),是人機(jī)交互領(lǐng)域的理論基石(Olson&Olson,2003),諸多設(shè)計(jì)背后體現(xiàn)了對心理學(xué)理論和現(xiàn)象的應(yīng)用,諸如:界面設(shè)計(jì)中不同類型信息的空間分布應(yīng)遵循知覺組織原則;圖形界面中鼠標(biāo)的交互方式應(yīng)符合人類手眼協(xié)調(diào)及動(dòng)作反饋的相應(yīng)特性。數(shù)十年來,人機(jī)交互領(lǐng)域的發(fā)展始終與心理學(xué)基礎(chǔ)研究緊密關(guān)聯(lián):一方面,心理學(xué)的研究成果不斷為交互設(shè)計(jì)及測試提供指導(dǎo);另一方面,持續(xù)優(yōu)化人機(jī)交互的迫切需求也驅(qū)動(dòng)著心理學(xué)理論的發(fā)展。
近二十年來,隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)的突破和算力的發(fā)展,人工智能進(jìn)入第三次浪潮(Xu et al.,2023)。相較于人工智能發(fā)展歷史的過往階段,當(dāng)代人工智能技術(shù)與實(shí)際應(yīng)用的結(jié)合更加緊密,形成了大量在日常生產(chǎn)生活中廣泛使用的智能設(shè)備,人與智能系統(tǒng)的交互日益普遍。智能系統(tǒng)并非僅是傳統(tǒng)計(jì)算機(jī)在功能上的升級,而是具有突破性的質(zhì)變,必然帶來人機(jī)交互設(shè)計(jì)的革命性變化。面向智能系統(tǒng)的新型人機(jī)交互是怎樣的?心理學(xué)應(yīng)該如何提供理論支撐?這正是本文試圖回答的問題。
相較于傳統(tǒng)計(jì)算機(jī)系統(tǒng),當(dāng)代智能系統(tǒng)帶來了以下重要變化:(1)信息爆炸。一方面,現(xiàn)階段的人工智能技術(shù)源于對深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的應(yīng)用(Silver et al.,2016;Sutton et al.,1998),其算法框架能夠兼容于多種情景和任務(wù),因而在算力的加持下人工智能技術(shù)被嵌入日常生活中的各類計(jì)算系統(tǒng),導(dǎo)致智能設(shè)備的種類和數(shù)量快速增長;另一方面,智能系統(tǒng)與互聯(lián)網(wǎng)緊密結(jié)合,能夠輕易將從網(wǎng)上獲得的海量資源推送給用戶,用戶所面對的信息空間急速擴(kuò)張。二者疊加,造成用戶在與智能設(shè)備交互時(shí)往往面臨信息爆炸,這為人類有限的認(rèn)知資源帶來巨大挑戰(zhàn)(Alvarez & Franconeri,2007;Luck & Vogel,1997;Scholl &Pylyshyn,1999)。(2)非確定性反饋。概率計(jì)算被廣泛應(yīng)用于當(dāng)代人工智能算法框架中,導(dǎo)致設(shè)備向人提供的反饋具有高度不確定性,即使在相同情景和指令下,系統(tǒng)仍會(huì)產(chǎn)生不同反饋(如:向大型生成式語言模型提出相同問題能夠得到不同回答)。這使得對系統(tǒng)的預(yù)測更加困難,進(jìn)而造成用戶的控制感受到影響(Loehr,2022)。(3)智能黑箱。主流的學(xué)習(xí)算法存在過程不透明、不直觀的問題,對于用戶來說智能系統(tǒng)就像一個(gè)“黑匣子”,難以理解其輸出結(jié)果背后的過程和原因。不可解釋進(jìn)一步影響了用戶對智能系統(tǒng)的信任度和決策效率(Xu et al.,2023),并且限制了智能系統(tǒng)在一些特殊情景(如:醫(yī)療)的應(yīng)用。上述三方面因素極大地改變了人類對智能系統(tǒng)的理解和使用,人與智能系統(tǒng)的關(guān)系需要被重新審視和定義。
針對人與智能系統(tǒng)的新型交互關(guān)系,近年來人機(jī)交互領(lǐng)域的工作者提出了不少觀點(diǎn),其中最具代表性的當(dāng)屬人機(jī)組隊(duì)(human-machine teaming)和人機(jī)融合(human-computer integration)。人機(jī)組隊(duì)的觀點(diǎn)認(rèn)為,人與智能系統(tǒng)的關(guān)系中,系統(tǒng)不再扮演支持工具的角色,而是扮演隊(duì)友的角色,執(zhí)行與人類互補(bǔ)的功能,配合人類達(dá)成目標(biāo)(Brill et al.,2018)。扮演隊(duì)友的智能系統(tǒng)擁有有限的自主權(quán),在關(guān)系和社會(huì)規(guī)范的約束下根據(jù)自身判斷自主行動(dòng)。為了達(dá)到人機(jī)組隊(duì)的交互模式,智能系統(tǒng)需要建立與人類共享的知識表征(shared knowledge)和共同意識(shared awareness),自主地理解人類并執(zhí)行恰當(dāng)?shù)暮献餍袨椤H藱C(jī)融合的觀點(diǎn)顯得更為激進(jìn),該觀點(diǎn)提出智能系統(tǒng)與人的關(guān)系超越了交互,成為一個(gè)集成的共同體,該共同體以整體目標(biāo)為導(dǎo)向規(guī)劃整體行為(Farooq & Grudin,2016;Mueller et al.,2020)?;趯χ悄芟到y(tǒng)特性的思考,Xu 等人(Xu et al.,2023)提出了一個(gè)擴(kuò)展的以人為中心設(shè)計(jì)人工智能的概念模型,該模型認(rèn)為人與智能系統(tǒng)交互的解決方案需要綜合考慮充分反映人類智能的技術(shù)、人因工效學(xué)設(shè)計(jì)、倫理化設(shè)計(jì),所設(shè)計(jì)的智能系統(tǒng)及其交互方式不僅要應(yīng)對有用和可用的問題,還要能夠解決可解釋和可理解的問題。這一概念模型為重新定義人與智能系統(tǒng)的新型人際關(guān)系、進(jìn)行交互建模、開發(fā)人因標(biāo)準(zhǔn)以及開展相關(guān)心理學(xué)理論的探索和應(yīng)用提供了框架。
盡管不同觀點(diǎn)的側(cè)重有所差異,其背后均隱含著相同的隱喻:人與智能系統(tǒng)的交互應(yīng)當(dāng)類比于人與人的交互。筆者認(rèn)為,這正是智能時(shí)代新型交互的核心理念與前進(jìn)方向:首先,人類的社會(huì)交互環(huán)境復(fù)雜多變,包含海量信息和高度不確定性,然而人類能夠僅憑有限認(rèn)知資源順利理解他人并與他人交互,這正是人類智能的體現(xiàn)(周吉帆et al.,2016)。模擬人與人的交互特點(diǎn)及潛在心理機(jī)制,有助于解決智能系統(tǒng)帶來的信息爆炸、非確定性反饋和智能黑箱問題。其次,在傳統(tǒng)人機(jī)交互情景中,以人為中心的設(shè)計(jì)要求為用戶提供自然的交互方式,其實(shí)質(zhì)是對人類與物理世界交互方式的模擬,由此產(chǎn)生的許多交互設(shè)計(jì)隱含著對類人交互的隱喻。當(dāng)交互對象進(jìn)階為智能系統(tǒng)時(shí),人與人的交互最接近用戶的自然交互方式,模擬人與人的交互是以人為中心的交互設(shè)計(jì)原則的集中體現(xiàn)。此外,智能系統(tǒng)與人的關(guān)系是合作性質(zhì)的,而人類的合作性正是人與人順利交互的重要基礎(chǔ)(Tomasello & Vaish,2013)。模擬人與人交互,有助于構(gòu)建最適宜于合作的交互方式。最后,從發(fā)展目標(biāo)看,人類智能是人工智能發(fā)展的終極目標(biāo),隨著系統(tǒng)的智能水平接近人類,其與用戶的交互方式必然向人與人交互的方向趨近。
基礎(chǔ)研究是整個(gè)科學(xué)體系的源頭,是所有技術(shù)問題的總機(jī)關(guān)。實(shí)現(xiàn)對人與人交互的模擬不僅依賴于人工智能技術(shù)的進(jìn)步,更迫切需要加強(qiáng)心理學(xué)的基礎(chǔ)性研究。只有從根本上探明人與人交互的心理機(jī)制,構(gòu)建可解釋、可應(yīng)用的理論模型,并據(jù)此設(shè)計(jì)人機(jī)交互框架,方可實(shí)現(xiàn)新型人機(jī)交互的革命性突破。
人類的交互與其他靈長類動(dòng)物的集體行為存在本質(zhì)差異,表現(xiàn)出明顯的主動(dòng)性和利他性,因而能夠形成高效和穩(wěn)定的合作關(guān)系。大量研究表明,意圖識別是人類社會(huì)交互的基礎(chǔ),人類不僅能夠根據(jù)他人行為快速推斷其目標(biāo)(Gao et al.,2019;Liu&Spelke,2017),還能夠同時(shí)推斷與目標(biāo)導(dǎo)向行為相關(guān)的信念、需求、偏好以及行動(dòng)者所受到的物理或社會(huì)限制(Baker et al.,2017;Tang et al.,2021;T?r?k et al.,2021),據(jù)此為他人行為和目標(biāo)提供合理的解釋。該過程的實(shí)現(xiàn)與心理理論密切相關(guān)(Jara-Ettinger et al.,2020),即個(gè)體基于自身根據(jù)意圖產(chǎn)生行為的心理過程,逆向推斷他人行為背后的意圖(圖1)。在計(jì)算上通常采用產(chǎn)生式模型及其逆向推理模擬人類的意圖識別過程(Baker et al.,2009)。產(chǎn)生式模型模擬了根據(jù)意圖產(chǎn)生行為的心理過程,該過程遵循人類行為規(guī)劃的一系列原則,包括效用最大化(Jara-Ettinger et al.,2016)、目標(biāo)承諾等(Cheng et al.,2023)。將產(chǎn)生過程描述為條件概率形式,則可根據(jù)貝葉斯原理計(jì)算后驗(yàn)概率,逆向推斷給定行為背后最可能的潛在意圖,實(shí)踐中該過程通過采樣實(shí)現(xiàn)。
圖1 人類交互中的行為產(chǎn)生與意圖識別過程
在人類的合作交互中,意圖識別扮演著核心角色,其對合作中其他心理過程的作用主要體現(xiàn)在三個(gè)方面:
其一,意圖識別驅(qū)動(dòng)信息選擇。人類并非被動(dòng)地接收外界信息,而是主動(dòng)選擇有益于當(dāng)前認(rèn)知活動(dòng)的信息。研究表明,個(gè)體能夠自發(fā)地采擇他人觀點(diǎn)以及加工和表征他人相關(guān)信息(Atmaca et al.,2011;Echterhoff et al.,2017),即使他人信息與當(dāng)前任務(wù)、情景無直接關(guān)聯(lián),對他人的觀點(diǎn)采擇和共同表征仍會(huì)發(fā)生(Bradford et al.,2023;Zhou et al.,2022)。該心理機(jī)制為交互雙方構(gòu)建共識提供了基礎(chǔ),進(jìn)而有助于順利理解、預(yù)測和影響他人意圖。此外,個(gè)體還能夠根據(jù)意圖識別需求靈活調(diào)配認(rèn)知資源:當(dāng)對他人意圖不確定時(shí),將更多資源投入到有益于推斷他人意圖的信息中;而當(dāng)已確定他人意圖時(shí),相同信息不再獲得額外認(rèn)知資源(史博皓,2021)。該心理機(jī)制為資源有限的人類心智順利開展合作交互提供了重要保障。
其二,交互中的迭代意圖識別。處于合作交互中的雙方均實(shí)時(shí)推斷對方意圖,同時(shí)雙方的共識中也包含了對方推斷己方意圖的預(yù)期,因此個(gè)體在合作交互中的意圖識別是一個(gè)迭代過程,由模擬推斷對方意圖以及模擬對方推斷己方意圖兩部分共同組成,不斷循環(huán)直至收斂,該過程也被稱為迭代讀心(recursive mind-reading)(Wilson et al.,2023)。與觀察者視角的意圖識別不同,迭代意圖識別考慮了交互的雙向性,交互中的個(gè)體在試圖理解對方的同時(shí)也在努力讓對方理解自己,因而迭代意圖識別能夠更為準(zhǔn)確地理解意圖,提升交互效率。
其三,基于意圖識別的行為規(guī)劃。良好的合作交互中,雙方行為應(yīng)當(dāng)盡量互補(bǔ),以降低共同成本并增加共同收益(Wang et al.,2021)。例如,在合作追逐中,雙方形成關(guān)于目標(biāo)的共同承諾,并預(yù)期對方的追逐路線,從而讓自己的追逐路線與對方形成互補(bǔ),包圍目標(biāo)。意圖識別為行為規(guī)劃提供了指導(dǎo),使得行動(dòng)者能夠提前預(yù)期他人行為,從而規(guī)劃相應(yīng)行為以實(shí)現(xiàn)群體最優(yōu)。不僅如此,意圖識別也是合作交互中行為規(guī)劃的目標(biāo)之一(Ho,Abel,et al.,2022;Ho,Saxe,et al.,2022),為了后續(xù)意圖識別更為準(zhǔn)確高效,行動(dòng)者總是試圖讓自身行為或語言傳遞更多、更準(zhǔn)確的意圖,從而利化長期穩(wěn)定的交互關(guān)系。
根據(jù)上述分析,人類合作性交互的本質(zhì)是以意圖識別為核心的主動(dòng)交互,筆者據(jù)此提出基于意圖識別的交互框架(圖2),該框架的核心部分由智能系統(tǒng)中的信息選擇、意圖識別以及行為規(guī)劃三個(gè)模塊組成,其中意圖識別是關(guān)鍵模塊。意圖識別模塊與信息選擇模塊之間的雙向箭頭表示,信息選擇模塊為意圖識別提供必要的輸入,同時(shí)意圖識別也引導(dǎo)對信息的選擇。意圖識別模塊指向行為規(guī)劃模塊的兩個(gè)箭頭則表示,行為的規(guī)劃一方面根據(jù)意圖識別結(jié)果實(shí)現(xiàn)用戶目標(biāo),另一方面盡可能使用戶明晰智能系統(tǒng)的意圖。該框架粗略地模擬了人類的交互方式,能使其中的智能系統(tǒng)更好地與人類協(xié)同合作。
圖2 基于意圖識別的交互框架
在基于意圖識別的交互框架中,用戶的交互對象不再是單一設(shè)備,而是潛在的智能系統(tǒng),該智能系統(tǒng)由設(shè)備群共享,即所有設(shè)備的感知信息均匯總到統(tǒng)一的智能系統(tǒng),且所有設(shè)備的功能實(shí)現(xiàn)由智能系統(tǒng)統(tǒng)一調(diào)配。統(tǒng)一的智能為包含大量設(shè)備的分布式場景提供了自然交互解決方案,用戶在設(shè)備間流轉(zhuǎn)時(shí)能夠體驗(yàn)到順滑的交互遷移(Celentano & Dubois,2017),不同設(shè)備也得以實(shí)現(xiàn)智能協(xié)同。需要說明的是,盡管用戶的交互對象是智能系統(tǒng),但并不意味著傳統(tǒng)交互框架中的界面消失,用戶與各設(shè)備仍存在關(guān)聯(lián),界面作為功能的載體幫助實(shí)現(xiàn)信息感知、信息呈現(xiàn)等具體功能實(shí)現(xiàn),類人智能則作為智能的載體幫助實(shí)現(xiàn)與人類接近的交互體驗(yàn)。
盡管在圖2 的交互框架中僅呈現(xiàn)了智能系統(tǒng)對用戶的意圖識別,在交互過程中用戶也在推斷智能系統(tǒng)的意圖,雙方均主動(dòng)參與到交互中,通過不斷迭代的相互意圖識別,拓展共識并產(chǎn)生互補(bǔ)的行為,實(shí)現(xiàn)人與智能系統(tǒng)的協(xié)同。值得一提的是,近期有研究者提出了“想象中的我們”(imagine we)作為模擬人類交互行為規(guī)劃的計(jì)算框架(Tang et al.,2020),該框架將交互關(guān)系中的所有對象視作一個(gè)整體,共享目標(biāo)、獎(jiǎng)賞、懲罰并同步規(guī)劃行為。在一系列虛擬場景的任務(wù)中,該框架已被證明與真實(shí)人類的表現(xiàn)高度相似,可視作是對人機(jī)融合在計(jì)算框架上的初步嘗試。
隨著智能設(shè)備的不斷發(fā)展,對人與智能系統(tǒng)設(shè)計(jì)新型交互方式的需求日益迫切。智能系統(tǒng)發(fā)展的終極目標(biāo)是趨近人類智能,探明人類合作交互的心理機(jī)制,并據(jù)此設(shè)計(jì)與人類交互相似的人-智能系統(tǒng)交互,這是新一代交互設(shè)計(jì)的發(fā)展方向。本文從上述視角出發(fā),梳理總結(jié)了人類合作交互的關(guān)鍵心理機(jī)制,并據(jù)此提出了基于意圖識別的交互框架,不僅為設(shè)計(jì)人與智能系統(tǒng)的新型交互提供了思路,更重要的是為心理學(xué)基礎(chǔ)性研究的發(fā)展及其在工程領(lǐng)域的應(yīng)用指明了方向。
沿上述思路,未來研究應(yīng)著力于以下三個(gè)方面:
(1)從智能系統(tǒng)的角度出發(fā),應(yīng)加強(qiáng)對人類交互過程中認(rèn)知機(jī)制的研究,探明交互中的信息感知、信息選擇、信息表征、意圖理解和行為規(guī)劃等關(guān)鍵心理過程,并構(gòu)建能夠模擬這些過程的計(jì)算模型,從而為設(shè)計(jì)接近于人類交互模式的智能系統(tǒng)交互方案提供理論支持。
(2)從人的角度出發(fā),考慮到智能系統(tǒng)始終與真實(shí)人類存在差異,應(yīng)系統(tǒng)研究人如何理解智能系統(tǒng),包括人對智能系統(tǒng)的意圖理解、人對智能系統(tǒng)的情感和信任等關(guān)鍵心理因素及其相互關(guān)系,為人與智能系統(tǒng)交互中以人為中心的設(shè)計(jì)提供心理學(xué)依據(jù)。
(3)從人與智能系統(tǒng)在物理和社會(huì)環(huán)境中的落腳點(diǎn)出發(fā),應(yīng)全面探討人-智交互中的倫理、責(zé)任歸因、道德判斷及風(fēng)險(xiǎn)因素等問題,為特定情景中智能系統(tǒng)的應(yīng)用及相關(guān)政策制定提供參考。