国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“為機(jī)器立心”:搭建人與機(jī)器人的價(jià)值雙向?qū)R系統(tǒng)

2022-09-23 08:14
海外星云 2022年18期
關(guān)鍵詞:人機(jī)雙向協(xié)作

“我們的研究成果標(biāo)志著人工智能系統(tǒng)具備了在交流中學(xué)習(xí)人類價(jià)值函數(shù)并實(shí)時(shí)對(duì)齊當(dāng)前人類價(jià)值目標(biāo)的能力,是為機(jī)器立心,實(shí)現(xiàn)‘小數(shù)據(jù),大任務(wù)’范式的重要一步。也是在邁向真正自主智能和通用人工智能的道路上更進(jìn)一步?!北本┩ㄓ萌斯ぶ悄苎芯吭旱泥嵶勇⊙芯繂T說。

近日,北京通用人工智能研究院、北京大學(xué)人工智能研究院朱松純教授領(lǐng)銜團(tuán)隊(duì),通過一個(gè)“人機(jī)協(xié)作探索”游戲,構(gòu)建了一種人機(jī)協(xié)同雙向價(jià)值對(duì)齊的計(jì)算框架,證明了在該框架下智能系統(tǒng)與人類能夠做到相互信任,并像人與人一樣共同合作實(shí)現(xiàn)目標(biāo)。

該項(xiàng)成果展示了一種全新的人機(jī)協(xié)作模式,將有助于設(shè)計(jì)更好的人工智能系統(tǒng),并在未來應(yīng)用于人機(jī)團(tuán)隊(duì)合作場(chǎng)景。

如今,人工智能逐漸開始滲透人們的生活。你可能已經(jīng)注意到了,在日常生活中,你的智能語音助手常常會(huì)出錯(cuò),即使是在你糾正它之后,同樣的錯(cuò)誤也仍然會(huì)發(fā)生。還有智能掃地機(jī)器人,只能遵循預(yù)先設(shè)定的邏輯來行動(dòng),而不會(huì)在聽到你的指令后馬上改變路徑。

當(dāng)下的人工智能體并不能和人類的價(jià)值進(jìn)行實(shí)時(shí)對(duì)齊,這對(duì)于人工智能助手進(jìn)入千家萬戶是一個(gè)巨大障礙。

而朱松純團(tuán)隊(duì)的這項(xiàng)研究工作展示了解決這些問題的潛力,朝著實(shí)現(xiàn)通用人工智能邁進(jìn)了一步,在未來或許能幫助數(shù)百萬人更好地與人工智能進(jìn)行合作。

該研究論文以《人機(jī)實(shí)時(shí)雙向價(jià)值對(duì)齊》為題發(fā)表。該項(xiàng)研究工作的共同第一作者是袁路遙、高曉豐和鄭子隆。

過去的10年里,以深度學(xué)習(xí)為代表的人工智能技術(shù)取得了極大進(jìn)步。然而這種基于大數(shù)據(jù)訓(xùn)練的模式是一種被動(dòng)的智能,只能按照人類事先編好的代碼,機(jī)械完成特定任務(wù),缺乏與人類相同的價(jià)值觀,更遑論與人相似的推理認(rèn)知能力。

在這個(gè)背景下,研究如何讓人工智能系統(tǒng)真正理解人類的價(jià)值需求與意圖,并獲得人類的信任,是一個(gè)巨大的挑戰(zhàn)。近幾年的研究進(jìn)展表明:人機(jī)協(xié)作是否成功不僅依賴于團(tuán)隊(duì)成員對(duì)現(xiàn)狀和目標(biāo)的一致認(rèn)知,還有賴于團(tuán)隊(duì)是否持有相同的價(jià)值取向。而只有通過人類與機(jī)器的雙向溝通,才能在團(tuán)隊(duì)中高效建立價(jià)值共識(shí),從而使得團(tuán)隊(duì)成員采取受信任的行為決策來實(shí)現(xiàn)最終目標(biāo)。

在這項(xiàng)研究中,朱松純教授團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的“人機(jī)協(xié)作探索”游戲,來探索機(jī)器人與人類價(jià)值對(duì)齊的過程以及雙向溝通在這個(gè)過程中的所用。

這個(gè)游戲的內(nèi)容是:在人類的指揮下,3個(gè)機(jī)器人與人類協(xié)同合作,在特定的棋盤上找到從起點(diǎn)到終點(diǎn)的最優(yōu)路徑。游戲在一個(gè)格子棋盤上進(jìn)行,如下圖所示。棋盤右下角和左上角分別為機(jī)器人的起點(diǎn)和終點(diǎn),黑色部分為障礙物,且棋盤上放有金磚(物資)與炸彈。

不過這個(gè)棋盤環(huán)境對(duì)于人類指揮員并不是一開始就盡收眼底的,而是由機(jī)器人不斷探索并向人類揭示其真容。

索游戲的棋盤界面

偵察機(jī)器人在尋找路徑時(shí)有額外幾個(gè)目標(biāo):盡快到達(dá)目的地、拆除炸彈、探索未知區(qū)域、收集物資。不過,只有人類指揮員知道這四個(gè)目標(biāo)的相對(duì)優(yōu)先級(jí),而機(jī)器人并不知情。在游戲過程中,機(jī)器人需要根據(jù)人類的反饋對(duì)這4個(gè)目標(biāo)的相對(duì)價(jià)值進(jìn)行預(yù)測(cè),相對(duì)價(jià)值的權(quán)重就是人類用戶的價(jià)值函數(shù)。比如,假設(shè)人類用戶以收集物資(金磚)為主要目標(biāo),那么機(jī)器人就應(yīng)該把收集金磚的價(jià)值目標(biāo)權(quán)重設(shè)置的較大一些,而不是到達(dá)目的地的時(shí)效性。

這個(gè)游戲比較真實(shí)地模擬了現(xiàn)實(shí)中的人機(jī)協(xié)作場(chǎng)景,即人工智能系統(tǒng)在人類的監(jiān)督下,在環(huán)境中自主探索并實(shí)現(xiàn)特定目標(biāo)(例如機(jī)器人救援場(chǎng)景、家居服務(wù)機(jī)器人場(chǎng)景)。

實(shí)驗(yàn)結(jié)果顯示,通過向人類提供適當(dāng)?shù)慕忉屨f明其意圖,機(jī)器人可以幫助人類感知其價(jià)值目標(biāo)。而且機(jī)器人同時(shí)作為傾聽者(從接收到的反饋中推斷出用戶的意圖)和表達(dá)者(向用戶解釋其決策過程),能夠更快地與人類實(shí)現(xiàn)價(jià)值對(duì)齊。

換句話說,整個(gè)游戲其實(shí)揭示了人機(jī)之間相互協(xié)作中的實(shí)時(shí)價(jià)值對(duì)齊,可以通過兩方對(duì)于價(jià)值目標(biāo)的解釋和評(píng)估來實(shí)現(xiàn)。

上述實(shí)驗(yàn)過程與結(jié)果,深刻揭示了人機(jī)協(xié)作之間的實(shí)時(shí)價(jià)值對(duì)齊是如何通過雙向協(xié)作而實(shí)現(xiàn)的:

首先,機(jī)器人根據(jù)人類的反饋,對(duì)人類指揮員的價(jià)值目標(biāo)做出估計(jì),并對(duì)自身行為與策略進(jìn)行調(diào)整。

其次,機(jī)器人需要根據(jù)當(dāng)前狀況,向人類指揮員解釋已經(jīng)采取的和計(jì)劃采取的行動(dòng)。而在與機(jī)器人一輪輪的協(xié)作中,人類不斷評(píng)估它們的意圖和能力,并及時(shí)通過指令對(duì)它們的行為進(jìn)行約束和調(diào)整。很顯然這是一個(gè)雙向的過程。

向價(jià)值對(duì)齊計(jì)算模型的示意圖

最后,機(jī)器人的價(jià)值目標(biāo)逐漸收斂,指揮員對(duì)機(jī)器人的反饋也漸趨平和,這就形成了人類真實(shí)價(jià)值與機(jī)器人價(jià)值的一致性統(tǒng)一,人類與機(jī)器人系統(tǒng)達(dá)成了高度的相互信任。

朱松純教授團(tuán)隊(duì)在此項(xiàng)工作中創(chuàng)造性地提出了一個(gè)人與機(jī)器人的雙向協(xié)作系統(tǒng),并對(duì)實(shí)時(shí)價(jià)值對(duì)齊框架的可用性做了證實(shí)。

本篇論文的多個(gè)審稿人對(duì)該研究的重大意義均給予了高度肯定。一位審稿人認(rèn)為,這項(xiàng)研究相當(dāng)重要并且有趣,有力地闡明了關(guān)于人類和人工智能之間利用雙向通信來進(jìn)行價(jià)值對(duì)齊的意義所在。另一位專家則評(píng)價(jià)道:這篇論文通過讓人類與幾個(gè)特定智能體一起參與游戲,成功證明了人和智能體之間的雙向協(xié)作是可能的,將人機(jī)團(tuán)隊(duì)合作領(lǐng)域的人工智能研究向前推進(jìn)了一大步,提高到更先進(jìn)的技術(shù)水平,而且其他學(xué)者將極大地從這項(xiàng)研究中學(xué)習(xí)并受到啟發(fā)。

北京大學(xué)人工智能研究院的助理教授朱毅鑫,在回憶整個(gè)研究工作時(shí),提到一些讓他印象深刻的故事。

他說,在團(tuán)隊(duì)遇到困難的時(shí)候堅(jiān)持下去,并想辦法解決問題,對(duì)項(xiàng)目進(jìn)展至關(guān)重要。項(xiàng)目初期由于新冠疫情的影響,學(xué)校的實(shí)驗(yàn)平臺(tái)無限期關(guān)閉了。好在他們及時(shí)找到了一個(gè)線上實(shí)驗(yàn)的替代方案,整個(gè)團(tuán)隊(duì)還為此專門花時(shí)間快速學(xué)習(xí)了一套全新的編程語言,以減輕線上研究需要付出的代價(jià),并解決了一些技術(shù)問題。

他還提到,堅(jiān)持自己認(rèn)為正確的立場(chǎng)也很重要。在幾次中期評(píng)審的過程中,評(píng)審專家對(duì)項(xiàng)目設(shè)計(jì)多次提出質(zhì)疑。他們根據(jù)一些值得借鑒的意見進(jìn)行了修改,但也堅(jiān)持了一些他們認(rèn)為正確的方法,而不是完全采納評(píng)審專家的建議。盡管團(tuán)隊(duì)承受了巨大壓力,但這個(gè)過程也給最終結(jié)果提供了很大的幫助。

關(guān)于此項(xiàng)工作的下一步計(jì)劃,鄭子隆研究員表示,價(jià)值對(duì)齊是走向通用人機(jī)協(xié)作的第一步。他們未來將尋求在更多的任務(wù)和人工智能智能體上面應(yīng)用該框架,探索在多個(gè)任務(wù)中的人機(jī)價(jià)值對(duì)齊,例如實(shí)現(xiàn)單個(gè)機(jī)器人的多任務(wù)能力,而不僅僅關(guān)注單項(xiàng)任務(wù)的環(huán)境。此外,他們認(rèn)為在人類和機(jī)器人之間研究心理模型的其他因素,如信念、欲望、意圖等,也是一個(gè)有前景的方向,這都是“為機(jī)器立心”的過程。

“我們相信未來人類能構(gòu)建一個(gè)人機(jī)和諧共存的智能社會(huì)?!编嵶勇⊙芯繂T說。

猜你喜歡
人機(jī)雙向協(xié)作
創(chuàng)新協(xié)作的四個(gè)階段
人才與企業(yè)“雙向奔赴”——咸陽市激發(fā)人才創(chuàng)新力
混凝土泵車用雙向液壓鎖故障探討
從內(nèi)到外,看懂無人機(jī)
粵桂扶貧協(xié)作成效顯著 天等脫貧號(hào)角鏗鏘嘹亮
廣西壯族自治區(qū)副主席方春明在2018年粵桂扶貧協(xié)作工作推進(jìn)會(huì)上的講話(摘錄)
人機(jī)對(duì)視
協(xié)作
水下無人機(jī):解鎖釣魚新姿勢(shì)
樸素高效的雙向快充