彼得·卡佩利 普拉桑納·塔姆比 瓦萊麗·雅庫博維奇
大語言模型(Large Language Model, LLM)是在數(shù)據(jù)科學(xué)領(lǐng)域帶來范式變革的一項創(chuàng)新。它拓展了機器學(xué)習(xí)模型的能力,可以根據(jù)各種定性提示詞生成相關(guān)文本和圖像。這類工具價格昂貴且開發(fā)難度高,但是大量用戶可以既快又便宜地用其執(zhí)行某些基于語言的任務(wù),而這些任務(wù)以往必須由人工完成。
這就提出了一種可能:隨著這項技術(shù)被廣泛采用,人類的許多工作會被取而代之或大量削減,尤其是主要從事文本或代碼處理的知識密集型工作。然而在現(xiàn)實中,要在組織環(huán)境下有效使用大語言模型,遠比人們通常認為的更復(fù)雜。與此同時,對于知識工作者在既定崗位中要執(zhí)行的全部任務(wù),它們是否都能令人滿意地完成,尚有待證明。
大語言模型的潛在應(yīng)用領(lǐng)域主要集中在現(xiàn)有信息的處理利用方面,而這些信息大多是因組織而異的。這方面的應(yīng)用包括總結(jié)內(nèi)容和生成報告(據(jù)調(diào)查,這占到用例的35%),以及從文本(例如包含財務(wù)信息的PDF文件)中提取信息,并據(jù)此創(chuàng)建表格(占用例的33%)。大語言模型還有另外一些熱門的有效利用方式,包括使用Dall-E 2等工具創(chuàng)建圖像,或在實際數(shù)據(jù)難以獲取時為應(yīng)用程序提供合成數(shù)據(jù),例如用于訓(xùn)練亞馬遜Alexa等語音識別工具的數(shù)據(jù)。
絕大多數(shù)使用大語言模型的組織仍處于探索階段。在客戶服務(wù)、知識管理和軟件工程這三個領(lǐng)域,各組織開展了大量生成式AI(人工智能)的實驗。例如,奧迪公司(Audi)聘請某供應(yīng)商為其構(gòu)建和部署了一款基于大語言模型的定制聊天機器人,它能夠回答員工關(guān)于現(xiàn)有文檔、客戶詳情以及風(fēng)險評估的問題。聊天機器人在各類專有數(shù)據(jù)庫中實時檢索相關(guān)信息,在可用數(shù)據(jù)不足的情況下,也會對有些問題不予作答。公司使用了亞馬遜云科技(Amazon Web Services)針對檢索增強生成(retrieval augmented generation, RAG)開發(fā)的提示工程工具,這種常見的定制化方法使用組織的專有數(shù)據(jù),但無須修改基礎(chǔ)模型。
與需要有固定輸入、明確流程以及唯一正確輸出的傳統(tǒng)自動化工具不同,大語言模型工具的輸入和輸出都是可變的,而生成回應(yīng)的流程則是一個黑箱。管理者無法像對待傳統(tǒng)機器那樣評估并控制這類工具。因此,在組織環(huán)境下使用這些工具之前,還有一些實際問題必須回答:由誰來決定輸入?由誰來評估輸出的質(zhì)量,誰又有權(quán)限使用它?
在這一節(jié)里,我們重點討論在組織中運用大語言模型時可能遭遇的五項關(guān)鍵挑戰(zhàn),以及這當(dāng)中為何需要人類員工的持續(xù)參與。
1.知識獲取問題 組織會制造出自身難以處理的大量專有文字信息,包括戰(zhàn)略計劃書、崗位說明書、組織結(jié)構(gòu)圖和工作流程圖、產(chǎn)品文檔、績效評估報告,諸如此類。受過這方面數(shù)據(jù)訓(xùn)練的大語言模型可以給出組織此前或許無從得到的洞察。這或許是使用大語言模型帶給公司最重要的好處。
組織要想充分利用大語言模型,可以通過自有數(shù)據(jù)來源為其提供信息,生成專門針對自身需求的輸出。例如,對于企業(yè)來說,“中國消費者的關(guān)注點可能有哪些?”這個問題就不如“我們應(yīng)該如何針對中國消費者調(diào)整我們的產(chǎn)品?”那么切中要害。為了有效回答后一個問題,大語言模型需要使用組織的專有數(shù)據(jù)。而模型回應(yīng)的質(zhì)量,則取決于用于訓(xùn)練大語言模型的數(shù)據(jù)質(zhì)量如何,是否有針對性。
組織制造的大量垃圾數(shù)據(jù)或無關(guān)數(shù)據(jù)清理起來也相當(dāng)費力。因此,為大語言模型提供正確信息絕不是什么輕松任務(wù)。組織文化方面的有用知識、面向員工的調(diào)查結(jié)果,等等,都需要花不少時間才能收集和整理好。即便如此,有許多重要的知識,對于個人來說可能心知肚明,但并未記錄在案。在一項研究中,只有約11%的數(shù)據(jù)科學(xué)家報告稱,他們能夠利用所需數(shù)據(jù)對大語言模型進行微調(diào),以給出切合組織實際的恰當(dāng)答案。這個過程要花費大量資金,需要強大的處理器、數(shù)以千計的高質(zhì)量訓(xùn)練與驗證示例、大量工程實踐,還要持續(xù)進行更新。
在大語言模型內(nèi)部還面臨著數(shù)據(jù)污染問題:如果來自組織中任何地方的劣質(zhì)數(shù)據(jù)被輸入了大語言模型,它不僅會影響當(dāng)前的答案,還會影響未來的回答。應(yīng)當(dāng)制定一套關(guān)于訓(xùn)練大語言模型所用數(shù)據(jù)的管理規(guī)則,組織中也必須有人對這方面的活動加以監(jiān)管。
因為定制大語言模型必須有大量的高質(zhì)量數(shù)據(jù),公司必須整理顯性知識并將其標(biāo)準(zhǔn)化,編纂成標(biāo)準(zhǔn)的操作流程、崗位說明、員工手冊、用戶指南、計算機算法以及其他的組織知識單元,以供大語言模型調(diào)用。計算機編程是顯性知識尤為重要的領(lǐng)域之一。在回答編程問題方面,大語言模型已經(jīng)派上了很大用場,而且也有許多基于大語言模型的工具,比如,GitHub的Copilot和Hugging Face的StarCoder,都可以實時為人類程序員提供協(xié)助。一項研究表明,程序員更喜歡使用基于大語言模型的工具來編寫代碼,因為與在線搜索現(xiàn)有代碼并改寫相比,它們提供了更好的起點。不過,這種方法并不能提高編程工作的成功率。目前的主要問題在于,大語言模型生成的代碼還需要另外多花時間去調(diào)試和理解。
組織在知識獲取工作上遇到的困難,可能推動產(chǎn)生新的工作崗位,比如數(shù)據(jù)館員(data librarian),其職責(zé)是整理組織用于訓(xùn)練大語言模型應(yīng)用程序的專有數(shù)據(jù)。在某些場景下,這可能是至關(guān)重要的崗位。
2.輸出驗證問題 在針對編程工作的大語言模型輸出被正式應(yīng)用、產(chǎn)生實際影響前,可以先對它的正確性和有效性進行測試。然而,大多數(shù)工作任務(wù)并不能這樣做。例如,戰(zhàn)略建議或營銷創(chuàng)意的輸出就不容易測試或驗證。對于這類任務(wù)來說,一個輸出要做到有用,只需要“足夠好”,而不用絕對正確。大語言模型給出的回答在什么時候算是足夠好?對于簡單的任務(wù)來說,具有相關(guān)知識的員工只需要讀一讀大語言模型的回答,就能自行做出判斷。
迄今為止,在是否會認真對待輸出檢查工作這件事上,用戶的表現(xiàn)并不理想。在一次實驗中,白領(lǐng)工作者可以選擇使用大語言模型完成寫作任務(wù)。那些選擇使用該工具的人,還可以選擇編輯文本后再交稿,或者不做編輯直接交稿。大多數(shù)實驗參與者選擇了后者。
在判斷大語言模型更復(fù)雜、更少見但又更重要的輸出時,如果員工缺乏所需的知識,又會發(fā)生什么?我們對所問的一些問題,可能并不清楚“足夠好”的答案是什么樣的。這就需要在評估和應(yīng)用大語言模型的輸出時,有更高明的人工判別能力。
與大語言模型不同,人類員工對自己的產(chǎn)出負責(zé),而過往表現(xiàn)出的高準(zhǔn)確率或良好判斷力,可以讓雇主對其未來的產(chǎn)出情況有所預(yù)判。人類員工還可以解釋他們?nèi)绾蔚玫侥承┙Y(jié)論或做出某些決定。對于大語言模型來說,情況并非如此:每條提示詞會發(fā)送一個問題,沿著復(fù)雜路徑穿過知識庫,產(chǎn)生一個獨特且無法解釋的回應(yīng)。此外,大語言模型會“忘記”怎么完成它們之前表現(xiàn)很好的任務(wù),這就讓保證這些模型的服務(wù)質(zhì)量變得很難。
說到底,還是要由人來評估大語言模型的輸出是否足夠好,而他們必須認真對待這項任務(wù)。將大語言模型的輸出與人類監(jiān)督相結(jié)合的挑戰(zhàn)在于:在許多情況下,這個人必須對這個領(lǐng)域有所了解,才能評估大語言模型輸出是否具有價值。這意味著,對具體領(lǐng)域的知識無法“外包”給大語言模型——在將其投入使用之前,還是需要由領(lǐng)域內(nèi)專家評估大語言模型輸出是否足夠好。
3.輸出判定問題 大語言模型擅長總結(jié)大量文本。這可能有助于為決策提供有價值的數(shù)據(jù),并讓管理者能夠檢查關(guān)于特定主題的了解程度。例如,在過往調(diào)查中,員工對具體某項福利都有哪些看法。不過,這并不意味著大語言模型的回應(yīng)比人類決策更加可靠或偏見更少:提示詞可能讓大語言模型根據(jù)同一數(shù)據(jù)得出不同結(jié)論,甚至在不同時間給相同的提示詞,其回應(yīng)也可能有所不同。
這也使得組織內(nèi)部各方很容易產(chǎn)生彼此沖突的輸出。例如,如果具有不同利益的個人或團隊想要生成支持其自身立場的大語言模型輸出,那么,領(lǐng)導(dǎo)者就要去針對這些分歧做出評判。這種挑戰(zhàn)在大語言模型出現(xiàn)之前就已經(jīng)存在,只不過如今創(chuàng)建新內(nèi)容的成本遠低于評判成本,管理者面臨著比以往任何時候都更復(fù)雜的新任務(wù)。
評判大語言模型輸出的任務(wù)是加給現(xiàn)有崗位還是要另設(shè)新崗,則要看學(xué)習(xí)的難易程度。認為用上了大語言模型,低級別員工就有能力承擔(dān)原本屬于高級別員工的工作,這樣的想法還是過于樂觀了。對于崗位職級體系,人們存在已久的看法是,就職者需要的是從實踐中獲得的技能和判斷力,以及處理某些工作的意向,而不僅僅是大語言模型當(dāng)場給出的書本知識。長期以來的挑戰(zhàn)在于,如何推動管理者授權(quán)員工去多使用這些知識,而不是替他們做決策。管理者之所以不愿這樣做,更多的是因為不夠信任,而非員工缺乏知識或能力。前面已經(jīng)說過,要對大語言模型的輸出做出有效評判,可能也需要具備豐富的領(lǐng)域內(nèi)專業(yè)知識。這進一步限制了將這類任務(wù)委派給低級別員工的程度。
對于影響重大的輸出,同時解決決策權(quán)與可靠性問題的一種做法,是集中使用大語言模型。設(shè)置一個職位使用大語言模型編制組織的關(guān)鍵報告,既有助于發(fā)展對這類工具的運用能力,又能減少使用組織專有數(shù)據(jù)生成的文檔數(shù)量。
設(shè)置一個集中作業(yè)崗位以規(guī)范方式編寫報告,也有助于避免處理輸出沖突的問題,并且不用再對內(nèi)容的出入做出評判。一個大語言模型辦公室完全可以自行完成穩(wěn)健性測試,觀察針對數(shù)據(jù)、安全護欄和提示詞的小幅調(diào)整會如何改變輸出。這將使評判者的角色從技術(shù)層面更多轉(zhuǎn)向合規(guī)層面,因此,這個職位也就很容易作為一個信息技術(shù)崗,設(shè)置在公司的法律總顧問辦公室。
4.成本收益問題 在組織內(nèi)使用大語言模型輸出的收益可能難以預(yù)測。例如,大語言模型擅長起草簡單信函,因為這些信函通常只需合乎要求即可??墒?,類似付款逾期客戶告知函這種重復(fù)發(fā)送的簡單郵件,已經(jīng)通過格式信函實現(xiàn)了自動化。而簡易機器人也已經(jīng)能很好地接待客戶和其他人,引導(dǎo)他們找到組織推薦的解決方案(雖然未必是客戶真正想要的)。呼叫中心里針對客戶最常見問題量身定制的模板和話術(shù)腳本更是一應(yīng)俱全。
一項關(guān)于客戶服務(wù)代表的研究發(fā)現(xiàn),在現(xiàn)有的部分計算機輔助手段之外,再組合引入大語言模型和經(jīng)過成功客戶互動訓(xùn)練的機器學(xué)習(xí)算法,可以將問題解決率提高14%。對于這項通常被認為很適合采用大模型的工作來說,這種提升算是巨大飛躍還是微不足道,以及就成果而言,實施的成本是否值得,都還沒有定論。一項面對波士頓咨詢公司(BCG)758名咨詢師的預(yù)注冊實驗表明,GPT-4大幅提高了咨詢師在某些任務(wù)上的生產(chǎn)力,但在另外一些任務(wù)上顯著降低了其生產(chǎn)力。在這些工作中,核心任務(wù)非常適合由大語言模型完成,其提升生產(chǎn)力的效果雖然是實打?qū)嵉?,但還遠遠談不上令人印象深刻。
雖然大語言模型有可能給出比現(xiàn)成模板和聊天機器人更好也更精準(zhǔn)的回應(yīng),但問題在于組織能否看到使用它們的必要性。它們可能會選擇將其用在銷售電話之類的場景中,因為這樣做可以獲得很大的收益,但可能不會用在客戶服務(wù)場景下,因為組織對于利用已有資源提高績效并沒有多大興趣。
此外,大語言模型在各種應(yīng)用場景下節(jié)省的時間和成本,可能會被隨之而來的其他成本抵消。例如,將聊天機器人轉(zhuǎn)換為大語言模型是一個相當(dāng)艱巨的任務(wù),哪怕它最終能派上用場。此外,讓客戶與大語言模型支持的聊天機器人直接對話,可能會使組織面臨安全和品牌風(fēng)險。無論是由人還是由大語言模型起草,重要信函或信息通常還是必須交給律師或媒體傳播專家審查,而這道程序費用高昂。
5.工作轉(zhuǎn)型問題 大語言模型將如何與員工合作?預(yù)測這個問題的答案絕非易事。首先,考慮到員工通常承擔(dān)著多項動態(tài)變化的任務(wù)和職責(zé),接管某項任務(wù)的大語言模型無法取代整個職位,也無法取代所有單獨的細分任務(wù)??梢曰叵胍幌乱階TM的效果:雖然這些機器能夠完成銀行出納承擔(dān)的許多任務(wù),但它們并沒有顯著減少人工數(shù)量,因為出納除了處理現(xiàn)金以外還有其他工作,騰出空來之后又接手了新的任務(wù)。
在任何工作流程中,是否需要大語言模型也存在著多變性和不可預(yù)測性,這個因素從根本上保住了現(xiàn)有工作崗位。如今的多數(shù)工作并不需要經(jīng)常使用大語言模型,也很難預(yù)測它們何時會要用到。大語言模型最有可能取代的,當(dāng)然是那些占用人們大部分時間但利用技術(shù)總是可以正確完成的工作。
但即使是在這類情況下,也要做一些鄭重的提醒。大語言模型會造成大量失業(yè)這一預(yù)測取決于一個隱含的假設(shè),即工作任務(wù)可以直接在員工間重新分配。這可能適用于老式的打字組,其中所有員工都執(zhí)行同樣的任務(wù)。如果小組的生產(chǎn)力提高了10%,就有可能重新分配工作,將打字員人數(shù)縮減10%。但是,如果員工并未組織成一個聯(lián)合小組,同時又沒有對工作場所做重大且昂貴的轉(zhuǎn)型,這種精簡就不可能實現(xiàn)。此外,顯而易見的是,倘若某位高管個人助理的工作效率提高了10%,我們也不可能把這個人裁掉十分之一。
相比正式雇傭來說,外包工作更容易縮減人工。如果部分外包工作可以由大語言模型來做,組織就可以通過談判,降低購買供應(yīng)商外包服務(wù)的花費或時長。在規(guī)模最大的科技供應(yīng)商,比如那些巨型IT外包公司那里,最常見的是大量程序員在做很方便互換的工作(就像打字組那樣),因而最有機會實現(xiàn)人員精簡。AI帶來的成本降低,會在多大程度上拉低客戶價格還是提高承包商利潤,仍是一個懸而未決的問題。
獨立承包商也岌岌可危。的確,承包商使用大語言模型可以比不使用時完成更多工作,但對員工來說也是如此。如果要做的工作減少了,公司可能會先削減承包商的數(shù)量,然后再裁員,因為這樣做更容易。和外包供應(yīng)商一樣,公司也可以嘗試和使用大語言模型的承包商重新談一個更低的價格。初步證據(jù)表明,隨著大語言模型的引入,可以交給承包商完成的標(biāo)準(zhǔn)化零工數(shù)量大幅下降了。
還有一種可能的情況是,大語言模型可以充分提高整個組織的生產(chǎn)力,因此不會對特定職業(yè)造成影響,而是會影響整體的勞動力需求。這一點目前還沒有證據(jù)證實,但對于許多商業(yè)領(lǐng)袖來說,這可能會是一個可喜的影響,因為美國和其他地區(qū)的生產(chǎn)力增長都非常緩慢,還有許多雇主報告正面臨招工難。
大語言模型有一個讓人意想不到的用武之地,是在我們認為最人性化的領(lǐng)域:那些提供一對一反饋的工作,比如,教練、咨詢和輔導(dǎo)。有證據(jù)表明,在這些情境下,人們更喜歡和AI聊天機器人而不是真人打交道,至少在初次互動時是這樣,因為他們覺得這樣沒那么嚇人。
IT相關(guān)的創(chuàng)新歷史表明,創(chuàng)新的影響因工作、組織和行業(yè)而異,并且需要很長時間才能充分展現(xiàn)。大語言模型工具一直在變得更加容易使用,并且正在與微軟Office等廣泛應(yīng)用的軟件產(chǎn)品相結(jié)合,這讓它有可能更快得到應(yīng)用。不過,我們的討論表明,眼下大多數(shù)組織還只是在一些小范圍內(nèi)嘗試使用大語言模型。
組織應(yīng)該如何為大語言模型做好準(zhǔn)備?
首先,應(yīng)當(dāng)制定并發(fā)布適當(dāng)?shù)氖褂靡?guī)范。阻止員工嘗試大語言模型可能不太現(xiàn)實,但即使是在初期階段,也必須制定出使用大語言模型的基本規(guī)則。例如,禁止將專有數(shù)據(jù)上傳第三方大語言模型,以及披露在準(zhǔn)備共享的任何文件中大語言模型是否會被使用、怎樣被使用。合理的使用政策必然要對員工使用公司設(shè)備和工具的方式加以約束。另一種做法則是使用像Amazon Q這樣的工具。這是一種生成式AI聊天機器人,可以專門定制,使其符合組織在大語言模型訪問權(quán)限、可用數(shù)據(jù)等方面的合理使用政策。
其次,有必要考慮組建一個中心辦公室,至少在一開始由其負責(zé)產(chǎn)出所有重要的大語言模型輸出,確保人們對合理使用規(guī)范的遵守,并處理數(shù)據(jù)污染等問題。中心辦公室還可以根據(jù)最佳實踐,為創(chuàng)建提示詞和解讀答案變化提供指導(dǎo)。它們還讓實現(xiàn)規(guī)模經(jīng)濟成為可能。指定一名數(shù)據(jù)館員負責(zé)所有可用于分析的公司數(shù)據(jù),要比讓每一位可能的用戶自行負責(zé)更加高效,也更容易管理。
至少在剛開始的時候,制定規(guī)則和行為規(guī)范需要召集一個特別工作組,其中要包含來自IT、總法律顧問辦公室和可能用戶的代表。這個工作組以及之后的中心辦公室,可以幫助應(yīng)對數(shù)據(jù)管理挑戰(zhàn),正是這些挑戰(zhàn)減緩了機器學(xué)習(xí)與數(shù)據(jù)分析的應(yīng)用。作為第一步,只需要確定哪些數(shù)據(jù)尚未共享、哪些無法共享(比如說,因為其在供應(yīng)商的手中),或者哪些數(shù)據(jù)尚未編碼,這將是朝著打破這些條塊以便提供更多更好信息的一大步。
第三,任何可能想要得到或需要用到大語言模型報告的人,都應(yīng)該參加簡單的培訓(xùn),以了解這類工具的奇特之處——特別是它們讓人產(chǎn)生幻覺的能力——以及如何評估AI生成的文檔和報告。下一步則是對員工進行提示詞設(shè)計和改進方面的培訓(xùn)。同樣重要的是,在使用大語言模型輸出之前,要說清楚、講明白,達到什么標(biāo)準(zhǔn)算是“足夠好”。中心辦公室可以為最適合本組織的培訓(xùn)創(chuàng)造便利條件。
雇主應(yīng)該調(diào)整未來工作的招聘標(biāo)準(zhǔn),還是開始制訂裁員計劃?大眾媒體上關(guān)于AI將如何消滅大量工作崗位的諸般說法,會給投資人和利益相關(guān)者帶來裁撤這些崗位的壓力。提醒他們那些預(yù)測有多么不準(zhǔn)確可能會有幫助。例如,到目前為止,關(guān)于卡車司機大多要被機器人取代的預(yù)測根本沒有發(fā)生。
從長遠來看,一旦我們摸清了將大語言模型應(yīng)用于工作的各種可能方式,我們就會知道是否可以對工作進行重構(gòu),從而提升效率。急著改寫供應(yīng)商合同或啟動裁員,皆非明智之舉。
技術(shù)的發(fā)展歷程表明,從長遠來看,新技術(shù)所創(chuàng)造的就業(yè)機會,多于其縮減的就業(yè)崗位。那些關(guān)于IT創(chuàng)新特別是AI會造成大量失業(yè)的預(yù)測,并沒有成為現(xiàn)實。工作任務(wù)分配方式的改變,通常是以緩慢的方式進行的。我們預(yù)計,大語言模型的使用會更加普遍,但并不會造成太多失業(yè),即使在大語言模型得到廣泛使用的地方也是如此。那些認為這類工具可能全盤取代人類工作的人,必須直面這樣一個現(xiàn)實:大語言模型能做的簡單工作已經(jīng)在某種程度上實現(xiàn)了自動化,在特定工作中大語言模型能做的那些最重要的任務(wù),又可能會帶來新的任務(wù),而想要通過重新安排現(xiàn)有員工的工作來找出可以裁減的冗余崗位,既不容易做到,也不劃算。技術(shù)決定論——認為技術(shù)進步是塑造社會的主要因素——是一個備受技術(shù)創(chuàng)造者歡迎的理論,但在技術(shù)研究者看來并沒有什么可信度。
翻譯:徐廣彤