孫婧
人工智能(Artificial Intelligence,簡稱AI)技術(shù)的發(fā)展經(jīng)歷兩個階段:一是AI決策,二是AI生成。ChatGPT(Chat Generative Pre-Trained Transformer,聊天生成式預(yù)訓(xùn)練轉(zhuǎn)換器)是由決策式的AI向生成式的AI發(fā)展的一個最重要的標志,是生成式人工智能的特定實現(xiàn)和應(yīng)用。
從2022年11月30日發(fā)布上線后,ChatGPT成為了史上最快消費級的應(yīng)用程序,5天注冊用戶突破100萬,2個月月活用戶達到了1億。ChatGPT的火爆“出圈”標志著人工智能研究開始步入“強人工智能”時代。據(jù)英國《每日郵報》2023年1月30日報道,哥倫比亞的一名法官使用ChatGPT做出了法院裁決,這是第一次在人工智能文本生成器的幫助下做出法律決定,由此誕生了“全球首份使用ChatGPT做出的判決書”。
ChatGPT是美國人工智能研究實驗室OpenAI推出的一種人工智能技術(shù)驅(qū)動的自然語言處理工具。ChatGPT核心技術(shù)包括具有良好的自然語言生成能力的大模型(GPT-4),以及訓(xùn)練該模型的鑰匙——基于人工反饋的強化學(xué)習(xí)(RLHF)。據(jù)推測,GPT-4是基于萬億個單詞的語料庫,包含千億個參數(shù)。ChatGPT不只是一個聊天機器人,它是具備很多專業(yè)工具才有的功能的載體,如生成圖片、編寫代碼、創(chuàng)作詩歌、生成文案等。和專業(yè)工具不同,這些功能并不是ChatGPT最初規(guī)劃的功能,而是經(jīng)過千億級別的參數(shù)和萬億級別的語料庫訓(xùn)練后,發(fā)現(xiàn)它具備了一定的創(chuàng)作和理解能力,相應(yīng)的更專業(yè)的功能便陸續(xù)地被迭代開發(fā)出來。
AI根據(jù)自然語言描述設(shè)計生成的三張圖片
女性機器人形象
什么是“強人工智能”?“強人工智能”是一個“真正能推理和解決問題的智能機器,并且,這樣的機器被認為是有知覺的、有自我意識的,可以獨立思考問題并制定解決問題的最優(yōu)方案,有自己的價值觀和世界觀體系”。而“弱人工智能”,只能在設(shè)計的程序范圍內(nèi)決策并采取行動。ChatGPT和之前AI產(chǎn)品最大的區(qū)別是,之前的AI都屬于某一項技術(shù)在某一種需求前提下的應(yīng)用。比如AlphaGo只能處理圍棋的規(guī)則,卻無法處理象棋、五子棋的規(guī)則。這些AI技術(shù)不具備由一種技能衍生或者進化生成另外一種技能的能力。ChatGPT設(shè)計之初的目的是理解人類復(fù)雜的自然語言,功能已經(jīng)不再受限于單一領(lǐng)域,本質(zhì)上是通用的大型語言模型(Large Language Models)。它具備什么樣的能力,部分取決于模型的訓(xùn)練集。比如ChatGPT偶然把源代碼加到了訓(xùn)練數(shù)據(jù)中,結(jié)果發(fā)現(xiàn)ChatGPT在生成代碼和代碼糾錯方面的能力得到了巨大的提升。這非常接近于人類的學(xué)習(xí)過程,學(xué)習(xí)了什么方面的知識,就具備了什么方面的能力。也就是說,模型不是為特定的需求設(shè)計的,而是模型本身具備了通用型的學(xué)習(xí)能力。
ChatGPT能夠感知人類語言復(fù)雜的描述,并且捕獲其中的涵義;同時具備一定的生成和推理能力。它生成的內(nèi)容是基于龐大訓(xùn)練數(shù)據(jù)的一種再加工,它是大數(shù)據(jù)領(lǐng)域基于概率的一種生成方式。ChatGPT還具備一定的反饋和修復(fù)機制,在反饋中對一些知識性的錯誤進行糾錯,已經(jīng)具備了自動進化的能力。因此,ChatGPT的誕生被認為是人工智能的研究開始步入“強人工智能”時代的標志。
ChatGPT橫空出世后,它在多個領(lǐng)域、多個場景下展示出的能力,引起了整個世界的關(guān)注。AI從業(yè)者開始探索它給當前互聯(lián)網(wǎng)可能帶來的改變。比爾·蓋茨在接受《福布斯》雜志采訪時盛贊道:ChatGPT誕生的意義不亞于PC和互聯(lián)網(wǎng)誕生。那么,如何合理評估ChatGPT產(chǎn)生的重要性?
眾所周知,PC和互聯(lián)網(wǎng)誕生的最大意義是構(gòu)建了快速的信息通道,使得人們可以更高效地獲取來自世界各個角落的信息?;ヂ?lián)網(wǎng)信息的載體是文字、圖片和視頻等,為了產(chǎn)生好的信息內(nèi)容,需要人通過專業(yè)的訓(xùn)練,需要多種技術(shù)棧,才能夠掌握某種特定領(lǐng)域的信息生產(chǎn)方式。如從事圖片生產(chǎn)的,需要有一定的繪畫能力、圖片后期處理能力,才能生產(chǎn)出符合產(chǎn)品需求的圖片。高價值信息的產(chǎn)生需要付出高昂的代價?;ヂ?lián)網(wǎng)打通了人類信息傳遞的快速通道,卻在互聯(lián)網(wǎng)內(nèi)部應(yīng)用之間,豎起了高高的技術(shù)圍墻,阻斷了技術(shù)之間的融合發(fā)展。
ChatGPT的出現(xiàn)簡化了這一過程,因其強大的自然語言理解能力,機器能夠快速識別我們的需求,不再需要復(fù)雜的命令和操作界面,不再需要硬性地理解有些軟件背后的實現(xiàn)邏輯。只需要用正常對話的方式,告訴它我們需要什么,它就能夠智能地反饋給我們所需。ChatGPT的出現(xiàn),更像是構(gòu)建了一條超級通道,縮短了普通用戶和信息載體之間的鴻溝。它最大的意義在于將之前看似復(fù)雜的、只有專業(yè)人士才能做到的事情,變得如同對話一樣簡單。ChatGPT被認為是繼數(shù)據(jù)庫和搜索引擎之后全新一代的“知識表現(xiàn)和調(diào)用方式”。
事實上,國內(nèi)學(xué)界和產(chǎn)業(yè)界早已意識到其重要性及商業(yè)價值,一直在加強和推進AI大模型的研究及商業(yè)化。例如,清華大學(xué)計算機系唐杰教授領(lǐng)銜研發(fā)的“悟道”1.0和“悟道”2.0大模型,復(fù)旦大學(xué)邱錫鵬教授于今年2月發(fā)布的MOSS大模型,百度在今年3月16日發(fā)布的“文心一言”大模型,華為由田奇院士主導(dǎo)研發(fā)的盤古大模型等。上述“類ChatGPT”大規(guī)模預(yù)訓(xùn)練語言模型的特點是充分利用大數(shù)據(jù)、大模型和大計算。從這三方面看,我國與美國之間的差距沒有那么大,尤其是在大數(shù)據(jù)層面,我們有著先天的優(yōu)勢。我們相信在AI領(lǐng)域,國內(nèi)在不遠的將來有足夠的能力實現(xiàn)彎道超車。
“類ChatGPT”最大的突破點在于先解決了信息載體中的文字部分,充分理解了人類的語言。以文字為重要載體的法律行業(yè)將會率先直面決策性AI向生成式AI轉(zhuǎn)變的沖擊。這里我們把“類ChatGPT”大模型在法律行業(yè)的應(yīng)用分為三個層次,這三個層級并行不悖、相互促進。這里越高的層次意味著越高的技術(shù)復(fù)雜度。
傳統(tǒng)的搜索引擎在搜索法律法規(guī)的過程中,其檢索方式和檢索技術(shù)仍然是通過“關(guān)鍵詞+限定的邏輯檢索+限定的查詢條件”這種方式。有時候人類的需求無法通過檢索表述清楚,這是因為人類語言的描述有時是柔性的或是非量化的。
我們使用ChatGPT對法律法規(guī)進行咨詢,發(fā)現(xiàn)ChatGPT已經(jīng)可以做到感知語義、梳理使用法律,根據(jù)需求“明確說明法律法規(guī)的第幾條”,并返回詳細的結(jié)果。但從結(jié)果上看,由于ChatGPT關(guān)于中文的訓(xùn)練集不夠充分,并且還缺乏與中國法律相關(guān)的語料特別的標注,目前返回的結(jié)果可能不太理想。但相比傳統(tǒng)的搜索引擎,“類ChatGPT”大模型能更準確地捕獲人類的需求,返回更準確的信息。
需要說明的是,ChatGPT的搜索能力上限遠高于傳統(tǒng)的搜索引擎,基于ChatGPT的搜索目前還處于初始階段,國外的微軟公司今年2月發(fā)布了基于ChatGPT的對話式新搜索引擎NewBing。國內(nèi)的百度公司今年3月發(fā)布的“文心一言”,是全球大廠中第一個做出對標ChatGPT的產(chǎn)品。這種基于大模型的新的搜索技術(shù)目前還處于初級階段。
法律案件辦理中,從業(yè)律師很重要的一項工作就是和相關(guān)的人員進行溝通,梳理案件本身,采集相關(guān)的數(shù)據(jù)、證據(jù)。傳統(tǒng)的搜索引擎或者案例庫不能進行精確的查詢,其最大的問題在于傳統(tǒng)搜索引擎無法感知復(fù)雜的上下文,即無法根據(jù)已經(jīng)存在的法律數(shù)據(jù)、證據(jù)等做下一步的判斷。
“類ChatGPT”的出現(xiàn),使法律業(yè)務(wù)機器人、搜索引擎、資料的搜集與梳理等功能可以被整合在一起。它可以如同一名專業(yè)的律師般同咨詢者對話,搜集對話中提到的信息,經(jīng)過數(shù)據(jù)挖掘聚類和決策提供有效的案例庫;可以幫助律師和法律顧問進行多種模擬分析,例如智能合約實現(xiàn)的風(fēng)險分析、司法裁判結(jié)果分析、各類數(shù)據(jù)挖掘模型分析等。這些分析有助于制定更安全、更有效的法律策略,進而輔助做智能決策。
高級階段的“類ChatGPT”作為“超級通道”已經(jīng)具備了相當復(fù)雜的推理能力。“類ChatGPT”能夠根據(jù)自己掌握的龐大的法律法規(guī)及案例庫,結(jié)合用戶的需求、差異化的場景,撰寫法律文書、分析不同律法之間的共同點和矛盾點等。針對法律從業(yè)者,如法庭的法官,可以借用ChatGPT進行司法的裁判。
鑒于人類習(xí)得語言,除了文本,還可以利用聽覺、視覺、觸覺等多種感官信息同語言進行映射?!皬娙斯ぶ悄堋蔽磥磉€需融入更多的多模態(tài)信息,比如作為法律證據(jù)的視聽資料等。據(jù)悉,今年3月發(fā)布的GPT-4在多模態(tài)上已有突破,可以輸入圖片、文本,但是輸出的還只能是文本,尚不能輸出圖片、視頻。
從“強人工智能”所具備的能力上看,ChatGPT現(xiàn)在還處在嬰兒期,ChatGPT的能力也在逐步提升,未來還有難以量化的成長空間。我們期待,未來無論是立法、執(zhí)法、裁決過程都可以無比信賴人工智能的那一天。
目前傳統(tǒng)人工智能技術(shù)在法律界,可以進行信息回填、智能編目、法條推送、文書糾錯等輔助性工作,還可以進行類案推送、證據(jù)篩查、風(fēng)險評估、偏離度預(yù)警等核心性工作。隨著以ChatGPT為代表的“強人工智能”技術(shù)的迅速發(fā)展和應(yīng)用,未來將會對法律行業(yè)產(chǎn)生巨大的沖擊。一方面,會進一步降低法律從業(yè)者和普通人根據(jù)實際的需求,獲取法律法規(guī)并進行案例案件分析的成本;高效與低成本意味著法律行業(yè)的準入門檻變得更低,意味著擁有更快、更便捷、更透明的法律咨詢和法律文書生成途徑。但另一方面,技術(shù)的演進也在擠壓當前法律從業(yè)者的生存空間。之前,只有律師才能進行的某些法律服務(wù)很可能被人工智能逐步替代,法律從業(yè)者的業(yè)務(wù)拓展、個人成長的沉沒成本、專業(yè)護城河的深度都會被重新定義。未來對提供普通法律服務(wù)的律師的需求會變得比較少,相對要求也將更為苛刻。未來更需要不但能夠駕馭人工智能的能力,還具備從無到有的創(chuàng)造力、總結(jié)能力的法律從業(yè)者。相應(yīng)的,法律教育領(lǐng)域更是要改變原來的方式,做“系統(tǒng)升級”。這也將促進人工智能相關(guān)法律法規(guī)的完善。
雖然ChatGPT在技術(shù)層面有著巨大的優(yōu)勢,但我們?nèi)匀灰鎸σ蚱洳怀墒於a(chǎn)生的弊端,諸如信息不準確。缺乏高質(zhì)量的專門數(shù)據(jù)直接制約了以ChatGPT為代表的大型語言模型在中文法律領(lǐng)域的應(yīng)用??紤]到模型的安全性和隱私性,我們需要思考法律已有的數(shù)據(jù)資源,通過什么方式與大語言模型對接,是否有必要建設(shè)法律行業(yè)專用的數(shù)據(jù)基礎(chǔ)設(shè)施。在技術(shù)實現(xiàn)上,我國法律機構(gòu)可以和AI從業(yè)者合作,依托海量的法律大數(shù)據(jù)資源,建立本土面向司法語境的大規(guī)模語言模型,這里區(qū)塊鏈和隱私計算等技術(shù)可能是一條出路。
總的來說,ChatGPT作為“強人工智能”開始改變世界的一個標志,雖然還處于發(fā)展的初期,卻足以驚艷世人。作為法律從業(yè)者,一方面我們需要不斷地加深對法律法規(guī)的理解和駕馭,不要恐慌;另一方面我們需要借助這個工具對法律實踐活動進行根本性的提效和賦能,這樣才能更好地拉近普通民眾與法律之間的距離,讓法律的制定、落實變得更加便捷,讓所有人在低成本下都能夠平等地享有法律帶給大家的權(quán)利。
(作者系復(fù)旦大學(xué)計算機軟件與理論博士,現(xiàn)任華東政法大學(xué)智能科學(xué)與信息法學(xué)系助理研究員)