国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大模型實(shí)現(xiàn)因果推斷的探討

2023-02-09 02:29:46賈琳琳鄧佳鑫龐俊彪張寶昌北京工業(yè)大學(xué)北京004北京航空航天大學(xué)北京009
郵電設(shè)計(jì)技術(shù) 2023年7期
關(guān)鍵詞:微調(diào)因果關(guān)系能力

賈琳琳,鄧佳鑫,龐俊彪,張寶昌(.北京工業(yè)大學(xué),北京 004;.北京航空航天大學(xué),北京 009)

1 概述

1.1 大模型

大模型指利用海量數(shù)據(jù)用自監(jiān)督方法進(jìn)行訓(xùn)練而生成擁有龐大參數(shù)量的機(jī)器學(xué)習(xí)模型,它們?yōu)橄掠稳蝿?wù)提供了優(yōu)良的分布式特征表示能力和模型泛化能力。例如,處理復(fù)雜問答的多輪對(duì)話能力、人類情感對(duì)齊能力、數(shù)學(xué)問題的求解能力等。從大模型的發(fā)展上看,在2022 年11 月底,OpenAI 發(fā)布了ChatGPT[1],2023 年3 月14 日,GPT?4 也隨之發(fā)布。這2 個(gè)模型的問世讓全球切身感受到了人工智能從數(shù)據(jù)中形成智能的潛力。與此同時(shí),隨著MetaAI 開源了備受矚目的LLaMA[2]框架以及斯坦福大學(xué)提出了Stanford Alpaca[3]模型,業(yè)界開始涌現(xiàn)出更多類型的大模型。在國(guó)內(nèi),百度、騰訊、華為、阿里等互聯(lián)網(wǎng)頭部企業(yè)競(jìng)相布局AI產(chǎn)業(yè),并推出“文心一言”“混元AI大模型”“盤古Chat”“通義千問”等一系列通用化大模型??梢姡覈?guó)AI大模型發(fā)展加速,行業(yè)的垂直應(yīng)用也呈現(xiàn)出多樣性、加速性和廣泛性。

1.2 因果推斷

因果推斷[4?9]是一種統(tǒng)計(jì)和推理方法,旨在理解和推斷事件、變量或行為之間的因果關(guān)系。因果推斷可以被總結(jié)為3 個(gè)層次。從問題角度出發(fā),因果推斷的第1 個(gè)層次是相關(guān)性,即探索變量之間的關(guān)系。常規(guī)機(jī)器學(xué)習(xí)在應(yīng)用中主要學(xué)習(xí)的就是變量之間的相關(guān)性。第2 個(gè)層次是執(zhí)因溯果,即研究實(shí)施某種干擾因素后產(chǎn)生的效果或者收益是否符合預(yù)期。第3個(gè)層次是由果執(zhí)因,也被稱為反事實(shí)推斷,即為了得到某種結(jié)果需要怎么做?,F(xiàn)在大多數(shù)因果建模都是從這一層次來進(jìn)行探索。此外,多數(shù)因和果耦合在了一起,這可能導(dǎo)致因果推斷無法獲得滿意的結(jié)果。因此,從因果推斷的視角來看,將導(dǎo)致推斷失誤的因素解耦是一個(gè)至關(guān)重要的問題。與此同時(shí),解耦因果同樣對(duì)解決訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的Out?Of?Distribution(OOD)問題起到幫助。它有助于更好地理解事件和變量之間的因果聯(lián)系,從而支持更有效的決策制定和干預(yù)措施的設(shè)計(jì)。顯然,因果推斷在許多領(lǐng)域具有廣泛的應(yīng)用,包括公共政策評(píng)估、醫(yī)學(xué)研究、經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)等。

因果推斷應(yīng)用場(chǎng)景廣泛,可以被用于醫(yī)療診斷和治療決策、公共政策制定、金融風(fēng)險(xiǎn)評(píng)估、自然災(zāi)害預(yù)測(cè)和防災(zāi)減災(zāi)等各個(gè)領(lǐng)域[10?13]。具體如:因果推斷在服務(wù)器問題診斷上的應(yīng)用,而大模型可以分析服務(wù)器的運(yùn)行數(shù)據(jù),包括日志、傳感器數(shù)據(jù)等。識(shí)別服務(wù)器中的異常行為和潛在問題,這使得預(yù)測(cè)服務(wù)器故障成為可能,并可及時(shí)采取相應(yīng)的預(yù)防措施。同時(shí),通過因果推斷分析來確定問題的根本原因,并提供修復(fù)指導(dǎo)。

1.3 大模型與因果推斷結(jié)合的可能性

大模型的強(qiáng)大分布式表示能力為因果推斷提供了“因”和“果”的表示能力。即可以利用大模型來理解各種因果推斷問題中的語義和表示,如因果發(fā)現(xiàn)和回答因果等問題。傳統(tǒng)的因果發(fā)現(xiàn)和效應(yīng)推理通常依賴于領(lǐng)域?qū)<姨峁┑南闰?yàn)領(lǐng)域知識(shí),建立一些先驗(yàn)領(lǐng)域知識(shí)對(duì)相關(guān)領(lǐng)域的專家數(shù)量和知識(shí)互補(bǔ)性具有很高的要求。然而,大模型的特征表示能力提供了先驗(yàn)領(lǐng)域知識(shí)的表示能力,支持自然語言和形式方法之間的轉(zhuǎn)換。此外,大模型的泛化能力能夠整合關(guān)于因果機(jī)制的常識(shí)和領(lǐng)域知識(shí),從而因果關(guān)系在大模型的微調(diào)階段、實(shí)踐和采用方面開辟了可能性,有助于人們更好地理解變量之間的因果聯(lián)系。

因果推斷對(duì)大模型的發(fā)展起到了促進(jìn)作用。雖然,大模型能夠在某些因果關(guān)系的簡(jiǎn)單問題上給出正確的答案,但目前的研究還不確定大模型是否能通過自監(jiān)督學(xué)習(xí)掌握簡(jiǎn)單因果關(guān)系,并具備了因果推斷的能力。然而,復(fù)雜因果關(guān)系及其可解釋性注入到大模型學(xué)習(xí)的方法是還沒有深入研究的領(lǐng)域。因此,復(fù)雜因果關(guān)系及其可解釋性注入是大模型與因果推斷結(jié)合的關(guān)鍵問題之一。相應(yīng)地,基于大模型的因果推斷的結(jié)論可解釋性是大模型與因果推斷結(jié)合的關(guān)鍵問題之二。

2 大模型因果推斷的難點(diǎn)

大模型因果推斷的主要難點(diǎn)在于實(shí)現(xiàn)從關(guān)聯(lián)分析到因果推理的跨越。目前深度學(xué)習(xí)的主要特點(diǎn)是數(shù)據(jù)驅(qū)動(dòng)、關(guān)聯(lián)學(xué)習(xí)和概率輸出,導(dǎo)致模型普遍存在預(yù)測(cè)不穩(wěn)定和不可解釋等問題。主要原因是因果機(jī)制尚未充分融入機(jī)器學(xué)習(xí)。一項(xiàng)研究[14]探討了大語言模型是否能夠從相關(guān)性中推斷出因果關(guān)系,并通過構(gòu)建相關(guān)性推斷因果關(guān)系的數(shù)據(jù)集Corr2Cause進(jìn)行驗(yàn)證。該研究評(píng)估了17 種現(xiàn)有的大語言模型在該數(shù)據(jù)集上的表現(xiàn),結(jié)果顯示目前的大模型在純推理因果關(guān)系的能力方面存在不足,并且在這一任務(wù)上的表現(xiàn)基本上達(dá)到隨機(jī)水平,并指出大模型的微調(diào)技術(shù)對(duì)因果關(guān)系推斷具有重要意義。

因此,需要開展更多的研究以推動(dòng)大模型在因果推斷方面的發(fā)展,這些研究包括構(gòu)建更適用于大模型因果推斷的數(shù)據(jù)集,設(shè)計(jì)新的算法和模型結(jié)構(gòu)以實(shí)現(xiàn)更好的因果推理能力,并提高模型在這一任務(wù)上的性能和穩(wěn)定性。這將有助于推動(dòng)大模型在因果推斷領(lǐng)域的進(jìn)展,并為機(jī)器學(xué)習(xí)帶來更高水平的可解釋性和可靠性。

3 大模型因果推斷模型建立策略

3.1 大模型預(yù)訓(xùn)練

針對(duì)因果推斷問題,大模型需要什么樣的預(yù)訓(xùn)練策略和目標(biāo)函數(shù)?首先,預(yù)訓(xùn)練模型是一種自監(jiān)督學(xué)習(xí)的應(yīng)用,利用幾乎無限的文本(或行業(yè)數(shù)據(jù)),預(yù)測(cè)學(xué)習(xí)輸入句子(或行業(yè)數(shù)據(jù))中每個(gè)數(shù)據(jù)元(token)上下文相關(guān)的表示,它隱式地學(xué)習(xí)到了通用的語法語義知識(shí)(行業(yè)數(shù)據(jù)的變化規(guī)律)。第二,它可以將從開放領(lǐng)域?qū)W到的知識(shí)遷移到下游任務(wù),以改善低標(biāo)記資源的下游任務(wù)。第三,預(yù)訓(xùn)練模型+微調(diào)機(jī)制具備很好的可擴(kuò)展性,在支持一個(gè)新任務(wù)時(shí),只需要利用該任務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可。第四,需要構(gòu)建體現(xiàn)因果推斷的目標(biāo)函數(shù),一種策略是基于外部因果陳述的自監(jiān)督表示學(xué)習(xí)策略,讓自監(jiān)督學(xué)習(xí)的特征表示能夠識(shí)別外部定義的因果關(guān)系[15?16]。

與經(jīng)典的機(jī)器學(xué)習(xí)相比,預(yù)訓(xùn)練模型具有三大特點(diǎn)[17?19]。第一是模型參數(shù)規(guī)模大,在預(yù)訓(xùn)練階段充分利用大規(guī)模無標(biāo)注數(shù)據(jù),使系統(tǒng)更好地掌握通用數(shù)據(jù)內(nèi)在規(guī)律的能力[20]。第二是泛化能力強(qiáng),在通用無標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練得到的同一個(gè)大模型,只需要對(duì)不同特定任務(wù)的有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可應(yīng)用于不同任務(wù)中,不需要針對(duì)每個(gè)任務(wù)專門研制模型。第三則是因其強(qiáng)大的通用語言能力而帶來的良好的綜合性能[21]。

大模型進(jìn)行預(yù)訓(xùn)練的一般步驟如下。

a)收集大量低成本收集的訓(xùn)練數(shù)據(jù)。

b)采用某種預(yù)訓(xùn)練方法去學(xué)習(xí)其中的共性,一般采用自回歸預(yù)訓(xùn)練方式或自編碼預(yù)訓(xùn)練方式。

c)將其中的共性“移植”到特定任務(wù)的模型中。

d)預(yù)訓(xùn)練完成后,可以進(jìn)行迭代訓(xùn)練來進(jìn)一步改進(jìn)模型或壓縮模型。這通常包括使用更具體的任務(wù)和數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),以提高其在特定任務(wù)上的性能。

3.2 大模型因果推斷的微調(diào)過程

首先,微調(diào)可以提高模型在下游任務(wù)的性能。預(yù)訓(xùn)練的大型模型學(xué)習(xí)到了豐富的特征表示和模式識(shí)別能力,通過微調(diào),可以利用這些學(xué)習(xí)到的特征表示快速、有效地適應(yīng)新任務(wù),從而提高模型在特定任務(wù)上的性能。其次,微調(diào)通常比從頭訓(xùn)練模型更快,起到加速訓(xùn)練過程的作用。預(yù)訓(xùn)練模型已經(jīng)學(xué)習(xí)到了通用的特征表示,因此微調(diào)只需要在特定任務(wù)的數(shù)據(jù)集上進(jìn)行相對(duì)較少的迭代訓(xùn)練,可以節(jié)省訓(xùn)練時(shí)間和計(jì)算資源。微調(diào)很利于遷移學(xué)習(xí)。通過微調(diào)大模型,可以將在一個(gè)任務(wù)上學(xué)到的知識(shí)遷移到另一個(gè)相關(guān)任務(wù)上[22?23]。

大規(guī)模語言模型在沒有利用人類反饋技術(shù)(Rein?forcement Learning from Human Feedback,RLHF)前,已有的實(shí)驗(yàn)結(jié)果表明這些模型在多個(gè)數(shù)據(jù)集上的因果推斷表現(xiàn)幾乎接近隨機(jī)性能[14]。而通過人類反饋技術(shù)或因果推斷標(biāo)注數(shù)據(jù)集的微調(diào)后可以明顯提升大模型的因果推斷能力。具體地,對(duì)于采用不同預(yù)訓(xùn)練方式的模型采用不同的微調(diào)方法。例如,基于GTP 模型使用OpenAI 調(diào)優(yōu)API 的默認(rèn)設(shè)置;而對(duì)于基于bert的模型,基于transformer的自注意力機(jī)制適當(dāng)交換bert的輸入輸出來進(jìn)行微調(diào)。

微調(diào)一般包括以下步驟。

a)加載預(yù)訓(xùn)練模型:選擇一個(gè)與所需任務(wù)相關(guān)的預(yù)訓(xùn)練模型,并加載其權(quán)重。

b)選擇任務(wù)數(shù)據(jù)集:選定特定任務(wù)所需的數(shù)據(jù)集,目前已經(jīng)有專門針對(duì)純因果推斷的數(shù)據(jù)集CORR2CAUSE。

c)對(duì)模型進(jìn)行微調(diào):將任務(wù)數(shù)據(jù)集作為輸入,以最小化模型在此數(shù)據(jù)集上的損失函數(shù)。在這個(gè)過程中,通常需要在訓(xùn)練集和驗(yàn)證集上進(jìn)行多次迭代,以避免過擬合問題。

d)在測(cè)試集上進(jìn)行測(cè)試:使用微調(diào)后的模型,在測(cè)試集上測(cè)試其性能表現(xiàn)。

3.3 人類反饋技術(shù)提高因果推斷的可解釋性

OpenAI 的研究者采用了人類反饋技術(shù),通過訓(xùn)練獎(jiǎng)勵(lì)函數(shù)對(duì)模型進(jìn)行微調(diào),從而使其生成的內(nèi)容更符合人類價(jià)值觀[24]。RLHF 技術(shù)本質(zhì)是強(qiáng)化學(xué)習(xí),在決策任務(wù)中,讓智能體的目標(biāo)最大化累積回報(bào)。因此,在涉及因果解釋的場(chǎng)景中,智能體的目標(biāo)是最大化人類的滿意度和因果推斷結(jié)論的正確性。RLHF 技術(shù)可以通過監(jiān)督學(xué)習(xí)的方法學(xué)習(xí)到與人類反饋相一致的獎(jiǎng)勵(lì)函數(shù),從而可以將獎(jiǎng)勵(lì)與人類價(jià)值觀和因果解釋對(duì)齊。

在大模型中使用RLHF 技術(shù)根據(jù)人類反饋進(jìn)行訓(xùn)練時(shí),提示詞(Prompt)被視為環(huán)境狀態(tài)的一部分。模型將接收的提示詞作為輸入,并根據(jù)該提示詞生成輸出,再將輸出展示給人類反饋者,由其提供一個(gè)評(píng)價(jià)或指令來指導(dǎo)模型進(jìn)行下一步操作。這個(gè)反饋信息可以被用作獎(jiǎng)勵(lì)信號(hào),用于調(diào)整模型的權(quán)重和參數(shù),使模型在輸入上產(chǎn)生更好的輸出。因此,提示詞在強(qiáng)化學(xué)習(xí)中扮演著重要的角色,它用于指導(dǎo)模型的行為,并且根據(jù)人類反饋進(jìn)行優(yōu)化。通過不斷調(diào)整提示詞和反饋過程,可以提高模型的性能和生成質(zhì)量。

提示詞還是一種可以挖掘或促進(jìn)大模型推理能力的技術(shù)思路。大模型本身是具備一些簡(jiǎn)單問題的推理能力,但在復(fù)雜推理問題上需要提高。提示詞設(shè)計(jì)的核心思想是通過合適的提示語或提示樣本,更好地激發(fā)出大模型本身就具備的推理能力。比如通過添加提示詞“Let’s think step by step”,大模型在數(shù)學(xué)推理任務(wù)上就可以進(jìn)行多步推理并取得令人滿意的效果。

在因果推斷任務(wù)中,提示詞一方面可以依據(jù)一些規(guī)則進(jìn)行人工設(shè)計(jì),設(shè)計(jì)提示詞的一個(gè)有效方式是用思維鏈來使模型一步一步進(jìn)行思考。一般設(shè)計(jì)規(guī)范是:<輸入,思維鏈,輸出>。其中,思維鏈允許模型將多步推理問題分解為中間步驟,逐步解決并給出最終答案。通常而言,提示詞的設(shè)計(jì)分為以下3個(gè)步驟。

a)模板設(shè)計(jì)。通過手動(dòng)或自動(dòng)設(shè)計(jì)模板,將輸入x(例如:獨(dú)行月球真好看。)轉(zhuǎn)變成X(例如:獨(dú)行月球真好看,這太____了),通常情況下X中包含空槽,讓預(yù)訓(xùn)練語言模型對(duì)空槽填充,從而推斷出y(好看)。模板的設(shè)計(jì)靈活多變,需要根據(jù)下游任務(wù)與預(yù)訓(xùn)練語言模型來選擇合適的模板。

b)答案搜索。預(yù)訓(xùn)練語言模型在答案空間中進(jìn)行搜索,找出得分最高的值填充到對(duì)應(yīng)空槽中。

c)答案映射。通過答案搜索得到空槽對(duì)應(yīng)填充值后,部分任務(wù)的槽值為最終結(jié)果,部分任務(wù)的槽值需要進(jìn)行轉(zhuǎn)換,將槽值對(duì)應(yīng)到最終的輸出標(biāo)簽y(好看)。另外還有一些通用技巧如使用明確的指令、最后重復(fù)一遍指令、添加語法如標(biāo)點(diǎn)符號(hào)以及標(biāo)題等。另一方面,提示詞可以通過程序生成,通常稱為提示詞微調(diào)[25]。目前已有的提示詞微調(diào)技術(shù)有自動(dòng)調(diào)節(jié)提示詞方法[26],它通過梯度優(yōu)化自動(dòng)從一系列候選詞中生成對(duì)目標(biāo)任務(wù)最佳的提示詞;斯坦福大學(xué)的Percy Liang團(tuán)隊(duì)提出 的Prefix?tuning 方 法[27],它 在Transformer 的輸入層中加入可學(xué)習(xí)的提示詞嵌入;VPT(Visual prompt tuning)方法[28],它在輸入和中間層的節(jié)點(diǎn)中加入可調(diào)的提示詞等。

4 大模型開源工具

在大模型發(fā)展的過程中產(chǎn)生了較多開源工具,它們提供了豐富的功能和資源,可以幫助研究人員和開發(fā)者更方便地構(gòu)建、訓(xùn)練和部署大模型。它們?cè)陂_源社區(qū)中被廣泛使用和支持,并持續(xù)更新和改進(jìn),推動(dòng)了大模型的發(fā)展和應(yīng)用。

Transformer Reinforcement Learning(TRL)[29]是 用于用強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型的庫。通過TRL,可以用近似策略優(yōu)化(Proximal Policy Optimization,PPO)訓(xùn)練Transformer 語言模型。PPO 是強(qiáng)化學(xué)習(xí)目前最有效的一種算法,和先前的強(qiáng)化學(xué)習(xí)算法相比,它在每一步迭代中都會(huì)嘗試計(jì)算新的策略,可以讓損失函數(shù)最小化的同時(shí)保證與上一步迭代的策略間的偏差相對(duì)較小。該庫建立在Hugging Face 的Transformer 庫之上,目前已經(jīng)支持GPT?2 大模型進(jìn)行訓(xùn)練。使用PPO 算法優(yōu)化GPT?2的大致流程可以分為續(xù)寫(Generation)、評(píng)估(Evaluation)和優(yōu)化(Optimization)3步。這可以使其在生成文本時(shí)更加符合預(yù)期的要求,并且盡量避免與參考語言模型的差異過大,有助于提高模型的性能和結(jié)果的質(zhì)量。

Reinforcement Learning for Language Model(RL4LM)[30]是Allen Institute for AI 的一個(gè)用于語言模型微調(diào)和評(píng)估的開源庫,它提供了多種強(qiáng)化學(xué)習(xí)算法(如PPO、NLPO、A2C 和TRPO)、獎(jiǎng)勵(lì)函數(shù)和指標(biāo)作為構(gòu)建塊。這個(gè)庫的設(shè)計(jì)使得用戶可以輕松地根據(jù)自己的需求進(jìn)行定制,可以基于任何編碼器?解碼器或基于encoder transformer 的語言模型進(jìn)行訓(xùn)練,并使用任意用戶指定的獎(jiǎng)勵(lì)函數(shù)。RL4LM 的優(yōu)勢(shì)在于其靈活性和可定制性。它在實(shí)際任務(wù)中得到了驗(yàn)證,并計(jì)劃支持更大模型和分布式訓(xùn)練,以進(jìn)一步提升性能和擴(kuò)展能力。

大模型開源工具大大促進(jìn)了大模型的發(fā)展,通過共享知識(shí)、加速研究和開發(fā)、降低門檻和成本、社區(qū)合作和反饋以及創(chuàng)新和應(yīng)用拓展,推動(dòng)了大模型領(lǐng)域的快速發(fā)展和廣泛應(yīng)用。

5 總結(jié)

通過對(duì)大模型預(yù)訓(xùn)練、人類反饋學(xué)習(xí)過程和因果推斷的微調(diào)技術(shù)等方面進(jìn)行探討,發(fā)現(xiàn)大模型在因果推斷方面的巨大潛力。構(gòu)建更適用于大模型因果推斷的數(shù)據(jù)集,設(shè)計(jì)新的算法和模型結(jié)構(gòu)可以實(shí)現(xiàn)更好的因果推斷能力和推斷的解釋能力,提高大模型在因果推斷上的性能和穩(wěn)定性,促使大模型和因果推斷發(fā)展形成良性循環(huán)。隨著數(shù)據(jù)和模型的不斷發(fā)展,可以期待大模型在因果推斷任務(wù)上應(yīng)用能力將不斷提升,并為各個(gè)領(lǐng)域中理解和應(yīng)用因果推斷提供更多幫助。

猜你喜歡
微調(diào)因果關(guān)系能力
消防安全四個(gè)能力
玩忽職守型瀆職罪中嚴(yán)重不負(fù)責(zé)任與重大損害后果的因果關(guān)系
大興學(xué)習(xí)之風(fēng) 提升履職能力
做完形填空題,需考慮的邏輯關(guān)系
一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
電線電纜(2018年2期)2018-05-19 02:03:44
你的換位思考能力如何
靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
幫助犯因果關(guān)系芻議
抄能力
介入因素對(duì)因果關(guān)系認(rèn)定的影響
定边县| 乐昌市| 昌江| 通州区| 汾西县| 临城县| 辽源市| 上思县| 镇远县| 定结县| 丽水市| 屯门区| 莲花县| 安化县| 从江县| 商洛市| 巴青县| 高陵县| 定日县| 怀集县| 杨浦区| 武川县| 积石山| 龙门县| 嘉定区| 天津市| 玛曲县| 平果县| 景谷| 抚州市| 梁平县| 祁连县| 闸北区| 莆田市| 龙门县| 深水埗区| 宁武县| 虎林市| 和林格尔县| 上虞市| 建平县|