蘭軍飛
【摘? 要】 隨著國內(nèi)外各種免費LLM大語言模型的推出,高校應(yīng)用大語言模型的基礎(chǔ)條件已經(jīng)具備。利用微調(diào)大語言模型實現(xiàn)AIGC高校智能客服,后逐步進入教學(xué)與科研場景是比較合適的路徑。文章闡述一種可行的方案,如何收集高校客服數(shù)據(jù),選擇哪種大語言模型,以及數(shù)據(jù)微調(diào)后試用情況。
【關(guān)鍵詞】 大語言模型(LLM);微調(diào)(Fine Tune);智能客服;AIGC
一、什么是大語言模型和模型微調(diào)
大語言模型(Large Language Model,縮寫LLM),也稱大型語言模型,是一種基于機器學(xué)習(xí)和自然語言處理技術(shù)的模型,它通過對大量的文本數(shù)據(jù)進行訓(xùn)練,來學(xué)習(xí)服務(wù)人類語言理解和生成的能力。通常來說,大語言模型指的是那些在大規(guī)模文本語料上訓(xùn)練,包含百億級別(或更多)參數(shù)的語言模型,例如GPT-3,GPT-4,LLaMA,chatglm,moss等。
根據(jù)模型參數(shù)量分成兩大類,分別是百億(10B)參數(shù)到千億(100B)參數(shù)模型和大于千億(100B)參數(shù)模型。預(yù)訓(xùn)練是大語言模型能力的基礎(chǔ),當(dāng)語言模型的參數(shù)量擴展到超千億級別時,從頭預(yù)訓(xùn)練一個大語言模型就成為一件十分困難且有挑戰(zhàn)的事情。
模型微調(diào), 給定預(yù)訓(xùn)練模型(Pre_trained model),基于模型進行微調(diào)(Fine Tune)。相對于從頭開始訓(xùn)練(Training a model from scatch),微調(diào)省去了大量計算資源和計算時間,提高了計算效率,甚至提高準(zhǔn)確率。為什么要微調(diào)?普通預(yù)訓(xùn)練模型的特點是用了大型數(shù)據(jù)集做訓(xùn)練,已經(jīng)具備了提取淺層基礎(chǔ)特征和深層抽象特征的能力。
結(jié)論:不做微調(diào)從頭開始訓(xùn)練,需要大量的數(shù)據(jù),計算時間和計算資源;存在模型不收斂,參數(shù)不夠優(yōu)化,準(zhǔn)確率低,模型泛化能力低,容易過擬合等風(fēng)險。使用微調(diào)有效避免了上述可能存在的問題。
AIGC 即 AI Generated Content,利用人工智能技術(shù)來生成內(nèi)容。AIGC技術(shù)的核心思想是利用人工智能算法生成具有一定創(chuàng)意和質(zhì)量的內(nèi)容。通過訓(xùn)練模型和大量數(shù)據(jù)的學(xué)習(xí),AIGC可以根據(jù)輸入的條件或指導(dǎo),生成與之相關(guān)的內(nèi)容。
二、高校AIGC智能客服的應(yīng)用場景
高校的客服咨詢主要有三種方式:第一,電話服務(wù)方式。由于高校各部門的客服人數(shù)比較少,一般都是1-2人,無法按企業(yè)方式搭建呼叫中心,主要還是直線或分機服務(wù)為主。第二,網(wǎng)站服務(wù)方式。提供網(wǎng)站鏈接各種文檔,可下載自行閱讀。第三,各類小程序,服務(wù)號,聊天機器人服務(wù)方式。這種方式有些帶了基于關(guān)鍵字查詢的知識庫,有一定的AI能力,但后臺知識庫的維護工作量大。只能用文字方式呈現(xiàn),無法升級到AIGC。
一般大型服務(wù)型企業(yè)客服,建設(shè)有專門的呼叫中心系統(tǒng),有歷史語音數(shù)據(jù)和文字?jǐn)?shù)據(jù)的積累,從大語言模型訓(xùn)練角度來說有大量的現(xiàn)存數(shù)據(jù)。高??头稍冸娫捜鄙兕愃频呐渲?,大多數(shù)還是直線為主,簡單的手工服務(wù)臺賬如EXCEL表格管理,需要從頭準(zhǔn)備大語言模型微調(diào)的數(shù)據(jù)。
高校搭建AIGC智能客服建設(shè)有兩個明顯的優(yōu)點。第一,基礎(chǔ)條件好。國內(nèi)高校經(jīng)過20多年信息化建設(shè),有很好的物理基礎(chǔ)(萬兆骨干,有線無線網(wǎng)絡(luò)等),人才基礎(chǔ)(有一批懂軟件,硬件,開發(fā)的專家教授),應(yīng)用基礎(chǔ)(廣大的大學(xué)生,能快速接受新事物)。第二,容錯率高。其他行業(yè)的智能客服應(yīng)用,比如金融,政府,完全無法和高校比容錯。前期智能客服有些錯誤,師生可以包容。
三、高校AIGC智能客服整體方案設(shè)計
人工智能的三要素是數(shù)據(jù)、算力和算法相互關(guān)聯(lián),缺一不可。數(shù)據(jù)可以產(chǎn)生更多的數(shù)據(jù),算力可以加速數(shù)據(jù)的處理,而算法可以更好地利用數(shù)據(jù)。只有具備了這三要素,才能更好地發(fā)展和應(yīng)用人工智能。
數(shù)據(jù):人工智能需要大量的數(shù)據(jù)作為基礎(chǔ)。數(shù)據(jù)可以提供AI所需的必要信息,幫助AI更好地分析和預(yù)測。
算力:人工智能需要大量的計算來處理這些數(shù)據(jù)。算力可以加速數(shù)據(jù)的處理,使得人工智能更快地分析和決策。
算法:人工智能需要有效的算法來分析和利用這些數(shù)據(jù)。算法可以使得人工智能更準(zhǔn)確地分析和預(yù)測,提高人工智能的效率和準(zhǔn)確性。
(一)高校智能客服數(shù)據(jù)收集
收集高校大語言模型微調(diào)訓(xùn)練數(shù)據(jù)有兩種方式,一種是通過網(wǎng)站摘錄,可以使用簡單爬蟲工具,收集各種校內(nèi)文檔。以上收集完畢后可直接用chatGPT或文心一言生成各類問題及答案(也可以采用類似langchain+chatglm架構(gòu),這里不展開描述了)。另一種是將直線客服電話進行改造,增加錄音功能。將人工客服電話錄音轉(zhuǎn)成文字,人工標(biāo)注,生成訓(xùn)練數(shù)據(jù)集。部門單個客服電話的改造方案如圖1。
選擇電話語音網(wǎng)關(guān)改造方案是因為IP電話客服對話錄音質(zhì)量最高,采用云呼叫中心+本地網(wǎng)關(guān)IP電話的方案,投入小,改造簡單,故障回退快。人工客服錄音文件轉(zhuǎn)文字,人工標(biāo)注后作為LLM微調(diào)訓(xùn)練數(shù)據(jù)集是高校AIGC智能客服的核心環(huán)節(jié),使AI回答更像人類的習(xí)慣。同樣的問題,目前通常的聊天機器人或者關(guān)鍵字搜索,給出的是大段文字。人工客服的交互性以及精煉度遠(yuǎn)超目前的能看到的業(yè)內(nèi)使用的技術(shù)手段,這也是高校AIGC智能客服的發(fā)展方向。
(二)算力與算法的選擇
高校AIGC智能客服的算力由選擇的算法決定。高校AIGC智能客服的算法實際就是選擇一款可微調(diào)的LLM大模型。由于安全性的考量,目標(biāo)在國內(nèi)大模型中選。目前有復(fù)旦MOSS,清華chatglm,百川,百度等開源免費大模型??紤]到學(xué)習(xí)資源的豐富性以及團隊的穩(wěn)定性,建議選擇chatglm-6b作為高校AIGC智能客服算法模型。
ChatGLM-6B是一個由清華大學(xué)和智譜AI聯(lián)合研發(fā)的開源對話語言模型。它基于General Language Model (GLM)架構(gòu),具有62億參數(shù),并針對中文進行了優(yōu)化。該模型經(jīng)過約1T標(biāo)識符的中英雙語訓(xùn)練,輔以監(jiān)督微調(diào)、反饋自助、人類反饋強化學(xué)習(xí)等技術(shù)的加持,已經(jīng)能生成相當(dāng)符合人類偏好的回答。
ChatGLM-6B可以在消費級的顯卡上進行本地部署(INT4量化級別下最低只需6GB顯存)。它使用了和ChatGLM相同的技術(shù),針對中文問答和對話進行了優(yōu)化。ChatGLM當(dāng)前版本模型的能力提升主要來源于獨特的千億基座模型GLM-130B,這是一個包含多目標(biāo)函數(shù)的自回歸預(yù)訓(xùn)練模型??偟膩碚f,ChatGLM-6B是一個功能強大的對話語言模型,具有在中文和英文兩種語言環(huán)境下進行問答和對話的能力,并可以進行本地部署。
由于目前大模型的數(shù)據(jù)量都在10億參數(shù)以上,考慮到單個高校數(shù)據(jù)量,只能走LLM微調(diào)方案才能建設(shè)有本校特色的AIGC智能客服。數(shù)據(jù)集的本地化收集與整理是一個長期的過程,好處在于有多個開源LLM模型可選,哪個好用用哪個。
四、高校AIGC智能客服搭建實踐
(一)搭建環(huán)境
服務(wù)器配置:13900k+128G+2T+4090。
軟件環(huán)境:Windows11下WSL2 +Ubuntu20.04+ python3.9+cuda11.7.
(二)微調(diào)數(shù)據(jù)整理
客服錄音文件通過科大訊飛ASR接口轉(zhuǎn)文字,經(jīng)過人工校對,根據(jù)chatglm-6b微調(diào)格式生成train,json和dev.json兩個文件。為了增加微調(diào)數(shù)據(jù)集,也可以加入學(xué)校常規(guī)的各種問題以及各類文檔生成問題。以下是各類方法截圖。
1. 文檔通過chatgpt生成問題:
利用chatgpt的原生能力,將文檔輸入其中,然后要求生成20-30個問題及回答
2. 爬蟲軟件爬取學(xué)校新聞
利用爬蟲工具,爬取校內(nèi)新聞。
3. 科大訊飛錄音文件ASR,錄音轉(zhuǎn)文字,如圖2
最后根據(jù)chatglm-6b微調(diào)格式生成train,json和dev.json兩個文件進行訓(xùn)練,訓(xùn)練后的AIGC效果如圖3:
五、結(jié)語
積累本校的各種對話數(shù)據(jù),特別是真實場景下的錄音文件,通過一系列清洗處理得到的對話數(shù)據(jù)集,是高校實現(xiàn)AIGC的必經(jīng)之路。在chatglm-6b微調(diào)訓(xùn)練后的實際測試中,GPU負(fù)載過高,單人對話約需要占用15G顯存。感覺目前本方案的實際商用價值還需要等待各類硬件成本下降。
參考文獻(xiàn):
[1] 張馬秋,高杰. 智能客服系統(tǒng)在高校的應(yīng)用路徑研究[J]. 信息與電腦:理論版,2022,34(17):155-157.
[2] 王翼虎,白海燕,孟旭陽. 大語言模型在圖書館參考咨詢服務(wù)中的智能化實踐探索[J]. 情報理論與實踐,2023,46(08):96- 103.
[3] 閆碩,付麗琴,邢亞英,等. 基于Seq2Seq的校園招生智能客服設(shè)計與實現(xiàn)[J]. 電聲技術(shù),2022,46(08):72-74+82.