摘" 要:在上海體育大學(xué)融合門戶的建設(shè)過程中存在軟件架構(gòu)的問題,通過分析未來面向人工智能的軟件架構(gòu)發(fā)展趨勢,提出實現(xiàn)面向事務(wù)的智能體融合門戶才是解決之道。該文通過深入探討\"頁面操作\"和\"語言交互\"的用戶交互模式發(fā)展方向,通過簡化架構(gòu)設(shè)計、提高接口復(fù)用性,以及分析用戶交互行為等方式對現(xiàn)有的軟件架構(gòu)進行優(yōu)化整合,旨在提出一個適應(yīng)AI發(fā)展的、全新的混合軟件架構(gòu)和設(shè)計方案。以期為高校信息化平臺軟件系統(tǒng)架構(gòu)的未來發(fā)展方向提供參考。
關(guān)鍵詞:人工智能;智慧校園;軟件設(shè)計;語義分析;信息門戶
中圖分類號:TP311" " " 文獻標志碼:A" " " " " "文章編號:2095-2945(2024)35-0130-04
Abstract: There are software architecture issues in the construction process of the integration portal at Shanghai Sport University. By analyzing the future development trend of software architecture for artificial intelligence, it is proposed that implementing a transaction oriented intelligent agent integration portal is the solution. This article explores in depth the development direction of user interaction modes for \"page operations\" and \"semantic interaction\", optimizes and integrates existing software architectures through simplifying architecture design, improving interface reusability, and analyzing user interaction behavior, aiming to propose a new hybrid software architecture and design scheme that adapts to the development of AI. In order to provide reference direction for the future development of software system architecture for university information platforms.
Keywords: artificial intelligence (AI); smart campu; software design; semantic analysis; information portal
隨著人工智能的快速發(fā)展, 以ChatGPT為代表的大模型應(yīng)用的經(jīng)典案例在人工智能生成內(nèi)容(Artificial Intelligence Generated Content)和理解自然語言方面展現(xiàn)了強大能力。 在本次技術(shù)浪潮的推動下,高校及教育信息化廠商把智能問答、百事通等AI輔助功能附加在融合門戶的能力之中,但現(xiàn)有框架存在如下問題:一是人工智能大模型的技術(shù)路線和原有門戶軟件架構(gòu)存在生搬硬套不整合的問題;二是這種門戶平臺的AI升級停留于表面,未對軟件架構(gòu)徹底地進行基于人工智能的技術(shù)革新?;谏鲜鰡栴}對軟件框架的發(fā)展趨勢進行了大體的預(yù)估分析,提出了一種混合軟件系統(tǒng)架構(gòu),可以讓用戶在同一軟件架構(gòu)下的\"頁面操作\"和\"語言交互\"操作并行不悖,進而優(yōu)化軟件性能和增強用戶體驗。
1" 提出問題:當前在人工智能背景下融合門戶軟件架構(gòu)變革存在問題
1.1" 融合門戶在向智能化轉(zhuǎn)變中2套架構(gòu)并存的情況
信息化辦公室(為筆者本部門)在承擔上海體育大學(xué)經(jīng)信委項目融合門戶的建設(shè)任務(wù)后,對現(xiàn)有大部分教育信息化廠商進行考察中發(fā)現(xiàn)主流廠商在本次技術(shù)浪潮中也在推出智能問答等AI輔助模塊,而這種人工智能的輔助功能是通過調(diào)用語言大模型來實現(xiàn)的。智能對話的模塊采用LangChain等整合大模型的框架,傳統(tǒng)門戶微服務(wù)采用K8s等架構(gòu)。
從和主流門戶廠家技術(shù)溝通來看,智能問答模塊和微服務(wù)模塊是相互分離的,2種軟件架構(gòu)不能調(diào)用、重構(gòu)和復(fù)用。這對系統(tǒng)維護、軟件開發(fā)、系統(tǒng)部署和系統(tǒng)測試都造成了諸多不便,也提高了融合門戶的部署時間和開發(fā)成本,2種獨立架構(gòu)也使得實現(xiàn)如通過語言對話調(diào)用微服務(wù)啟停等代理事務(wù)變得較為困難,也成為融合門戶發(fā)展為事務(wù)性智能體的障礙。
1.2" 2套架構(gòu)不整合造成了融合門戶智能化不足
在融合門戶追加智能問答功能后,相比傳統(tǒng)門戶多了一個咨詢和操作指南模塊,但問答和系統(tǒng)之間沒有關(guān)聯(lián),無法通過智能問答完成具體事務(wù)。面向任務(wù)的智能體的定義為專注實現(xiàn)既定目標和完成工作流程的代理體。融合門戶是師生最重要的系統(tǒng)平臺之一,在此平臺上師生需要進行大量事務(wù)操作;任務(wù)導(dǎo)向型智能體才是以用戶為導(dǎo)向融合門戶智能化發(fā)展的方向。
現(xiàn)有的微服務(wù)主流架構(gòu)的Kubernetes(K8s)是面向程序員的開源容器編排系統(tǒng),用于自動化應(yīng)用容器的部署、擴縮容、維護等。現(xiàn)有智能問答主流框架LangChain旨在簡化和增強基于語言模型的應(yīng)用開發(fā),其核心目的是整合大模型,從而更好服務(wù)于用戶。2種框架都是為專業(yè)程序員設(shè)計的軟件架構(gòu)。
而體驗不好的根本原因:一方面是沒有以人工智能的思維去設(shè)計AI系統(tǒng)架構(gòu),無論是LangChain還是K8s都是從程序員角度去設(shè)計的;另一方面,架構(gòu)師簡單將2種架構(gòu)部署于不同服務(wù)器,導(dǎo)致現(xiàn)在軟件用戶體驗還停留于20世紀,譬如微軟在Office 97版本時就已經(jīng)有Office助手。在筆者看來這種“拿來主義”的簡單拼湊就是融合門戶智能化不足、體驗不友好的重要原因之一。
現(xiàn)有架構(gòu)設(shè)計出發(fā)點不是面向任務(wù)智能體所創(chuàng)建,整合2個框架的工作量可能要遠遠大于開發(fā)新框架;解決根本問題不能生搬硬套,只能從源頭做起,為此,就需要一個新框架。
2" 分析發(fā)展趨勢
便捷簡單化、去中間化、去專業(yè)化和減少人力成本是未來軟件架構(gòu)的發(fā)展趨勢。
2.1 便捷簡單化
便捷簡單化是IT發(fā)展的趨勢。近年來,單反相機銷量大幅下降,說明手機攝像頭和笨重單反相機擁有一樣性能時用戶更喜歡攜帶手機。軟件架構(gòu)設(shè)計也是一樣,如果能夠簡便地通過智能問答完成具體事務(wù),體驗度會更好。
2.2 去中間化
去中間化是指消除原有的中間環(huán)節(jié)。如現(xiàn)有的融合門戶智能問答(圖1)在詢問時給出操作指南,用戶理解操作指南來尋找系統(tǒng)指定頁面,然后點擊鼠標敲擊鍵盤完成事務(wù)。其中“用戶環(huán)節(jié)”是多余的,應(yīng)該直接去掉。
2.3 去專業(yè)化
現(xiàn)有的低代碼、無代碼平臺就是去專業(yè)化的表現(xiàn),使得普通用戶就能進行專業(yè)編碼工作。去專業(yè)化從古至今從未停止,宋朝驗鈔的從業(yè)者被稱為“楮幣匠”,而今普通人用驗鈔機即可。
2.4 減少人力成本
減少人力成本是去專業(yè)化達到一定程度的進一步成果。如果面向事務(wù)的融合門戶可以通過智能對話實現(xiàn)微服務(wù)啟停,那么無須維護工程師,一般教職工就可以實現(xiàn)系統(tǒng)維護,免去了高額的維護費用。
3" 解決問題
頁面操作和語言交互并行的混合軟件架構(gòu)設(shè)計是實現(xiàn)融合門戶從“傳統(tǒng)軟件系統(tǒng)”到“事務(wù)性智能體”的一種解決方式。
3.1" 混合軟件架構(gòu)設(shè)計符合時代發(fā)展趨勢
前文分析了軟件框架的發(fā)展趨勢,那么頁面操作和語言交互并行的混合軟件架構(gòu)設(shè)計實現(xiàn)了通過語言對話完成具體事務(wù),而事務(wù)的自動完成可通過調(diào)用多個復(fù)合函數(shù)來實現(xiàn),并保留傳統(tǒng)人工操作頁面,使該架構(gòu)實現(xiàn)頁面操作和語言交互2種操作并行不悖。該混合軟件架構(gòu)可以通過對話完成事務(wù)性工作,也可以通過直接對話由系統(tǒng)自動完成事務(wù),去掉了系統(tǒng)管理員多余的中間操作。如上海體育大學(xué)已經(jīng)上線的智能咨詢完成密碼重置功能,已經(jīng)實現(xiàn)通過NLP接口進行對話后自動返回新密碼,通過日志分析已有上萬人次的使用數(shù),去掉了人為環(huán)節(jié),方便快捷,用戶反應(yīng)良好。而隨著該架構(gòu)的進一步優(yōu)化和升級,去專業(yè)化和減少人力成本的目的也會逐步實現(xiàn)。
3.2" 2套用戶交互方式要同時保留
融合門戶中既要能進行頁面操作完成工作,也需要進行智能問答實現(xiàn)具體的事務(wù)操作。那么新的軟件架構(gòu)必須要讓 “頁面操作”和“語言交互”并行不悖。這也是軟件混合架構(gòu)的意義所在。
3.3" 自然語言處理(Natural Language Processing, NLP)的通用接口為解決問題的核心
客戶端服務(wù)器架構(gòu)是最常見的設(shè)計模式之一,其中客戶端負責前端的展示和用戶交互,而服務(wù)器則處理大部分數(shù)據(jù)和存儲工作[1]?!绊撁娌僮鳌睘橛脩敉ㄟ^鍵盤鼠標的交互動作,屬于 Human Machine Interface的技術(shù)范疇,中文意思為“人機界面”或“人機接口”,指的是人與機器之間進行信息交互和通信的界面。那么用戶在點擊人員查詢畫面,在查詢條件【人名】中輸入查詢文字【張三】后點擊【查詢】按鈕,此時人與機器之間進行的信息交互翻譯為動作語言則是“在人員庫中查找名字為張三的員工,并返回該員工的詳細列表信息”。
每個模塊都有一個清晰定義的接口,從而減少了模塊間的依賴。這不僅有助于簡化應(yīng)用的開發(fā)和測試過程,還使得單個模塊可以更容易地更新和替換,從而提高了應(yīng)用的靈活性和可維護性[2]。那么在頁面操作變換為動作語言的模塊,筆者姑且叫作“PageOperation-To-TXT”,即頁面操作過程轉(zhuǎn)化為描述語言。那么此處的“頁面操作”和“語言交互”一樣可以調(diào)用大模型來進行前后臺的數(shù)據(jù)交互。
4" 混合軟件架構(gòu)設(shè)計的構(gòu)想及初步實踐
4.1" “混合軟件架構(gòu)”的定義
本文的“混合軟件架構(gòu)”是指將多種技術(shù)路線的架構(gòu)有機整合,實現(xiàn)“人機接口”(HMI)中含有多種交互模式的軟件架構(gòu)。而本次討論的融合門戶的技術(shù)架構(gòu)升級涉及到語言交互和頁面操作2種類型。
4.2" 頁面操作會話(PageOperation-To-TXT)模塊的定義和構(gòu)建
頁面操作會話(PageOperation-To-TXT)含義為把用戶在頁面上的點擊和鍵盤操作轉(zhuǎn)化為業(yè)務(wù)語言描述。頁面操作會話模塊的功能為把用戶操作轉(zhuǎn)化為業(yè)務(wù)語言。頁面操作會話模塊的構(gòu)建首先需要收集用戶操作日志,然后需要建立動作解釋器完成由操作日志到“操作語言描述”的轉(zhuǎn)化,最后需要大量操作日志和語言描述數(shù)據(jù)作為樣本數(shù)據(jù),業(yè)務(wù)邏輯描述語言也需要對數(shù)據(jù)庫環(huán)境變量做邏輯匹配,通過貝葉斯算法或模型訓(xùn)練等方法來實現(xiàn)頁面操作會話模塊的開發(fā)工作。由于該模塊構(gòu)建過程不是本文的說明重點,故不進行細說贅述(圖2)。
4.3" 通過語言接口可以調(diào)用多模態(tài)大模型
多模態(tài)大模型是一個結(jié)合了多領(lǐng)域技術(shù)的復(fù)雜過程,因為傳統(tǒng)的多模態(tài)大模型(如用于圖像識別、語音識別或文本生成的模型)并不直接針對代碼生成進行優(yōu)化。然而,隨著技術(shù)的進步,一些創(chuàng)新的方法和技術(shù)正在探索如何利用多模態(tài)大模型來輔助或生成代碼和微服務(wù)。
如此,通過語言接口來調(diào)用多模態(tài)大模型,融合門戶的軟件架構(gòu)具有前瞻性,可以返回更多類型的執(zhí)行結(jié)果。
4.4" 融合門戶的首頁圖例
如圖3所示,A區(qū)域為“語言交互區(qū)域”;B區(qū)域為“頁面操作區(qū)域”,當融合門戶采用混合軟件架構(gòu)來部署后,用戶在B區(qū)域所有的頁面操作行為,也會通過轉(zhuǎn)換為業(yè)務(wù)語言描述傳給多模態(tài)大模型后臺并得到返回結(jié)果。
并且由于采用了統(tǒng)一整合的混合軟件架構(gòu),在A區(qū)域類提出“請給出學(xué)生類微服務(wù)”等命令時,B區(qū)域會列出所有的學(xué)生微服務(wù)列表。如果在A區(qū)域提問“請列出2024年綜合成績排名前100位的體教學(xué)院的學(xué)生”等問題時,B區(qū)域也會直接生成查詢結(jié)果列表。
傳統(tǒng)融合門戶和智能助手采用的是不同的軟件架構(gòu),不進行整合的傳統(tǒng)軟件架構(gòu)是難以實現(xiàn)的。另一方面,如果用戶在B區(qū)域的成績查詢頁面確定“2024年”“體教學(xué)院”和“前100名”為查詢條件,點擊“搜索”按鈕時,B區(qū)域也會出現(xiàn)“請列出2024年綜合成績排名前100位的體教學(xué)院的學(xué)生”的文字描述,此文字描述通過NLP通用接口傳輸?shù)胶笈_,返回與開始所述問題一樣的返回結(jié)果。
4.5" 傳統(tǒng)軟件結(jié)構(gòu)和混合軟件結(jié)構(gòu)比較圖
通過軟件架構(gòu)的整合,混合軟件結(jié)構(gòu)的統(tǒng)一度較高,問答和頁面操作可以用同一函數(shù)調(diào)用實現(xiàn),軟件后臺的搭建無須傳統(tǒng)復(fù)雜冗余的各類微服務(wù)架構(gòu),直接和多模態(tài)大模型進行軟件整合和系統(tǒng)對接即可(圖4、圖5)。
5" 混合軟件架構(gòu)設(shè)計的優(yōu)勢
軟件架構(gòu)層次清晰,無須微服務(wù)架構(gòu)和大模型2套架構(gòu),簡化了開發(fā)、部署、運維和排查的各類成本。
人機交互(HMI)中的語言描述對話更加細膩靈活,是未來的AI發(fā)展趨勢,頁面交互操作更加規(guī)范、更加直觀、更加符合編程的需要?;旌宪浖軜?gòu)能夠把這2種溝通模式的優(yōu)點有機結(jié)合。
語言描述和頁面動作都通過NLP接口實現(xiàn),使整個系統(tǒng)的設(shè)計規(guī)范、嚴整、統(tǒng)一,便于系統(tǒng)的開發(fā)和維護。
由于后臺數(shù)據(jù)交互通過自然語言實現(xiàn),使得前端UI的開發(fā)無須考慮后臺的技術(shù)架構(gòu)和開發(fā)語言,完全實現(xiàn)前后端脫離,使得融合門戶的前端(UI)更加輕量化,使得界面UI的設(shè)計更加人性化、便捷化。
該軟件架構(gòu)設(shè)計有一定的前瞻性,為未來多模態(tài)大模型的對接做好準備。如可以生成微服務(wù)的大模型架構(gòu)進行對接。
頁面操作轉(zhuǎn)化為人員動作語言描述,讓日志可以直接查閱無須日志解析。通過頁面操作明確人員的使用意圖,同時利于網(wǎng)絡(luò)安全,便于對人員行為進行預(yù)測分析。
該軟件架構(gòu)設(shè)計通過NLP接口,可以將用戶的問題進行解析后,直接對業(yè)務(wù)接口、函數(shù)接口、數(shù)據(jù)接口進行調(diào)用后返回處理結(jié)果。該架構(gòu)可以實現(xiàn)通過智能對話代辦事務(wù),有利于系統(tǒng)成為真正的面向事務(wù)的智能體。
該軟件架構(gòu)設(shè)計上配置各種工作流程,使系統(tǒng)成為面向事務(wù)的智能體后,會減少維護成本和操作步驟。
6" 結(jié)束語
綜上所述,本文提出了一種適應(yīng)人工智能發(fā)展趨勢的混合軟件架構(gòu)設(shè)計方案。雖然技術(shù)力量有限,但該類混合軟件架構(gòu)設(shè)計旨在實現(xiàn)系統(tǒng)面向事務(wù)的智能體革新,在教育信息化、智能客服、企業(yè)管理信息化等多個行業(yè)和細分領(lǐng)域都具有廣闊的發(fā)展前景,在保留現(xiàn)有師生對于軟件系統(tǒng)使用習(xí)慣的前提下,讓系統(tǒng)架構(gòu)在人工智能發(fā)展趨勢中進行革新,也可能如“混動汽車”一樣是技術(shù)發(fā)展的過渡產(chǎn)品,但在技術(shù)發(fā)展過程中出現(xiàn)就有其存在的意義,也為傳統(tǒng)軟件系統(tǒng)向智能體系統(tǒng)發(fā)展提供了一定的參考和指導(dǎo)價值。
參考文獻:
[1] 解溫特.基于草圖的移動應(yīng)用建模語言構(gòu)造與查詢研究[D].南京:南京大學(xué),2021.
[2] 翟仲毅.輕量級移動服務(wù)生成模型、方法與驗證[D].北京:北京郵電大學(xué),2017.