国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人機(jī)語音對話的心理自動問答系統(tǒng)研究

2024-05-19 13:47:28于磊高澤文張斌柳欣李保田劉燕峰
電腦知識與技術(shù) 2024年9期
關(guān)鍵詞:自然語言處理專家系統(tǒng)心理咨詢

于磊 高澤文 張斌 柳欣 李保田 劉燕峰

摘要:為了降低心理咨詢師的工作重復(fù)性,提升咨詢服務(wù)效率,并減輕心理求助者的心理壓力,將自然語言處理、大數(shù)據(jù)分析及語音信號處理等智能技術(shù)引入心理咨詢領(lǐng)域顯得至關(guān)重要,旨在借助計(jì)算機(jī)系統(tǒng)的力量改善心理咨詢的效率與質(zhì)量。為有效地解決計(jì)算機(jī)輔助心理咨詢的問題,文章提出了一種心理自動問答系統(tǒng)的設(shè)計(jì)方案。該系統(tǒng)運(yùn)用人機(jī)語音對話技術(shù)實(shí)現(xiàn)實(shí)時的人機(jī)交互功能,并精心設(shè)計(jì)了針對心理領(lǐng)域的問答數(shù)據(jù)獲取與預(yù)處理子系統(tǒng),以及問句匹配與答案推薦子系統(tǒng)。此外,文中還創(chuàng)新性地提出了綜合計(jì)算語句相似度的方法,并最終成功構(gòu)建了一套基于語音對話的心理自動問答實(shí)用系統(tǒng)。

關(guān)鍵詞:心理咨詢;專家系統(tǒng);問答系統(tǒng);人機(jī)語音對話;自然語言處理

中圖分類號:TP391? ? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2024)09-0032-03

開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)

0 引言

應(yīng)用自動問答技術(shù)構(gòu)建專家系統(tǒng)已成為當(dāng)前研究熱點(diǎn),借助計(jì)算機(jī)專家系統(tǒng)進(jìn)行心理咨詢可雙管齊下:既減輕心理咨詢師的工作負(fù)擔(dān),提高服務(wù)效率,又能緩解心理求助者的心理壓力,并有助于減少因顧慮而放棄尋求專業(yè)幫助的現(xiàn)象[1-2]。

自動問答系統(tǒng)的起源可以追溯至20世紀(jì)60年代,1965年Simmons發(fā)表了一篇名為“英語問題計(jì)算機(jī)回答綜述”的研究文章[3],其中對英文問答系統(tǒng)進(jìn)行了全面回顧,涵蓋從百科全書中檢索答案的問答系統(tǒng)及人機(jī)對話系統(tǒng)等。受限于當(dāng)時的技術(shù)條件,自動問答僅局限于極有限的語言理解和處理領(lǐng)域,長期作為特殊領(lǐng)域?qū)<蚁到y(tǒng)的一部分。

國際權(quán)威的TREC文本檢索會議自1999年起開始對基于文本的問答系統(tǒng)進(jìn)行評估評測,多種自然語言處理技術(shù)被融入自動問答系統(tǒng)中,使得基于自然語言的特定領(lǐng)域和開放領(lǐng)域問答系統(tǒng)迅速成為信息檢索和自然語言處理研究的核心焦點(diǎn)[4-5]。

基于信息檢索的問答系統(tǒng)依托信息抽取算法從數(shù)據(jù)庫中檢索問題答案,其關(guān)鍵技術(shù)在于關(guān)鍵詞抽取算法和答案排序策略,提問處理模塊生成的查詢關(guān)鍵詞直接影響答案排序準(zhǔn)確性。依據(jù)各類關(guān)鍵詞對排序貢獻(xiàn)的差異,可將查詢關(guān)鍵詞劃分為普通關(guān)鍵詞、擴(kuò)展關(guān)鍵詞、基本名詞短語、引用詞及其他關(guān)鍵詞,并制定相應(yīng)的加權(quán)方法。盡管利用信息檢索技術(shù)實(shí)現(xiàn)問答系統(tǒng)簡易便捷,但由于關(guān)鍵詞間獨(dú)立處理,導(dǎo)致提供的答案可能缺失問句中的句法和語義聯(lián)系,難以充分保障答案與問題的高度相關(guān)性[6]。相比之下,基于自然語言處理的問答系統(tǒng)更趨于理想化,此類系統(tǒng)不僅能夠模擬人的思維解析問題,還能遵循人的思維方式對答案來源進(jìn)行分析、整合乃至推理。然而,此類技術(shù)尚不完全成熟,除了諸如詞匯識別、分詞、詞性標(biāo)注等簡單規(guī)則化文本處理技術(shù)之外,語義層面的深入處理技術(shù)仍處于探索階段[7]。

當(dāng)前,語音對話聊天系統(tǒng)已相對成熟,但在專業(yè)領(lǐng)域特別是基于語音驅(qū)動的自動問答系統(tǒng)方面,研究則相對較少。這主要是因?yàn)榇怪鳖I(lǐng)域問答系統(tǒng)的復(fù)雜度與其專業(yè)深度緊密相關(guān),不同領(lǐng)域的問句解析和匹配需求各不相同;同時,語音自動問答系統(tǒng)對語音識別技術(shù)要求極高,不僅要準(zhǔn)確識別整段語音問句,還需對接收的識別結(jié)果進(jìn)行語法、語義分析,并妥善處理語音識別中的未登錄詞問題,因此開發(fā)語音驅(qū)動的專業(yè)領(lǐng)域自動問答系統(tǒng)是一項(xiàng)極具挑戰(zhàn)性的任務(wù),需要多領(lǐng)域的先進(jìn)技術(shù)協(xié)同合作、聯(lián)合攻關(guān),才能有望實(shí)現(xiàn)較理想的性能表現(xiàn)[8]。本文結(jié)合問答系統(tǒng)和語音對話系統(tǒng)技術(shù),對語音驅(qū)動的心理自動問答問題展開了系統(tǒng)研究。

1 系統(tǒng)相關(guān)技術(shù)

1.1 人機(jī)語音對話

人機(jī)對話系統(tǒng)是一種利用自然語言理解技術(shù)實(shí)現(xiàn)人機(jī)交互功能的智能系統(tǒng),亦稱為“聊天機(jī)器人”。讓計(jì)算機(jī)全面理解人類語言是自然語言處理追求的終極目標(biāo),但構(gòu)建一個不受話題限制的全方位人機(jī)會話系統(tǒng)頗具挑戰(zhàn)。

語音合成與自動語音識別技術(shù)是構(gòu)筑具備聽、說能力的語言交流系統(tǒng)不可或缺的關(guān)鍵技術(shù),目前已有相對成熟的解決方案和技術(shù)服務(wù)。在系統(tǒng)實(shí)施過程中,可以調(diào)用百度AI的自動語音識別服務(wù),將語音轉(zhuǎn)化為文本,再經(jīng)由問答模塊進(jìn)行信息交互后得到答復(fù),隨后通過百度AI的自動語音合成服務(wù)將文本轉(zhuǎn)換成語音輸出,整個過程大致為:錄音 → 百度語音識別(Speech-to-Text) → 問答模塊(信息交互)→ 百度語音合成(Text-to-Speech) → 音頻播放。

1.2 問句相似度計(jì)算

當(dāng)前問句匹配算法主要分為基于詞特征、基于詞義特征以及其他基于句法特征的方法?;谠~特征的計(jì)算方法主要包括基于向量空間模型的TF-IDF句子相似度計(jì)算方法;基于詞義特征的計(jì)算方法則以基于關(guān)鍵詞語義的句子相似度計(jì)算為主流。

在信息檢索領(lǐng)域,TF-IDF方法得到了廣泛應(yīng)用。其中,詞頻是指某詞語在文本中出現(xiàn)的絕對次數(shù);逆向文檔頻率則是衡量特定詞語IDF的指標(biāo),其計(jì)算方式為取所有文本總數(shù)除以包含該詞語的文本總數(shù)之商的對數(shù)值。

目前,該方法常用來計(jì)算句子、段落和文本之間的相似度,并展現(xiàn)出良好的效果。在該模型框架內(nèi),任一給定句子中的所有詞匯單元可表示為T1、T2,…,Tn,依據(jù)各個詞匯的重要性賦予相應(yīng)權(quán)重值w。將每個詞匯T視為N維空間中的一個維度,從而可以使用一個N維向量T=來表征一個問句,這意味著該問句在N維向量空間中對應(yīng)著一個確定的點(diǎn)。這個N維向量所對應(yīng)的坐標(biāo)值集合記作W=。TF-IDF計(jì)算的具體公式如下:

[Ti=n?log10(M/m)]

式中:n為詞Wi在目標(biāo)問句中的詞頻,M為問題集數(shù)據(jù)庫中所有問句的總數(shù),m為問題集數(shù)據(jù)庫中包含詞Wi的所有問句。

同理,問題集數(shù)據(jù)庫中其他的問句也可以表示成n維向量T=。于是兩個句子的相似度值可用它們的夾角余弦值來表示,公式如下:

[Sim(T,T)=i=1nTi?T'ii=1nT2ii=1nT'i2]

TF-IDF方法是一種基于大規(guī)模語料庫的詞頻統(tǒng)計(jì)方法,語料庫規(guī)模越大效果越好,但它沒有考慮上下文之間的語義信息,有一定的局限性??梢耘c其他的問句匹配算法結(jié)合使用,互相補(bǔ)充,進(jìn)一步提升識別準(zhǔn)確度。

2 基于語音對話的心理自動問答系統(tǒng)的體系結(jié)構(gòu)

基于語音對話的心理自動問答系統(tǒng)包含了問答數(shù)據(jù)獲取與預(yù)處理、人機(jī)語音對話以及問句匹配與答案推薦等多個關(guān)鍵組成部分,其體系結(jié)構(gòu)示意圖如圖1所示:

以下簡要概述各部分的核心功能:

1) 數(shù)據(jù)獲取與預(yù)處理:系統(tǒng)運(yùn)用基于Python編寫的分布式網(wǎng)絡(luò)爬蟲程序,從專門的心理問答網(wǎng)站及開放領(lǐng)域問答平臺抓取所需問答文本數(shù)據(jù),采集的信息包括問題ID、問題描述、最佳答案、關(guān)鍵詞、點(diǎn)贊數(shù)量、收藏?cái)?shù)量等,并將這些數(shù)據(jù)存儲至數(shù)據(jù)庫表格中。

2) 人機(jī)語音對話:用戶通過語音接口向系統(tǒng)提出心理健康相關(guān)問題,系統(tǒng)調(diào)用語音識別服務(wù)對用戶的語音問題進(jìn)行識別轉(zhuǎn)譯為文本形式;隨后經(jīng)過一系列問句分析和答案推薦流程,系統(tǒng)將得出的最佳答案文本通過語音合成服務(wù)轉(zhuǎn)化回語音格式予以輸出回應(yīng)。

3) 問句匹配:在獲取的問句文本基礎(chǔ)上,系統(tǒng)進(jìn)行問題分析并提取關(guān)鍵詞構(gòu)建詞向量,運(yùn)用詞向量匹配及語義匹配等問句匹配技術(shù),以實(shí)現(xiàn)問答對的自動化匹配。

4) 候選答案排序與推薦:系統(tǒng)對通過問句匹配得到的問答對按照匹配相似度進(jìn)行排序,并以語音和文字兩種形式對用戶問題進(jìn)行回復(fù)解答。其中,語音答案為排序序列中匹配度最高的一項(xiàng),而文字答案則將匹配度較高的答案按得分高低排列,以列表形式推薦給用戶。用戶可對收到的答案進(jìn)行評價打分,而這些用戶評價將作為其他用戶搜索和個性化推薦的重要參考依據(jù)。系統(tǒng)具備根據(jù)用戶評價分?jǐn)?shù)重新對匹配問答對進(jìn)行排序和推薦的功能。

3 心理自動問答系統(tǒng)關(guān)鍵技術(shù)

系統(tǒng)核心技術(shù)涵蓋了心理問答數(shù)據(jù)獲取、人機(jī)語音對話以及問題答案匹配與推薦三大方面。以下是各項(xiàng)關(guān)鍵技術(shù)的具體實(shí)現(xiàn):

3.1 心理問答數(shù)據(jù)抓取與預(yù)處理

當(dāng)前,獲取高質(zhì)量的心理咨詢語料存在一定困難,尚未有公開的大規(guī)模心理咨詢專用語料庫,而可用的大規(guī)模語料資源多源自開放領(lǐng)域的問答平臺。因此,在收集心理問答數(shù)據(jù)時,筆者采取了雙重策略:一方面,從諸如“壹心理”“39健康網(wǎng)”“簡單心理”“公益心理問答”等專門的心理問答網(wǎng)站爬取規(guī)模相對較小的語料;另一方面,在“悟空問答”“百度問答”等開放領(lǐng)域問答平臺上篩選出一定規(guī)模的心理咨詢問答數(shù)據(jù)。

心理問答數(shù)據(jù)抓取系統(tǒng)采用了基于Python的分布式爬蟲技術(shù),通過調(diào)用Ruby庫中的WebDriver功能抓取網(wǎng)頁的動態(tài)HTML源代碼,之后運(yùn)用bs4庫中的BeautifulSoup進(jìn)行解析,以UTF-8編碼格式獲取原始文本。獲取文本后,借助正則表達(dá)式對有效信息進(jìn)行提取、格式規(guī)范化以及初步篩選,確保每個問題都能匹配到一個最佳答案。緊接著,采用Python的pymysql模塊將獲取的數(shù)據(jù)存儲至MySQL數(shù)據(jù)庫中,并結(jié)合使用Tk接口Tkinter構(gòu)建交互式的前端界面。下面是爬蟲工作的具體流程:

1) 目標(biāo)網(wǎng)址與主題詞輸入:用戶輸入待搜索的主題詞及目標(biāo)網(wǎng)站URL,啟動WebDriver打開指定頁面。2) 初始頁面爬?。簩Τ跏柬撁孢M(jìn)行過濾和篩選,抓取問題標(biāo)題,并獲取指向子頁面的URL。3) 子頁面內(nèi)容抓?。鹤ト〈鸢竷?nèi)容,統(tǒng)計(jì)點(diǎn)贊數(shù)和收藏?cái)?shù),篩選答案,并將其與對應(yīng)問題進(jìn)行匹配。4) 數(shù)據(jù)入庫:將題目ID、問題描述以及最佳答案分別插入數(shù)據(jù)庫中。 5) 關(guān)鍵詞提取與入庫:對問句進(jìn)行關(guān)鍵詞提取,并將關(guān)鍵詞存入數(shù)據(jù)庫,以提升后續(xù)問句匹配的精確性。6) 前端數(shù)據(jù)顯示:前端界面上展示URL列表、問題ID、問題描述以及最佳答案等內(nèi)容。

3.2 問句匹配與答案推薦

在接收到用戶輸入的問句后,筆者結(jié)合多種問句相似度計(jì)算方法對數(shù)據(jù)庫中的問答對進(jìn)行匹配。在集成多種相似度計(jì)算結(jié)果時,需要將各種相似度歸一化到統(tǒng)一的區(qū)間,考慮到最大化相似度以及各類相似度總和對于衡量問句相似程度的重要性,我們決定將兩者綜合計(jì)算。

具體而言,首先采用多種相似度計(jì)算方法逐一計(jì)算問句間的相似度,并將各類相似度值歸一化至[0,1]區(qū)間內(nèi)。假設(shè)有[n]種不同的相似度度量方法,令[pi(i)∈1,n]表示第[i]種相似度計(jì)算結(jié)果,[p]為綜合相似度,則綜合相似度計(jì)算公式定義為:[p=max(pi)(1npi/n)],即將最大相似度與相似度平均值相乘,以獲得最終的綜合相似度結(jié)果。根據(jù)該結(jié)果對匹配到的答案進(jìn)行排序。

系統(tǒng)將以語音形式向用戶提供最佳答案,并以文本列表形式展示其他高分候選答案供用戶參考。用戶在接收到答案后,可對其進(jìn)行主觀評價打分,這些評分結(jié)果將作為其他用戶獲取答案時的推薦依據(jù)。系統(tǒng)不僅具備自動問句匹配功能,還能根據(jù)其他用戶的評分反饋,對匹配出的答案重新進(jìn)行排序并推薦給用戶。

4 結(jié)論

本文構(gòu)建了基于語音對話的心理自動問答系統(tǒng),針對該系統(tǒng)中的關(guān)鍵技術(shù)進(jìn)行了研究,設(shè)計(jì)了心理問答數(shù)據(jù)爬取與預(yù)處理模塊、人機(jī)語音對話模塊以及問題匹配與答案推薦模塊,提出了問句相似度綜合計(jì)算與答案推薦方法。下一步將進(jìn)一步優(yōu)化人機(jī)交互界面,構(gòu)建更加友好的智能心理咨詢專家系統(tǒng)。

參考文獻(xiàn):

[1] 田洪濤,王斌,夏國華.心理咨詢專家系統(tǒng)的開發(fā)及應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,1995,4(6):18-20.

[2] 陳文干,王小飛.網(wǎng)絡(luò)專家型心理健康教育系統(tǒng)構(gòu)建[J].現(xiàn)代教育技術(shù),2003,13(1):46-48.

[3] SIMMONS R F.Answering English questions by computer[J].Communications of the ACM,1965,8(1):53-70.

[4] VOORHEES E. The TREC-8 Question Answering Track Report[C]//Proceedings of the 8th Text Retrieval Conference,NIST,1999.

[5] VOORHEES E. Overview of the TREC 2005 conference[C]//Proceedings of the 14th Text Retrieval Conference, NIST,2005.

[6] BRIN S,PAGE L.The anatomy of a large-scale hypertextual Web search engine[C]//Proceedings of the seventh international conference on World Wide Web 7.ACM,1998:107–117.

[7] 胡國平.基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2007.

[8] 張巍.中文問答系統(tǒng)技術(shù)及應(yīng)用[M].北京:電子工業(yè)出版社,2016.

【通聯(lián)編輯:唐一東】

猜你喜歡
自然語言處理專家系統(tǒng)心理咨詢
法科大學(xué)生心理咨詢案例研究
心理咨詢:架一座心靈的彩虹
基于組合分類算法的源代碼注釋質(zhì)量評估方法
數(shù)控機(jī)床液壓系統(tǒng)故障診斷專家系統(tǒng)的研究
商情(2016年42期)2016-12-23 16:53:09
FCCU精餾塔故障診斷專家系統(tǒng)的研究與開發(fā)
基于LabVIEW和Access的陀螺儀組故障診斷專家系統(tǒng)
科技視界(2016年21期)2016-10-17 18:23:56
面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
高校心理咨詢課程教學(xué)改革探析
火電機(jī)組汽輪機(jī)故障診斷方法總結(jié)研究
科技視界(2016年5期)2016-02-22 13:39:03
石泉县| 鹤峰县| 祁连县| 泽普县| 桑日县| 醴陵市| 扎赉特旗| 和平区| 从化市| 桃园市| 南漳县| 新和县| 开化县| 鄂州市| 灵山县| 泌阳县| 武胜县| 华宁县| 正宁县| 拉萨市| 礼泉县| 宣汉县| 海丰县| 光山县| 体育| 许昌市| 黎城县| 乐昌市| 泰顺县| 镇雄县| 唐山市| 嘉鱼县| 西和县| 伊春市| 百色市| 安吉县| 阳春市| 澄迈县| 屏山县| 长垣县| 桃源县|