国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析智能問答系統(tǒng)及其應用

2021-07-08 01:10呂金朋張艷張欣
數(shù)碼影像時代 2021年8期
關鍵詞:檢索語義語音

呂金朋 張艷 張欣

引言

隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上的信息越來越繁雜,已呈現(xiàn)出爆炸式增長的狀態(tài)。面對信息洪災,人們越來越難以在網(wǎng)上便捷獲取有效信息,獲取有效信息的成本也越來越高。過去人們通常根據(jù)搜索引擎輸入關鍵詞,搜索服務提供商運用檢索算法根據(jù)相關性從高到低給出相關信息。但隨著信息越來越繁雜,傳統(tǒng)搜索算法愈來愈顯得力不從心,其原因在于傳統(tǒng)算法未能獲取語言更深層次的語義信息。此外,相似信息太多,甚至包含了很多虛假信息。因此也不斷催生著新技術的誕生,尤其是計算語言學的發(fā)展和人工智能的進步。

而隨著深度學習技術的不斷進步,問答系統(tǒng)不僅僅可以獲取語言表面上的信息,還可以獲取更深層次的語義信息,而這種進步恰好也為問答系統(tǒng)提供了生存的土壤與營養(yǎng)。問答系統(tǒng)所能帶來的變革與收益,諸如在取代人工客服、聊天機器人、智能家居等領域的應用,進一步引起了學術界和工業(yè)界的廣泛關注。當前,問答系統(tǒng)已成為自然語言處理領域研究的一大熱點。問答系統(tǒng)的成熟應用會將人類從大量重復性的勞動中釋放出來,并且會改變人類社會的生產方式,對人類的社會進步的推動作用是不可估量的。

智能問答系統(tǒng)

定義

智能問答系統(tǒng)是基于大量語料數(shù)據(jù),通過數(shù)學模型、相關編程語言實現(xiàn)的一個能夠和人類進行對話,解決問題的軟件系統(tǒng)。

分類

智能問答系統(tǒng)的分類方法有很多種,如圖1所示。

如果按照問答系統(tǒng)的任務類型,則大致可分為兩種類型:

(1)面向任務型問答系統(tǒng);

(2)面向非任務型問答系統(tǒng)。

面向任務型問答系統(tǒng)的目的是完成具體的任務,例如查詢酒店、訂餐等。面向非任務型問答系統(tǒng)的主要目的是和用戶進行自由交流,很典型的就是當前流行的聊天機器人。

面向非任務問答系統(tǒng)的運行主要有三種方法:

①基于檢索的方法,從事先定義好的數(shù)據(jù)庫中,根據(jù)某種規(guī)則,選出最合適的答案。優(yōu)點是通俗易懂,易于解釋,但缺點也很明顯,非常依賴事先定義的數(shù)據(jù)庫和檢索算法,如果數(shù)據(jù)質量不高,那么很可能效果就很差。

②基于生成的方法,這是當前研究領域的一個主流熱點,它是通過理解用戶所提出的問題,來生成適當?shù)幕貜?,典型的生成模型?seq2seq,transformer 等。它的優(yōu)點是不依賴定義好的數(shù)據(jù)庫,可以靈活回復,缺點是容易生成一些無意義的回復和重復的回復等。

③基于檢索和生成混合的方法,具有結合檢索回復較為精確和生成回復較為靈活的優(yōu)點,可以大大提升問答系統(tǒng)的回復效率和性能,這也是問答系統(tǒng)實際商業(yè)應用的主流方法。

處理流程

智能問答系統(tǒng)主要包括三個處理流程:分析問題、檢索數(shù)據(jù)、提取答案。

(1)分析問題

分析問題這一步驟就是處理用戶的問題、生成查詢關鍵詞、確定問題答案的類型以及問題的語義表示。分析問題又分為分詞及詞性標注、問題分類、關鍵詞提取及拓展這三步(如圖2所示)。

(2)檢索數(shù)據(jù)

檢索數(shù)據(jù)這一步驟就是利用“關鍵詞提取”“關鍵詞拓展”等技術所得到的結果來檢索包含答案的數(shù)據(jù),主要分為本地答案檢索和網(wǎng)絡檢索模塊兩方面。

本地答案檢索模塊主要從自定義問答集和從網(wǎng)絡爬取的數(shù)據(jù)中進行問答和檢索,使用基于Word2Vec 的詞向量加權模型構建問句向量并計算向量之間的相似度得到問題的相似度;

網(wǎng)絡檢索模塊從多個百科知識庫和多個網(wǎng)絡搜索引擎中搜尋候選答案,進行信息過濾和最終答案的提取并返回給用戶。檢索數(shù)據(jù)的具體流程如圖3所示。

(3)答案提取

答案抽取就是從候選答案中抽出最佳答案返回給用戶。答案抽取的效果會直接影響返回給用戶答案的好壞。

一般的答案抽取流程是:首先對候選文檔或段落進行切分并形成候選答案集,然后根據(jù)問題類型對候選答案集進一步處理,排除冗余的句子,再通過相似度計算對候選句子進行排序,最后對相似度高的句子再進行重新分析,選取出最佳答案。

智能問答應用舉例

智能語音助手

(1)簡述

不管是智能手機,抑或是智能手表、音箱、手提電腦等數(shù)碼產品,搭載語音助手已成為一項必不可少的附帶功能。智能越火熱,語音助手就越流行,仿佛少了語音控制,一件電子產品就缺失了該有的科技味。無論是被玩壞的Siri還是“高情商”的小愛同學,儼然我們的生活已經(jīng)無法忽略智能語音助手的存在了(見圖4)。

(2)處理流程

智能語音助手功能的實現(xiàn)大概分為以下幾個流程:① 語音喚醒;② 語音識別;③ 語義理解;④ 語義意圖分析;⑤ 查詢相關服務CP/SP;

以一個例子來說明,比如用戶說“Hi,siri,天氣怎么樣?”

a.“Hi siri”,這是一個喚醒詞,通過預先采集的喚醒預料來做訓練,然后拿用戶的語音數(shù)據(jù)來匹配,看這個語音數(shù)據(jù)是不是一個喚醒詞;

b.用戶說了“天氣怎么樣”,手機上錄音后,用音頻流數(shù)據(jù)做語音識別(ASR),得到一個文本內容“天氣怎么樣”;

c.拿到上一步的“天氣怎么樣”的文本內容,來做語義理解(NLP);

d.從語義理解的結果中,解析出來用戶的意圖是打算查詢天氣;(該過程可以和上一步一起處理)

e.然后去查找天氣相關的服務,得到天氣的詳情,再把天氣返回給用戶。

(3)問題與挑戰(zhàn)

① 市場碎片化。目前,市場上有多家廠商提供智能語音助手服務,這些廠商與不同的設備廠商達成合作,形成了各自為陣的生態(tài)系統(tǒng)。內置智能語音助手的設備商,必須對現(xiàn)存的替代方案開放,并與不同的服務提供商協(xié)作,才能提供便于用戶使用,尤其是跨平臺使用的服務。

② 隱私問題。理想情況下,個人鑒別信息應該安全地存儲在用戶設備上,并且不會泄露給智能語音助手提供商或者其他服務提供商。但是實際上智能語音助手需要把用戶數(shù)據(jù)上傳至云端服務器,經(jīng)過計算后將結果返回到終端,涉及云端存儲隱私保障問題。

③ 語義理解。雖然語音識別技術這兩年取得了較大進步,但理解整個對話的環(huán)境和上下文語義,是目前絕大部分機器學習或人工智能的瓶頸,機器還很難將詞語表達的意思與語境和情緒相結合。

智能問答教學系統(tǒng)

(1)簡述

智能問答系統(tǒng)在課程教學中可以發(fā)揮重要的作用。在與學生進行問答的過程中,學生會針對自己不懂的內容向教師請教。但實際上,學生提出的大多數(shù)問題都是類似的,只是語言的表述形式不同。教師必然沒有時間和精力對每個學生提的問題都做詳盡的解答。另一方面,教師作為教育教學改革的實踐者,在“互聯(lián)網(wǎng)+教育”時代,信息化教學能力成為其專業(yè)素養(yǎng)的基本組成部分,是教師專業(yè)發(fā)展的主要任務。通過開發(fā)教學智能問答系統(tǒng),能夠很好地將教學問答過程信息化,提高教學質量和教學效率,適應信息化教學的新模式。

(2)特點

智能問答教學系統(tǒng)主要有以下幾個特點:

① 可擴展性強。教學智能問答系統(tǒng)提供底層的問答服務,在其上可以構建諸如教學智能問答機器人、教學智能問答Web系統(tǒng),甚至可以開發(fā)手機應用或微信小程序等作為問答系統(tǒng)的交互前臺。

② 信息化程度高。教學智能問答系統(tǒng)在系統(tǒng)構建上,從網(wǎng)絡中自動爬取與課程專業(yè)相關的問答知識和專業(yè)性詞條數(shù)據(jù)。在利用智能問答系統(tǒng)進行課程知識點的問答過程中,所有的問答環(huán)節(jié)全程通過互聯(lián)網(wǎng)進行,用戶只需通過系統(tǒng)進行自然語言形式的提問即可得到想要的信息,將傳統(tǒng)的教學問答徹底信息化。

③教學互動性強。通過使用教學智能問答系統(tǒng),學生可以通過一問一答的方式進行課程知識點的問答,也可以通過在教學問答系統(tǒng)發(fā)布自己的問題,邀請教師或者同學作答,保證返回的答案獲得師生最為廣泛的認可。

(3)未來發(fā)展方向

① 與學校圖書館系統(tǒng)相結合。將智能問答系統(tǒng)與學校圖書管理系統(tǒng)相結合,用戶只需在智能問答系統(tǒng)中提出針對圖書或文獻的問題,即可推薦與問題相關的書籍和文獻等信息。

② 教學問答獎勵機制。學生可以通過智能問答系統(tǒng)對其他學生提出的問題進行專業(yè)性的解答,系統(tǒng)綜合學生的解答次數(shù)、解答的滿意度、教師對答案的評價等指標,對積極參與問答環(huán)節(jié)的學生給予學業(yè)或榮譽上的獎勵,比如將其作為平時成績的一項評價指標、頒發(fā)教學問答之星稱號、派發(fā)問答紅包等。

③ 與多媒體聯(lián)動。通過智能問答系統(tǒng),教師可以將教學課件和視頻等多媒體信息上傳到問答系統(tǒng)中,智能問答系統(tǒng)的表現(xiàn)方式不僅有文字,還有語音、圖像、視頻等多媒體信息。通過這些多媒體的教學展示,能夠更生動地展示課程信息,解答課程知識點,做到教育資源的互聯(lián)互動。

政務網(wǎng)站智能問答系統(tǒng)

(1)簡述

近年來,隨著大數(shù)據(jù)的快速發(fā)展,以及機器學習、自然語言處理、語音識別處理等技術的突破,人工智能迎來新一輪發(fā)展高潮,這為深化政府治理變革提供了重大機遇和全新途徑。當前,越來越多的公共部門開始采用人工智能技術,改善公共服務、提高服務效率、節(jié)約人力成本、促進公民參與、預防城市風險等。其中,智能問答機器人作為人工智能中的一個典型應用,因其實時對話、高效便捷、突破時空限制等優(yōu)勢,受到學術界和實踐界的廣泛關注。越來越多的政府網(wǎng)站開通了智能問答機器人,為用戶提供實時、自動、便捷的在線問答服務,如圖5為北京市人民政府智能問答頁面。

(2)主要問題

現(xiàn)階段的政務網(wǎng)站智能問答系統(tǒng)主要存在以下問題:

① 開通數(shù)量較少,比例不高。根據(jù)調查顯示,當前問答機器人的開通比例僅為13.05%,雖然省級政府門戶網(wǎng)站的開通率較高,達到54.84%,但還有大量的國務院部門網(wǎng)站、地市和縣級政府門戶網(wǎng)站尚未建設問答機器人,還是依靠傳統(tǒng)方式處理網(wǎng)民的咨詢留言。

② 互動水平較低,質量不高。與開通數(shù)量少相比,互動質量不高的問題更加嚴重。問答機器人的建設目的是為公眾提供更及時、便捷的服務,開通只是起點,而服務沒有終點。在已開通的問答機器人中,除上海、北京、深圳等少數(shù)政府網(wǎng)站問答機器人的答復質量較高外,絕大多數(shù)問答機器人的答復內容質量較低,往往“答非所問”,不能準確理解用戶輸入語句含義,后臺也缺乏全面系統(tǒng)的信息資源梳理,沒有將信息資源轉化為知識,難以滿足用戶需求。

③ 區(qū)域差異較大,發(fā)展不均。無論是開通數(shù)量,還是績效水平,在省、市、縣三級都呈現(xiàn)出明顯的東西區(qū)域差異。沿海區(qū)域開通率往往更高,績效水平也相對較高。

(3)優(yōu)化措施

① 基于政府業(yè)務邏輯,構建知識體系

與商業(yè)領域中問答機器人往往有較多俏皮、幽默、調侃的寒暄內容不同,政務領域中問答機器人的知識內容比較聚焦,主要是基于政務服務展開。其中,政務服務的業(yè)務邏輯梳理和知識體系構建又是重中之重,這是問答機器人實現(xiàn)人機對話的基礎。

從用戶視角來看,多數(shù)用戶在使用問答機器人時,往往會輸入一些與業(yè)務緊密相關的口語化的關鍵詞(如身份證辦理、身份證丟失、身份證換領等),而很少會輸入完整的語句,完全與政府業(yè)務事項名稱相匹配的更是少之又少。

但從政府業(yè)務視角來看,往往一個事項會包含多種情形,而每種情形對應的信息和服務資源各不相同。例如,圍繞身份證相關業(yè)務,可細分為“申領”“換領”和“丟失”等子項,每個子項又包括多種具體情形。因此,為了實現(xiàn)更加準確的需求理解和對話返回,智能問答機器人就需要進一步對用戶的具體情形進行細化,這就需要對政府的業(yè)務邏輯進行梳理,在此基礎上構建知識庫和知識圖譜。

② 綜合利用各種技術,實現(xiàn)高質量對話。問答機器人有多種分類維度,從技術構建角度來看,主要有基于人工模板、基于檢索和基于深度學習的問答機器人三類。無論是哪種技術方式,要實現(xiàn)高質量人機交互,就需要準確理解用戶輸入的語義,否則就容易出現(xiàn)“答非所問”的現(xiàn)象。除了上述知識體系,還需要充分利用各種技術,包括自然語言處理技術、多輪對話技術、標簽關聯(lián)技術、機器學習技術等等。

智能問答系統(tǒng)未來展望

雖然智能問答系統(tǒng)發(fā)展十分迅速,但是現(xiàn)階段仍然存在一些挑戰(zhàn),如語義嵌入尚不完善,如何利用大量的無標注數(shù)據(jù),如何將常識庫加入問答系統(tǒng)等等。下面所列出的是一些智能問答系統(tǒng)未來可能的發(fā)展方向:

(1)預訓練

谷歌的BERT刷新了多項 NLP記錄,也為問答系統(tǒng)開辟了新的道路。充分利用大量無標注的文本數(shù)據(jù),將常識引入問答系統(tǒng),是問答系統(tǒng)走向通用智能的一個可能的趨勢。

(2)通用模型

由于各個領域的知識數(shù)據(jù)結構不同,每個領域的問答系統(tǒng)框架也不同,導致當前的問答系統(tǒng)仍主要用于單一領域。而問答系統(tǒng)處理多領域、多語言的能力是至關重要的,遷移學習和主動學習則是解決此問題的一種趨勢。

(3)深度推理

當前的問答系統(tǒng)大都基于標注好的數(shù)據(jù)和事先定義的數(shù)據(jù)庫,在回復生成上仍缺少多樣性,其根本原因在于當前的問答系統(tǒng)仍無法深刻地理解真實世界,無法有效理解自然語言的豐富信息。語言的本質是一個個符號,符號與符號之間的關系可以被神經(jīng)網(wǎng)絡所學習,但符號背后的物理世界則是計算機所無法理解的,如何讓計算機有效獲取物理世界的信息是極其重要的一步。

總結

本文從智能問答系統(tǒng)的定義入手展開文章,介紹了問答系統(tǒng)的分類與組成,以及給出智能問答系統(tǒng)的一般處理流程,接著介紹了智能問答的發(fā)展歷程。然后分別舉了三個智能問答系統(tǒng)的應用實例來說明當前智能問答系統(tǒng)的發(fā)展現(xiàn)狀。最后,在文章結尾處給出了當前問答系統(tǒng)的一些挑戰(zhàn)以及未來可能的研究方向。

猜你喜歡
檢索語義語音
語言與語義
魔力語音
基于MATLAB的語音信號處理
2019年第4-6期便捷檢索目錄
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
“上”與“下”語義的不對稱性及其認知闡釋
專利檢索中“語義”的表現(xiàn)
認知范疇模糊與語義模糊
語義分析與漢俄副名組合