楊亞菲
摘 要:遠程教育已經(jīng)成為我國終身教育體系的一個重要組成部分。答疑解惑是遠程教學過程中決定教學質量的重要因素,而自動問答系統(tǒng)可以在少量人力的參與下及時且準確地定位問題并做出解答。文章介紹了國內自動問答系統(tǒng)的發(fā)展現(xiàn)狀和研究意義,分析了自動問答系統(tǒng)的問題分析、信息檢索和答案抽取以及各部分使用的關鍵技術,最后闡述了現(xiàn)代遠程教育自動問答系統(tǒng)的研究方向。
關鍵詞:遠程教育;自動問答;問題分析;信息檢索;答案抽取
中圖分類號:G434;TP391 文獻標志碼:A 文章編號:1673-8454(2018)20-0094-03
隨著計算機和網(wǎng)絡等相關技術的成熟發(fā)展,遠程教育已在教育界起到越來越重要的作用,而問答系統(tǒng)在遠程教育平臺中可以起到及時解決學生的疑問以方便其學習的作用。但目前隨著遠程學習學生規(guī)模的增長,現(xiàn)有的問答方式無法及時解答學生問題?;诖爽F(xiàn)狀,本文介紹了自動問答系統(tǒng)并探討了涉及到的相關技術。
一、自動問答系統(tǒng)國內現(xiàn)狀
1.自動問答系統(tǒng)
自動問答系統(tǒng)(Automatic Question and Answering System,簡稱“問答系統(tǒng)QA”),是對于用戶使用自然語言描述的問題,基于大量非同構數(shù)據(jù)自動搜索出簡潔且準確答案的信息檢索系統(tǒng)。問答系統(tǒng)在及時解決學生在學習過程中所遇問題的同時,還促進了學生學習的積極性,此外可以使教師不用將大量精力花費在重復回答相似問題上,而是集中于教學的改革和研究。
2.國內遠程教學中的問答系統(tǒng)
目前我國在遠程教育領域的問答系統(tǒng)主要分為以下三種:
(1)沒有獨立的問答部分,教學中的交互只能通過使用電子郵件、留言板或聊天室等簡單方式進行。這種遠程教育系統(tǒng)可以視為電視大學的網(wǎng)絡版,沒有展現(xiàn)網(wǎng)絡教學的優(yōu)點。
(2)具有簡單問答方式的問答系統(tǒng),這種系統(tǒng)類似于BBS形式,為師生提供交互環(huán)境,或是在教師的主導下以線上聊天的方式進行交互,這種方式比較粗糙地實現(xiàn)了師生之間的互動,但不一定是及時的。
(3)采用比較復雜的技術在某種程度上實現(xiàn)自動的問答系統(tǒng)。這類系統(tǒng)減少了教師參與,縮短了問答互動延時。根據(jù)采用技術不同大致分為三種類型:①基于FAQ庫的智能答疑系統(tǒng)?;诔R妴栴}庫(Frequently Asked Question,F(xiàn)AQ)的QA是指將常見問題與對應答案存儲到常見問題庫,系統(tǒng)使用自然語言處理技術分析問題并抽取出關鍵詞,然后在FAQ庫中匹配和提取最優(yōu)項反饋給用戶。②基于全文檢索的問答系統(tǒng)。這種系統(tǒng)搜索答案的范圍是相關文檔。系統(tǒng)利用自然語言處理技術分析用戶問題,然后在文檔庫中使用信息檢索技術搜索文檔并按照查詢相似度排序文檔,最后提取出與問題相似度較高的文檔返回給提問者。③面向知識自動化的問答系統(tǒng)。這種系統(tǒng)利用知識自動化的方法對虛擬空間的大數(shù)據(jù)進行深度開發(fā)和智力挖掘,以有效解決不確定、多樣且復雜的問題。
二、自動問答系統(tǒng)研究意義
現(xiàn)代遠程教育是我國終身教育體系中至關重要的一個組成部分。根據(jù)現(xiàn)代遠程教育的特點,它不再是使用以往教育中教師灌輸知識、學生被動學習的方式進行教學,而是在教學過程中更側重以學生為核心的自主學習,因此,及時回答疑問是決定遠程教育教學質量的必要環(huán)節(jié)。然而在遠程教學過程中,教師和學生在時間和空間上的分離導致難以實現(xiàn)師生一對一實時互動,所以需要問答系統(tǒng)解決學生在自主學習過程中遇到的疑難問題,這使得問答系統(tǒng)對遠程教育質量高低起著決定性作用,因此,研究問答系統(tǒng)對我國現(xiàn)代遠程教育的發(fā)展具有深遠的意義。
三、自動問答系統(tǒng)實現(xiàn)關鍵技術
無論采用何種方式進行分類,QA系統(tǒng)架構通常包括三個主要過程:問題分析、信息檢索和答案抽取。具體流程為首先對用戶提出的問題進行自然語言分析處理;然后在相關庫中對關鍵詞進行檢索,得到問題答案候選集;最后使用問題答案候選集對問題進行相似度計算以提取出最優(yōu)答案。其基本體系結構如圖1所示。
1.問題分析
問題分析是指對用戶提出的問題進行預處理和文本分類,其中用到的關鍵技術有中文分詞、命名實體識別、詞性標注、問題分類、句法分析以及關鍵詞提取與擴展等。這些涉及到的自然語言處理各個細分部分的性能都直接或間接影響著整個問答系統(tǒng)的性能。下面分別介紹以上涉及的關鍵技術。
中文分詞是將漢字序列切分成單個獨立的詞。例如對句子“如何理解會計系統(tǒng)設計內部控制的方向?”進行中文分詞的結果為“如何 理解 會計 系統(tǒng) 設計 內部控制 的 方向”。近乎所有涉及到中文文本處理的任務都在中文分詞的基礎上完成,因為在中文信息處理中,一組單詞通常被用作最小處理單位。常見的分詞技術有基于字符串匹配法、基于統(tǒng)計原則和基于理解的方法。
命名實體識別即專名識別,用于識別文本中具有特定含義的對象,主要是人名、地名、組織名、專有名詞等。在具有問句的文本中命名實體基本具有可以區(qū)別其它文本信息特殊的含義,因此識別命名實體不僅利于后續(xù)信息檢索性能的提高,而且在抽取答案時給相似度計算提供較好的特征。
詞性標注又稱詞類標注或標注,用于標注分詞結果中每個單詞的正確詞性,以確定每個單詞的詞性是名詞、動詞、形容詞或其它詞性。詞性標注是自然語言處理領域中許多任務必不可少的步驟,例如句法分析、文本分類、信息抽取以及語音識別等。常見的詞性標注方法包括基于統(tǒng)計模型的注釋方法、基于規(guī)則的注釋方法、統(tǒng)計方法與規(guī)則方法相結合的注釋方法。
問題分類是指通過確定問題的目標答案的類型來為隨后的答案抽取提供語義限制。問題分類可以縮小候選答案搜索空間,以提高定位答案的準確性。因此,問題分類對提高問答系統(tǒng)的性能方面起到關鍵性作用。常用分類方法有貝葉斯分類方法、支持向量機、最大熵等。
句法分析是分析句子的詞語語法。在對句子中的單詞串進行句法分析之后,會構造出一個解釋句子語法結構的句法分析樹。對文本的預處理僅限于句子中詞及其相關屬性級別,則不能分析出句子中詞與詞之間以及句子與詞之間的關系。而句法分析可以準確揭示認識對象的結構特征并迅速把握語義,所以本文預處理過程中句法分析必不可少。
關鍵詞是指在某種程度上可以代表句子主要含義的詞或詞組。在對句子進行文本處理的任務中,通過提取關鍵詞可方便理解句子的主要語義,為后續(xù)信息檢索和答案提取操作降低難度。常用的關鍵詞提取方法可分為有監(jiān)督學習算法和無監(jiān)督學習算法。此外關鍵詞需要擴展,因為在不同問題和答案中具有相同含義的關鍵詞或許具有不同的詞型,如果不擴展關鍵詞的詞型,可能會降低定位答案的準確性。
2.信息檢索
信息檢索是通過相應的檢索技術將提取出的關鍵詞在相應的知識儲備數(shù)據(jù)庫中進行信息檢索,得到候選問題集;信息檢索的本質是將描述用戶所需信息的問題特征與存儲在信息中的檢索標識符進行比較,并找到與問題特征一致或基本一致的信息。當前的問答系統(tǒng)無論是基于知識庫檢索問題答案,還是基于全文相關文檔檢索信息,都需要對相關信息數(shù)據(jù)創(chuàng)建索引,然后搜索索引以獲取信息檢索的結果。關于信息檢索目前有多種檢索模型,比如布爾模型、向量空間模型以及概率檢索模型。對于布爾模型,文檔與用戶查詢由其包含的單詞集合來表示,這種模型簡單直觀但無法結合數(shù)據(jù)的相關性,而且其搜索結果也不細致。向量模型把文檔看成一個向量,將查詢也表示成同一高維空間的向量,計算給定的查詢向量和每個文檔向量的tf-idf作為權重值進行檢索。對于概率模型,排序文檔與用戶查詢相關的概率作為最優(yōu)處理方式進行檢索。以上三種模型中,布爾模型計算速度比其它兩個模型快,但是性能低于后兩個模型。
3.答案提取
答案提取處理過程中相似度計算是關鍵技術。答案提取的主要任務是對問題與候選集中的問題進行文本分析以及相似度計算提取最終答案,相似度計算可以從關鍵詞詞類型相似度、句子長度相似度和關鍵詞詞序相似度等不同角度計算用戶問句和候選問題集中問題之間的相似度,若計算的相似度值大于預先設定的閾值,則檢索的結果滿足預期,便得到與用戶輸入問題最為相似的問題,抽取其對應的答案返回給用戶。其中關鍵詞詞類型相似度使用句子中關鍵詞的相同類型個數(shù)來度量,并且相同的個數(shù)越多,相似度越高。句子長度相似度是使用句子的長度來衡量,句子之間長度相差越小,相似度越高。關鍵詞次序相似度是使用關鍵詞在句子中的位置來衡量,關鍵詞的位置越相近,相似度越高。
四、現(xiàn)代遠程教育中自動問答系統(tǒng)研究難點分析
1.中文領域問答系統(tǒng)研究
目前遠程教育方面比較先進的問答系統(tǒng)是在英文環(huán)境下研究與開發(fā)的,而且英文環(huán)境下提供了大量先進技術和資源使用,而較少有研究涉及到其它語言包括中文領域。而且中文的語言結構比較多樣,相同問題因句子語境的不同可能表達的含義不一致,使得問答系統(tǒng)處理的數(shù)據(jù)源具有一定復雜性。另外,問答系統(tǒng)的整個處理過程需要很多步驟,每個步驟都需要改進算法提高性能,提高最終結果的準確性。因此,中文領域問答系統(tǒng)的研究仍面臨諸多挑戰(zhàn),我們可以借鑒國外的技術和成果,但將此領域國外相關技術應用于中文領域仍需進一步努力以達到最佳適用度,這就需要我們加強對比與分析相關工具與方法,進而找到更好應用于遠程教育方面的中文領域問答系統(tǒng)。
2.與其它系統(tǒng)關聯(lián)的問答系統(tǒng)研究
現(xiàn)代遠程教學信息日益增多,其中除了包括結構化數(shù)據(jù)之外,還包括大量的半結構化數(shù)據(jù)以及非結構化數(shù)據(jù),數(shù)據(jù)結構的復雜性使得問答系統(tǒng)在遠程教育信息資源整合方面存在困難。而且就目前國內遠程教育方面自動問答系統(tǒng)的研究現(xiàn)狀看,問答系統(tǒng)很少與其它相關系統(tǒng)如教務系統(tǒng)、考試系統(tǒng)、學習系統(tǒng)等進行關聯(lián),導致無法利用相關系統(tǒng)中有價值的數(shù)據(jù)更好地進行有針對性的回答、擴展數(shù)據(jù)來源以及增加數(shù)據(jù)內容豐富性。所以在信息整合和推理方面的方法和技術并不成熟,對問答系統(tǒng)與其它系統(tǒng)的關聯(lián)研究還有很大的發(fā)展空間。我們可以在將問答系統(tǒng)與遠程教學中相關系統(tǒng)建立關聯(lián)的方向多做嘗試,使關聯(lián)系統(tǒng)的相關數(shù)據(jù)為問答系統(tǒng)服務,以提高其定位答案的準確率。
3.滿足現(xiàn)代遠程教育個性化與智能化需求的問答系統(tǒng)研究
現(xiàn)代遠程教育主要是針對相關領域相關專業(yè)相關課程的知識進行的學習,根據(jù)現(xiàn)代遠程教育的特點,適用的問答系統(tǒng)應該具有實時性、準確性以及正確性,可以達到能快速且準確解答學生疑問的目的。但隨著教育行業(yè)相關政策的推行,問答系統(tǒng)已經(jīng)不能滿足當前教育形式的發(fā)展需求。除了以上基本要求外,問答系統(tǒng)尤其需要具備個性化推薦功能,通過對學生的課程學習情況、科目考試情況等學習行為信息分析,并從中挖掘出有價值的數(shù)據(jù)構建針對學生個性特點的學習模型,進而實現(xiàn)相關問題的個性化推薦。目前已有問答系統(tǒng)尚不能滿足現(xiàn)代遠程教育對解答問題的個性化和智能化需求,仍需進一步研究。
五、結束語
答疑解惑是學習過程中不可或缺的步驟,而遠程教學中問答系統(tǒng)可以高效解答學生疑惑,因此問答系統(tǒng)是遠程教學體系中極其重要的模塊。目前我國在研究實現(xiàn)自動問答系統(tǒng)的技術方面取得了一定的進展,而且有不少領域已經(jīng)實現(xiàn)了系統(tǒng)的實際應用,但是,將比較契合現(xiàn)代遠程教育的問答系統(tǒng)投入使用需要更多努力。本文對遠程教育領域問答系統(tǒng)的相關技術進行了闡述,并就目前的研究難點進行了分析,希望對相關研究者有一定的啟示和幫助。
參考文獻:
[1]劉里,曾慶田.自動問答系統(tǒng)研究綜述[J].山東科技大學學報(自然科學版),2007(4):73-76.
[2]李爽,陳麗.國內外網(wǎng)上智能答疑系統(tǒng)比較研究[J].中國電化教育,2003(1):80-83.
[3]江耿豪.基于FAQ的自動答疑系統(tǒng)的設計與實現(xiàn)[J].計算機時代,2009(12):39-41.
[4]曾帥,王帥,袁勇等.面向知識自動化的自動問答研究進展[J].自動化學報,2017,43(9):1491-1508.
[5]鄧實福,劉挺,秦兵等.問答系統(tǒng)綜述[J].中文信息學報,2002,6(16):46-52
[6]張黎,徐蔚然.中文分詞研究[J].軟件,2012,33(12):103-108.
[7]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術,2010(6):42-47.
[8]江會星.漢語命名實體識別研究[D].北京:北京郵電大學,2012.
[9]Ma J,Xiao T,Zhu J,et al.Easy-First Chinese POS Tagging and Dependency Parsing[C].COLING,2012:1731-1746.
[10]Ma J, Zhu J, Xiao T, et al. Easy-First POS Tagging and Dependency Parsing with Beam Search[C].Meeting of the Association for Computational Linguistics. 2013:110-114.
[11]孫宏林,俞士汶.淺層句法分析方法概述[J].當代語言學,2000(2):74-83+124.
[12]鄭丁山.基于moodle平臺答疑系統(tǒng)的設計與實現(xiàn)[J].計算機光盤軟件與應用,2013,16(9):101-103.
[13]康毅.面向客服的自動問答系統(tǒng)關鍵技術研究[D].沈陽:東北大學,2014.
[14]王正華,韓永國.自動問答系統(tǒng)設計與實現(xiàn)[J].軟件導刊,2014,13(9):111-113.(編輯:魯利瑞)