薄 璐 ,莫 倩,王 芳
(1.陜西職業(yè)技術(shù)學(xué)院,西安 710100 2.北京工商大學(xué),北京 100048 3.北京航空航天大學(xué),北京 100191)
社會計算的交流平臺,開辟了一個令人振奮的Internet 新局面,它正從根本上改變著人們共享信息和交流的方式,深刻的影響著全球經(jīng)濟、社會互動和人們生活的各個方面,教育也必然身置其中。作為提高公眾素質(zhì)的一個重要因素,科普教育構(gòu)成了現(xiàn)代教育的核心。本文提出了一種基于社會計算的科普教育平臺框架,旨在有助于科普知識的普及和全民素質(zhì)的普遍提高。
基于社會計算的科普教育平臺是一個集Wiki 和社會化科普搜索引擎于一體的面向科普領(lǐng)域的開放教育平臺。在此平臺中,科普領(lǐng)域的專家、教師、學(xué)生、甚至對科普感興趣的任何人都可以添加科普領(lǐng)域的術(shù)語詞條,日積月累逐漸形成一個科普完整的、嚴密的和相對權(quán)威的專業(yè)知識系統(tǒng)——科普Wiki。圖1 描述了基于社會計算的科普教育平臺框架。
社會計算是同互聯(lián)網(wǎng)密切相連的,是一門現(xiàn)代計算技術(shù)與社會科學(xué)之間的交叉學(xué)科,分為微觀技術(shù)和宏觀社會兩個層面。由于Web2.0 文化是一種平等、開放、自由的網(wǎng)絡(luò)社區(qū)文化,所以在這個背景下的用戶對搜索引擎提出了更高的要求。融入了社會計算概念的科普搜索引擎更加社會化,通過用戶通過對搜索結(jié)果進行評分能夠影響科普搜索引擎對結(jié)果的排序,搜索Wiki 元數(shù)據(jù)包括詞條編輯時間、編輯次數(shù)、點擊率等人文因素,在檢索時的分檔評分中這些社會因素乘以一定的閾值也將影響到結(jié)果排序,對搜索結(jié)果排序更加人性化,使用戶享受到更為透明的搜索服務(wù)。其主要由科普主題分類機器人、索引器、查詢器和查詢接口組成。
2.1.1 主題分類機器人架構(gòu)設(shè)計
主題分類機器人主要完成從Web 中采集科普領(lǐng)域信息并入庫的工作。機器人的制作使用基于工作流/組件技術(shù)的網(wǎng)頁信息抽取系統(tǒng)VWIE 來完成。利用VWIE 的組件可擴展性,我們?yōu)槠涮砑恿朔诸惼鹘M件以及域名判斷組件,用以實現(xiàn)具有頁面過濾和站內(nèi)頁面判斷功能的主題分類機器人。
2.1.2 分類器核心算法
2.1.3 分類器準確率實驗
圖1 基于社會計算的科普教育平臺框架
1)分類訓(xùn)練樣本設(shè)置
SVM 算法分類需要給出訓(xùn)練樣本。本文的實驗訓(xùn)練樣本分為科普和非科普兩類,但由于兩類覆蓋范圍較大,無法用一個簡單合理的特征集來描述兩個主題,因此我們對這兩類進行了細分,盡可能多的將其劃分為小類,若網(wǎng)頁屬于小類,則其必屬于此小類所屬的大類。我們的子類別劃分及各個類別訓(xùn)練樣本如表1 所示:
2)實驗結(jié)果
我們從搜狗互聯(lián)網(wǎng)分類語料庫中依照非科普類子類目錄,共選出5000 篇語料作為非科普測試集,從百度百科開放分類中的自然、地理和歷史三個大類中抽取每個子類的前20~30個詞條,共抽取5000 篇文章作為科普測試集,兩者合計共10000 篇用作實驗的開放測試數(shù)據(jù)集。測試結(jié)果如表2 所示:
衡量分類器的重要指標是召回率和準確率。召回率(Recall)是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,準確率(Precision)是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率。本文分類器召回率和準確率如下所示:
實驗結(jié)果表明:本文基于SVM 算法的科普主題分類器具有較高的分類準確率和召回率,能提供專業(yè)的科普知識搜索功能。
2.1.4 基于Lucene 的檢索機制
科普社會化搜索引擎在信息檢索部分使用Lucene 實現(xiàn)索引器和查詢器功能,Lucene 具有索引文件格式獨立于應(yīng)用平臺、優(yōu)秀的面向?qū)ο蠹軜?gòu)、分塊索引、語言和文件格式易于擴展等諸多優(yōu)點,并且已經(jīng)默認實現(xiàn)了一套強大的查詢引擎,我們無需自己編寫代碼即使系統(tǒng)可獲得強大的查詢能力,但Lucene 中文分詞并不十分理想,因此利用Lucene 的可擴展性我們使用現(xiàn)較為流行的開源中文分詞庖丁解牛技術(shù)代替原有的分詞。實踐證明,替換后效果非常明顯,很大程度上優(yōu)化了索引質(zhì)量和查詢效果。
隨著Wiki 技術(shù)的發(fā)展,出現(xiàn)了種類繁多的Wiki 引擎,使用較為廣泛的有JSPWiki、WikiMedia、WakkaWiki 、CooCooWakka 等。本系統(tǒng)采用JSPWiki 引擎,JSPWiki 引擎是一個基于文本文件的簡易Wiki 系統(tǒng),包括了版本控制、身份認證等基本功能。JSPWiki引擎中的用戶只分為注冊用戶和非注冊用戶,用戶信息在XML 文件中存儲,為了便于用戶權(quán)限管理,本文采用MySQL 數(shù)據(jù)庫來存放用戶信息。
本文綜合運用主題搜索引擎技術(shù)和Wiki 等技術(shù),設(shè)計并實現(xiàn)了一個基于社會計算的科普教育平臺。該平臺中科普搜索引擎部分針對科普領(lǐng)域信息的特點,采用人工干預(yù)與先采集后過濾相結(jié)合的主題搜索引擎信息采集策略,應(yīng)用基于SVM 分類器的主題分類機器人進行數(shù)據(jù)采集,在檢索部分引入社會因子并且允許用戶對搜索結(jié)果評分使得此平臺能夠為用戶提供更加專業(yè)準確的搜索服務(wù)。基于社會計算的科普教育平臺對普及科普知識,提高全民素質(zhì),推進素質(zhì)教育具有重要意義。
[1]劉潤英;胡航;任友群.社會計算視野下的教與學(xué)[J].現(xiàn)代教育技術(shù),2008,18(13):10-14.
[2]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.
[3]Yutaka M.Junichiro M.Masahiro H.An Advanced Social Search Engine System from the web.In Proceedings of the 15th International Conference on World Wide Web,May,2006,Edinburgh,Scotland:397-406.
[4]Jo T,Japkow Icz N,Stephens.The Class Imbalance Problem:A Systematic Study[J].Intelligent Data Al1alysis,2002,6(5):203-231.
[5]李東方.Web2.0 環(huán)境下互聯(lián)網(wǎng)信息過濾理論與方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2009.
[6]Mo Qian,Du Junping.The Design of a News Knowledge Portal System with Topic Tracking Technology.Proceedings of the 2006 International Symposium on Artificial Intelligence,Beijing,China,2006.8:258-262.