李化明 王家云
摘要:粗糙集理論中的屬性約簡問題屬于NP難問題。以教育技術學專業(yè)讀者2013學年度圖書借閱歷史數(shù)據(jù)為原型,采用借閱類目的次數(shù)多少作為屬性重要度進行啟發(fā)式選擇,利用粗糙集理論中的知識依賴度對類目約簡,挖掘出本專業(yè)和各年級借閱類目的核心集,并經(jīng)問卷調(diào)查證明其規(guī)律的正確性。通過與教育技術學專業(yè)學科知識體系結構的比較,能夠發(fā)現(xiàn)學科知識體系結構建設的不足之處,以促進其更科學完善。
關鍵詞:粗糙集;知識依賴度;數(shù)據(jù)挖掘;知識發(fā)現(xiàn)
DOIDOI:10.11907/rjdk.143896
中圖分類號:TP391
文獻標識碼:A 文章編號
文章編號:16727800(2015)006013503
基金項目基金項目:安徽省高等學校圖書情報工作委員會基金項目(TGW13B08)
作者簡介作者簡介:李化明(1974-),男,江西東鄉(xiāng)人,碩士,淮北師范大學圖書館館員,研究方向為數(shù)字圖書館、讀者服務。
0 引言
高校圖書館自動化建設經(jīng)過多年發(fā)展,已經(jīng)積累了大量歷史數(shù)據(jù),這些數(shù)據(jù)不但完整,而且質(zhì)量高,充分反映了讀者學習成長的過程。如何對其進行挖掘提煉并從中發(fā)現(xiàn)有價值的知識,是了解讀者需要、開展知識推送服務的重要信息來源。前人研究主要是根據(jù)讀者的借閱歷史數(shù)據(jù),利用關聯(lián)規(guī)則算法發(fā)現(xiàn)某類書籍之間的關聯(lián)規(guī)則[14],或利用聚類算法挖掘具有共同閱讀興趣的讀者群體[5],以及通過時間流分析得到讀者借閱時間的分布規(guī)律[6]等。也可以利用粗糙集進行挖掘。例如,柳炳祥等[7]只是介紹有關理論,文章中并沒有對粗造集挖掘進行深入闡述。這些挖掘結果往往只是反映讀者已往的借閱規(guī)律,而不能反映其當前和今后一段時間的真實需要,因為這些讀者還需要不斷地進行知識更新和深化學習。本文通過對教育技術學專業(yè)讀者群進行數(shù)據(jù)挖掘,利用知識依賴度約簡方法發(fā)現(xiàn)其學科知識體系結構,并通過與相關專業(yè)的知識體系結構建設進行比較,以發(fā)現(xiàn)建設中的不足之處。如果利用所得的知識庫進行推送服務,則能把讀者真正需要的知識推送給他們。
1 粗造集有關理論
粗糙集理論認為“知識是一種對對象進行分類的能力”,它將分類理解為在特定空間上的等價關系,而等價關系構成了對該空間的劃分[8]。
定義1(論域、知識):設U 是感興趣的對象組成的非空有限集合,稱為一個論域。論域U 上的任一子集XU,稱為論域U 的一個概念或范疇。論域U 中的任何子集簇(概念簇)稱為關于U 的抽象知識,簡稱知識[9]。在二維表中,知識是由某些列對所有行的劃分構成的集合所表示。
定義2(知識庫):給定一個論域U 和U上的一簇等價關系S,稱二元組K=(U,S)是關于論域U 的一個知識庫或近似空間。因此,論域上的等價關系即代表著劃分和知識。這樣,知識庫就表示了論域上由等價關系導出的各種知識,即劃分或分類模式,同時代表了對論域的分類能力,并隱含著知識庫中概念之間存在的各種關系[9]。
定義3(不可分辨關系):給定一個論域U 和U上的一簇等價關系S,若PS,且P≠,則∩P(P中所有等價關系的交集)仍然是論域U 上的一個等價關系,稱為P上的一個不可分辨關系,記作IND(P)。IND(P)的等價類稱為知識P的基本范疇[9]。
2 知識發(fā)現(xiàn)
2.1 樣本數(shù)據(jù)選取
本研究以教育技術學專業(yè)學生作為研究原型,經(jīng)統(tǒng)計,教育技術學專業(yè)自2008年以來每年招收1個班學生,系統(tǒng)有2008年以來的所有借閱歷史記錄,符合研究要求。為了簡化樣本數(shù)據(jù),選擇2013學年度(2013225~2014119日)教育技術學專業(yè)2010~2013級學生借閱歷史數(shù)據(jù)作為研究對象(即大一至大四學生),借閱情況統(tǒng)計數(shù)據(jù)如表1所示。
2.2 數(shù)據(jù)預處理
在進行數(shù)據(jù)挖掘之前,需要對數(shù)據(jù)進行去噪、補缺和轉(zhuǎn)換等預處理操作。數(shù)據(jù)預處理步驟如下:①根據(jù)年級、專業(yè)代碼和時間段獲取讀者借閱歷史記錄,并通過匯總獲得借閱圖書的人數(shù)、未借閱人數(shù)和總借閱冊數(shù);②去除借閱書目的種次號,得到借閱類目,匯總后得到借閱類目數(shù)。由于中圖法是通過標記符號代表各級類目和固定先后次序的分類體系,標記符號不同,其表示的知識類目也不同,故不能把相近類目合并為一類;③按類目進行匯總,求得各類目借閱冊數(shù)和所有類目的平均借閱冊數(shù),并刪除低于平均借閱冊數(shù)的類目,因為其表現(xiàn)的只是某個學生的個人愛好,不是大家共同學習的知識,相當于噪音數(shù)據(jù);④求出借過大于平均借閱冊數(shù)類目的所有讀者,這些讀者即是進行知識約簡的對象;⑤生成上述讀者對象和其借閱類目的二維表,并對表中數(shù)據(jù)進行轉(zhuǎn)換處理,如果此讀者借過該類目書籍則為1,否則為0。類目列按類目總借閱冊數(shù)降序添加到表中。
2.3 知識約簡
經(jīng)過上面的數(shù)據(jù)預處理后,得到了知識庫的關系簇S 和論域U,即不小于平均借閱冊數(shù)的類目和借閱這些類目的讀者。然而,即使經(jīng)過上述預處理后,其約簡的類目數(shù)還有幾十種;如果直接利用知識依賴度(定義5)來約簡,其需要計算的次數(shù)為M*logM*2n(M是讀者數(shù),n是類目數(shù)),這是指數(shù)級時間復雜度,需要消耗大量計算時間。為了得到多項式時間算法,采用以類目借閱的冊數(shù)多少作為屬性重要度的啟發(fā)式策略,應用知識依賴度來約簡二維表,具體算法如下:
(1)置K={},R={};// K表示約簡后得到的知識,R表示臨時約簡知識
//如果單個知識把論域全覆蓋則作為約簡知識放入K中
(2)For r0=1 to count(類目) do
取出count(r0)類目I,計算其劃分。
如果I全覆蓋論域U ,則把I并入K中;否則,退出循環(huán)。
(3)把I并入R中。
//計算剩下的類目依賴關系
(4)For r1=r0+1 to count(類目) do
取出count(r1)類目Q,根據(jù)類目Q求其對論域U 的劃分。
根據(jù)R中的知識求其對論域U 的劃分。
利用知識依賴度公式,求Q對R的知識依賴度γ;如果γ小于0.5,則把Q并入R中,否則認為知識Q歸屬于R而被約簡掉。
(5)K=K∪R,并退出。 //即K就是所求的約簡集合
此算法不能保證所有結果最優(yōu),但近似最優(yōu)值。對教育技術學專業(yè)2013學年度的知識約簡后的結果見表1“類目選擇”列,這里按屬性重要度(借閱冊次多少)列出了前面5~6個約簡后得到的類目(知識集合)。然后對各年級約簡的類目掃描一遍,根據(jù)類目的位置和重復度多少,即可得到本專業(yè)的核心知識,即:TP391.41、I247.5為專業(yè)核心知識集。約簡后一些主要類目借閱冊數(shù)如表2所示。
2.4 結果分析
在表2中如果各約簡后的主要類目借閱冊數(shù)相差懸殊不大,則說明讀者不了解專業(yè)知識結構,而是根據(jù)個人的興趣愛好進行借閱;若相反,則表明其專業(yè)知識結構明確,借閱的針對性和目的性非常強。例如,表2中大一學生(2013年級)借閱TP391.41為14冊,G40-057為6冊,對應的表1中的幾個主要借閱類目之間的最大比例是14/6≈2.3倍,這說明他們除了學習專業(yè)技術知識外,還閱讀“I247.57 社會、言情小說”、“I561 英國文學”等書籍,閱讀內(nèi)容涉及面較寬,不了解專業(yè)知識體系結構;大二學生(2012年級)借閱TP391.41為69冊,J06為7冊,幾個主要借閱類目之間的最大比例是69/7≈9.9倍,這顯示他們初步抓住了專業(yè)知識體系結構,閱讀內(nèi)容較為集中;而大三、大四的學生幾個主要借閱類目之間的最大比例≥12倍,表明他們主攻專業(yè)技術知識“TP391.41圖像識別及其裝置”、“TP393.092網(wǎng)絡瀏覽器”,學習目標非常明確。
另外還可以看到,“I247.5新體長篇、中篇小說” 一直是讀者熱衷的書籍,但在教育技術學專業(yè)人才培養(yǎng)方案(2013)[13]中則沒有反映出來,該專業(yè)主要課程包括:教育技術學導論、心理學、教學系統(tǒng)設計、遠程教育基礎、電視教材設計與制作、教育媒體理論、教育技術學研究方法、中學信息技術課程教學設計。并且從表2中還能看出,一些專業(yè)基礎理論知識例如“J06 造型藝術理論”、“G40-057 教育技術學”,主要是由大一、大二學生借閱,而且數(shù)量都不大。這表明學科體系結構中相關基礎理論課程設置較合理,基本滿足學習者需要;相反,“TP393.092 網(wǎng)絡瀏覽器”在大三、大四學生借閱量中卻驟然增加,這反映了教育技術學專業(yè)學生更需要這方面的知識和技能,也說明該課程在學科體系結構中的重要性,以及體系結構設置的不合理性。
因此,通過對相關數(shù)據(jù)的分析,給出如下建議:①給大一、大二學生適當介紹本學科知識體系結構,使其開始就明確學習目標、方向和內(nèi)容組成;②通過與教育學院教師交流發(fā)現(xiàn),學院已開設《學科導論》課程,但效果不夠理想。因此,對于開設《學科導論》課的院系,需要扎實推進本導制,發(fā)揮其引導作用;③深入研究小說等文學類與教育技術學專業(yè)之間的內(nèi)在關系,將其納入學科體系結構中,完善學科知識體系結構建設;④在低年級中適當開設“TP393.092 網(wǎng)絡瀏覽器”課程,做好相關理論基礎知識鋪墊,使學科知識結構布局更加合理。
3 知識驗證
為了驗證以上發(fā)現(xiàn)的知識規(guī)律是否正確,對2011~2013級教育技術學專業(yè)讀者進行問卷調(diào)查。問卷內(nèi)容主要是根據(jù)表2約簡后得到的幾個類目,按借閱冊次多少選擇前3個類目,挑選出上一年級讀者在2013學年度借閱最多的前幾本書目及類目(配有類目解釋和例子),加上讀者自我推薦書目欄目,把這些作為2014年度本年級調(diào)查內(nèi)容。這樣設計的目的是:①驗證以上發(fā)現(xiàn)的知識規(guī)律是否正確;②驗證上一年級讀者在上學年借閱最多的書目是否也是本年級讀者在本學年借閱最多的,以確定推薦內(nèi)容。調(diào)查統(tǒng)計結果如表3所示,按此知識規(guī)則進行推薦,其類目命中率(即約簡后的知識類目中想借閱數(shù)/總想借閱數(shù))都在87%以上。再把表2和表3內(nèi)容合并后比較得出表4,從表4中也能看出其順序基本一致。因此,采用這種方法得出的知識與實際相符,驗證了規(guī)律的正確性。另外,從調(diào)查具體數(shù)據(jù)來看,上一年級讀者借閱最多的書目并不一定是本年級讀者最想看的書目,例如:在對2012級教育技術學專業(yè)學生問卷調(diào)查中,書目 Flash 8基礎與實例精講(騰飛科技編著.人民郵電出版社,2007)在2013學年被2011級教育技術學專業(yè)學生借閱了6次,問卷調(diào)查結果是34人想借閱;而書目Flash 8 角色與動畫短片設計技術精粹(周國棟編著.人民郵電出版社,2007),則借閱了4次,問卷結果是41人想借閱。因此,在進行知識書目推薦時,需要從這些約簡后的類目中分別挑選借閱最多的前幾本書目,組合起來作為推薦內(nèi)容,才能滿足讀者真正的需要。
4 結語
本文利用粗糙集理論中的知識依賴度約簡方法對某專業(yè)讀者群借閱歷史數(shù)據(jù)進行挖掘,獲得其學科體系結構知識,并通過比較,發(fā)現(xiàn)相應學科體系結構建設中的不足之處,促使學科結構體系建設更加合理、完善。如果利用所得的知識進行推送服務,則能夠根據(jù)學生知識結構的變化進行預判,做到有的放矢,提高服務質(zhì)量。當然,本文還有一些問題尚待解決,如表4類目順序變化的真正原因是什么,蘊含了哪些知識?小說等文學類中哪些知識是教育技術學專業(yè)的本質(zhì)需要,如何合理設計它在學科體系結構的布局等?相關問題有待進行下一步更深入的研究。
參考文獻:
[1]陳錦,吳揚揚. Apriori算法在高校圖書館圖書推薦中的應用[J]. 河南科技學院學報:自然科學版,2012,40(4):9092.
[2]趙彥輝. 基于流通數(shù)據(jù)挖掘的讀者閱讀興趣本體模型構建[J]. 圖書情報工作, 2012,56(3):121125.
[3]張紅燕. 關聯(lián)規(guī)則挖掘在高校圖書館借閱流通中的應用[J]. 數(shù)字技術與應用,2012(5):76,78.
[4]薛琴榮,李響. 基于數(shù)據(jù)挖掘技術的圖書館個性化借閱服務研究[J]. 情報探索,2013(4):110113.
[5]楊昌順. 聚類分析在圖書館讀者群體細分中的研究和應用[J]. 貴州師范學院學報,2012,28(6):1117.
[6]蔣細芳,劉羽,馮現(xiàn)坤. 基于時間序列的圖書館個性化服務研究[J]. 軟件導刊,2011,10(5):125126.
[7]柳炳祥. 基于數(shù)據(jù)挖掘的圖書館個性化服務系統(tǒng)[J]. 現(xiàn)代情報,2007(3):108109.
[8]李龍澍,王慧萍,徐怡. 二進制可分辨矩陣的最小屬性約簡算法[J]. 計算機技術與發(fā)展,2010,20(6):9396,100.
[9]苗奪謙,李道國. 粗糙集理論、算法與應用[M]. 北京:清華大學出版社,2008.
[10]唐彬,李龍澍. 啟發(fā)式屬性約簡算法完備性和規(guī)則發(fā)現(xiàn)算法的研究[J]. 計算機工程與應用,2003(30):191194,229.
[11]石紅. 關于粗糙集理論及應用問題的研究[J]. 計算機工程, 2003,29(3):13,29.
[12]成新文,陳國超,李琦. 關于粗糙集的理論及應用研究[J]. 煤炭技術, 2010,29(10):198200.
[13]淮北師范大學教育學院教育技術學專業(yè)培養(yǎng)方案[EB/OL]. http://210.45.128.5/edu/pxjd/show.asp?id=25,2013422.
[14]中國圖書館分類法編輯委員會. 中國圖書館分類法[M]. 第4版. 北京: 書目文獻出版社,1999.
責任編輯(責任編輯:黃 健)