張亮 趙娜
摘 要:高校學(xué)生的綜合素質(zhì)是影響高校畢業(yè)生就業(yè)的一個關(guān)鍵因素,高校社團(tuán)是素質(zhì)教育的一個重要途徑,可以提高高校學(xué)生職業(yè)規(guī)劃意識和職業(yè)素養(yǎng)。如何讓新入學(xué)的高校新生選擇合適的社團(tuán),是本文需要研究解決的問題。從用戶的角度出發(fā),推薦系統(tǒng)可有效地幫助用戶做出決策。本文把學(xué)生的相似度計算、K-中心點算法聚類分析以及招收指數(shù)結(jié)合在一起,最終得到社團(tuán)的推薦排序值,并將其推薦給新生用戶。本系統(tǒng)能夠?qū)崿F(xiàn)為新生推薦社團(tuán)服務(wù),具有一定的應(yīng)用價值。
關(guān)鍵詞:推薦系統(tǒng);相似度;聚類分析;PageRank
中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A
1 引 言
高校畢業(yè)生就業(yè)難這個問題由來已久,其中一個主要原因是高校畢業(yè)生綜合能力較差,而高校社團(tuán)是綜合素質(zhì)培養(yǎng)的一個重要途徑。近年來,高校社團(tuán)的數(shù)量和種類呈現(xiàn)快速增長的趨勢,如何讓高校新生選擇到合適的社團(tuán),信息化的高校社團(tuán)推薦系統(tǒng)給出了這個問題的解決方案。
2 系統(tǒng)的構(gòu)建
2.1 系統(tǒng)的軟硬件設(shè)計
推薦系統(tǒng)是基于.NET的三層架構(gòu)體系,選用B/S模式進(jìn)行架構(gòu),使用高性能PC作為服務(wù)器,采用Microsoft SQL Sever 2008企業(yè)版作為數(shù)據(jù)庫服務(wù)器,采用ADO做為數(shù)據(jù)訪問的基礎(chǔ)。Cluster[1-2]為網(wǎng)絡(luò)服務(wù)提供了靈活高效的軟件環(huán)境和硬件設(shè)施,為SQL Server提供了良好的性能擴展。
2.2 系統(tǒng)的整體架構(gòu)
高校社團(tuán)推薦系統(tǒng)就是根據(jù)特定的算法,以學(xué)生和社團(tuán)的各項特征為基礎(chǔ),建立學(xué)生和社團(tuán)的二元關(guān)系,以二者之間的相似關(guān)系作為依據(jù),為新生推薦合適的社團(tuán)。下面是社團(tuán)推薦系統(tǒng)實現(xiàn)的主要流程主:
1.構(gòu)造學(xué)生數(shù)據(jù)庫(包括新生數(shù)據(jù)庫、老生數(shù)據(jù)庫)和社團(tuán)數(shù)據(jù)庫;
2.依據(jù)新生數(shù)據(jù)庫和老生數(shù)據(jù)庫中的數(shù)據(jù)獲得新生和老生之間的相似度關(guān)系;
3.獲得社團(tuán)數(shù)據(jù)庫中各社團(tuán)之間的關(guān)系;
4.將2和3的結(jié)果相互結(jié)合,得到最終的排序權(quán)值;
5.對新生數(shù)據(jù)庫中的每個學(xué)生,社團(tuán)數(shù)據(jù)庫中的社團(tuán)按4得到的權(quán)值將排序后顯示給新生用戶。
社團(tuán)推薦系統(tǒng)的框架結(jié)構(gòu)圖如圖1所示。
3 核心算法
3.1 基于SimRank算法的相似度計算
為了挖掘新生和老生之間的相似關(guān)系,根據(jù)SimRank提供的“無向圖模型”,首先將學(xué)生數(shù)據(jù)庫中的“學(xué)生”與“特征”用一種二元關(guān)系來表示,如表1所示。接著將<學(xué)生,特征>的關(guān)系轉(zhuǎn)換成無向關(guān)聯(lián)圖模型。本文綜合考慮了專業(yè)、性別、特長、愛好、年級、級干、獲獎情況、計算機級別、英語級別等多項特征屬性,其中計算機級別與英語級別按照高考時成績劃分A(128<分?jǐn)?shù))、B(105<分?jǐn)?shù)≤128)、C(分?jǐn)?shù)≤105)三檔。
由上可以看出,一名新生與一家社團(tuán)之間的相似度,需要考慮兩個方面,一是這名新生與加入這家社團(tuán)的老生之間相似度,二是與這個老生類中所有加入這家社團(tuán)老生的相似度,這樣可以避免噪音數(shù)據(jù)給結(jié)果帶來比較嚴(yán)重的影響,可以使結(jié)果更加合理。
3.4 基于PageRank算法的社團(tuán)招收指數(shù)計算
事實上,某些社團(tuán)招收社員時,會指定招收某類社員,而且多年來只招收這類社員。此時對于某一新生,再根據(jù)Sco得到的推薦社團(tuán),盡管排名靠前,確沒有任何意義。因此,在社團(tuán)推薦系統(tǒng)設(shè)計過程中可以引入“招收指數(shù)”的概念,對于Sco值很高,但“招收指數(shù)”很低的社團(tuán),推薦時的排名不一定會靠前。
PageRank算法[9-10]的思想源于學(xué)術(shù)引文分析,它僅僅從頁面間鏈接結(jié)構(gòu)出發(fā),分析出頁面的重要程度。因此,可以認(rèn)為將一家社團(tuán)看做一個網(wǎng)頁,將基于社團(tuán)特征屬性的相似關(guān)系看做網(wǎng)頁之間的鏈接,這樣就可以利用PageRank算法計算值得到社團(tuán)的“PR值”,即所需要的“招收指數(shù)”。根據(jù)PageRank算法,社團(tuán)“招收指數(shù)”的計算公式為:
其中d為阻尼系數(shù),且0 3.5 最終排序權(quán)值的計算 根據(jù)前文得到的新生與社團(tuán)之間的相似度Sco和社團(tuán)的“招收指數(shù)”PR,通過下式計算得到最終排序權(quán)值W。 式中,W(i,w)表示社團(tuán)w在新生i的推薦社團(tuán)中的排序權(quán)值,PRmax 為所有社團(tuán)PR值的最大值。 4 系統(tǒng)推薦顯示實例 一名新生在注冊登錄到本系統(tǒng)后,根據(jù)新生注冊的基本信息,按照上面所述的算法,系統(tǒng)將為新生推薦6家權(quán)值最高的社團(tuán),并直觀顯示在社團(tuán)推薦的頁面中,新生只要點擊頁面中顯示的社團(tuán)名稱,就可以獲得這家社團(tuán)的招收社員的信息以及這家社團(tuán)的簡介。 5 結(jié)束語 本文以高校新生社團(tuán)選擇為研究課題,詳細(xì)介紹了設(shè)計高校新生社團(tuán)推薦系統(tǒng)過程中的關(guān)鍵技術(shù),從系統(tǒng)的使用測試來看,本系統(tǒng)基本滿足新生社團(tuán)選擇的推薦要求,達(dá)到設(shè)計目的,但未加入就業(yè)方向等方面的信息。今后探索研究的方向是,如何將高校學(xué)生就業(yè)方向等信息與高校新生社團(tuán)的選擇相結(jié)合,以便更好的提高高校學(xué)生綜合素質(zhì),減少高校畢業(yè)生就業(yè)難的成因。 參考文獻(xiàn) [1] 魏茂林.Windows Server 2003網(wǎng)絡(luò)服務(wù)管理與使用[M].北京:電子工業(yè)出版社,2007. [2] 張志友.計算機集群技術(shù)概述[J].實驗室研究與探索,2006,25(5):607-609. [3] Glen Jeh,Jennifer Widom.SimRank:A Measure of StructuralContext Similarity[J].Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining.New York:ACM,2002:538-543. [4] 田玲,曾濤.基于SimRank的中藥“效-效”相似關(guān)系挖掘[J].計算機工程,2008,34(12):242-244. [5] 劉萍,黃純?nèi)f.基于SimRank的作者相似度計算[J].情報理論與實踐,2015,38(06):109-114. [6] 劉玉華,陳建國,張春燕.基于數(shù)據(jù)挖掘的國內(nèi)大學(xué)生就業(yè)信息雙向推薦系統(tǒng)[J].沈陽大學(xué)學(xué)報:自然科學(xué)版,2015,27(03):226-232. [7] BOUTSIDIS C,MAGDONISMAIL M.Deterministic Feature Selection for KMeans Clustering[J].IEEE Transation on Information Theory,2013,59(09):6099-6110. [8] 呂小剛.基于Kmeans文本聚類算法研究[J].電腦編程技巧與維護(hù),2014,(24):33-35. [9] 吳迪.高校畢業(yè)生就業(yè)推薦系統(tǒng)的設(shè)計與開發(fā)[D].大連:大連理工大學(xué),2010:29-33. [10]徐鍵.基于PageRank的科技論文推薦系統(tǒng)[J].電子世界,2013,(01):103-105.