◆黃澤鑫
?
基于知網(wǎng)高考志愿輔助系統(tǒng)的設(shè)計(jì)
◆黃澤鑫
(福建泉州市人力資源和社會保障局 福建 362300)
高考后,面對高校層次多、專業(yè)類別多等問題,很多考生沒能對高考志愿填報(bào)信息進(jìn)行有效分析處理,最終無法進(jìn)入理想的院校和專業(yè),甚至落榜。依據(jù)考生愛好、父母職業(yè)、經(jīng)濟(jì)條件和專業(yè)就業(yè)率等信息,本文提出基于知網(wǎng)概念相似度推算出考生的理想專業(yè),并通過建立院校專業(yè)錄取概率模型,計(jì)算考生被院校專業(yè)錄取的概率,提高考生志愿填報(bào)的有效性和錄取概率。
知網(wǎng);相似度;志愿;概率模型;位次
徐蘭靜[2]等將協(xié)同過濾思想應(yīng)用到高考志愿填報(bào)領(lǐng)域,將考生看作是推薦系統(tǒng)中的用戶, 高??醋魇窍到y(tǒng)中的項(xiàng)目,通過分析歷年考生志愿填報(bào)相關(guān)數(shù)據(jù)從構(gòu)建用戶屬性矩陣,查找鄰居用戶和產(chǎn)生推薦三個(gè)過程進(jìn)行詳細(xì)描述,并對實(shí)驗(yàn)產(chǎn)生的推薦結(jié)果進(jìn)行分析,說明了推薦系統(tǒng)的有效性,也為進(jìn)一步的研究工作奠定基礎(chǔ)。沈小娟[3]等依據(jù)考生填報(bào)志愿的真實(shí)偏好和考生分?jǐn)?shù)名次,分別建立了傳統(tǒng)志愿填報(bào)概率模型和平行志愿填報(bào)概率模型,考生在信息不完全掌握的情況下,計(jì)算出被高等學(xué)校錄取的概率,提高考生志愿填報(bào)的有效性和高考錄取的可能性。陳林[4]通過采集考生的成績排名、專業(yè)意向和城市意向,基于本體概念距離和城市經(jīng)緯度距離等計(jì)算得到適合考生意向的院校、專業(yè)、匹配率等信息,通過成績排名和歷年專業(yè)分?jǐn)?shù)線排名加權(quán)得到錄取概率。以上研究者在一定程度上提高了考生的錄取概率,但未考慮院校專業(yè)每年的波動情況。
本文以考生選擇的專業(yè)為主體,將考生愛好、父母職業(yè)、經(jīng)濟(jì)條件和專業(yè)就業(yè)率等四個(gè)因素作為義原,提出基于知網(wǎng)概念相似度計(jì)算推算出考生最佳專業(yè)選擇集合。通過總結(jié)院校專業(yè)歷年招生位次的變化,預(yù)測院校專業(yè)招生位次變化。依據(jù)考生成績位次及最佳專業(yè)選擇集合,通過院校專業(yè)錄取概率模型,計(jì)算出考生被院校專業(yè)錄取概率,為考生推薦出沖擊型志愿、穩(wěn)妥型志愿、保底型志愿。
知網(wǎng)是一個(gè)網(wǎng)狀的有機(jī)的知識系統(tǒng),它提供了詞之間的聚合關(guān)系。知網(wǎng)采用不易分割的意義最小單位——義原對所有概念進(jìn)行定義,從而使詞具有很強(qiáng)的計(jì)算性[5]。
專業(yè)相似度計(jì)算是以知網(wǎng)中的義原關(guān)系為依據(jù),認(rèn)為兩個(gè)概念,其獨(dú)立義原對相似度大小起著決定性作用;獨(dú)立義原越相近,描述的信息差越小,它們的相似度也就越大。本文以專業(yè)屬性為義原,提出了一種基于知網(wǎng)專業(yè)相似度計(jì)算方法。
谷寶柱在《高考志愿選擇行為的影響因素研究》一文通過問卷調(diào)查總結(jié)影響考生高考志愿決策的因素主要有5個(gè)因素,并對這五個(gè)因素的影響程度從高到低進(jìn)行排序,依次為個(gè)人因素、高校因素、國家社會因素、經(jīng)濟(jì)因素、家庭因素[6]。高峰[7]等人在《基于要素選擇的高考志愿填報(bào)“四步”法》一文中通過分析分析成績、區(qū)域、學(xué)校、專業(yè)四個(gè)要素,按成績是“定量”,而另三個(gè)要素為“變量”,運(yùn)用“四步”法,考生應(yīng)根據(jù)每步結(jié)果,不斷調(diào)整自己的期望或目標(biāo),即不斷調(diào)整后三步的選擇標(biāo)準(zhǔn),達(dá)到不斷優(yōu)化選擇結(jié)果、最終篩選出考生最為滿意學(xué)校的目標(biāo)。
綜合以上相關(guān)文獻(xiàn)的結(jié)論,本文認(rèn)為影響考生專業(yè)選擇主要包括考生愛好、父母職業(yè)、經(jīng)濟(jì)條件以及專業(yè)就業(yè)率等4個(gè)因素作為影響考生專業(yè)選擇的主要因素。俗話說興趣是最好的老師,考生的愛好、特長、志向?qū)⒂绊懙娇忌鷮I(yè)的選擇;父母職業(yè)是指父母從事的行業(yè),父母對考生專業(yè)的選擇影響程度遠(yuǎn)遠(yuǎn)大于其他人。如果父母是機(jī)關(guān)、事業(yè)單位的工作人員,往往也希望考生以后能夠考入機(jī)關(guān)事業(yè)單位,專業(yè)選擇偏向法律、行政管理等機(jī)關(guān)事業(yè)單位招考人數(shù)比例比較高的專業(yè);經(jīng)濟(jì)條件是根據(jù)考生家庭所在地GDP劃分為富裕、一般、貧困三種, 對高考志愿填報(bào)的影響體現(xiàn)在對高校所在地、高校性質(zhì)、專業(yè)選擇,如家庭條件貧困的考生在其他條件一樣的情況下會傾向于選擇在非一線城市的公辦院校,尤其喜歡就讀軍事院校、師范類等免學(xué)費(fèi)的院校專業(yè);專業(yè)就業(yè)率主要依據(jù)近幾年來各專業(yè)的就業(yè)率,考生學(xué)有所成后,終歸是要服務(wù)社會,不能畢業(yè)就等于失業(yè),所以專業(yè)就業(yè)率也是影響考生專業(yè)選擇的重要因素。
選擇考生愛好、父母職業(yè)、經(jīng)濟(jì)條件以及專業(yè)就業(yè)率等四個(gè)影響考生專業(yè)選擇因素作為考生專業(yè)選擇的義原,并定義考生專業(yè)Y,Y的屬性集合為Y{Y1,Y2,Y3,Y4},院校專業(yè)數(shù)據(jù)庫定義為Z,Zi 為專業(yè)數(shù)據(jù)庫中某一專業(yè),該專業(yè)對應(yīng)影響考生專業(yè)選擇的四個(gè)屬性集合為Zi{ Zi1, Zi2,Zi3,Zi4},計(jì)算影響因素Y1和Zi1這兩個(gè)義原的相似度Sim(Y1, Zi1)公式如下:
在習(xí)近平新時(shí)代中國特色社會主義思想指引下,不斷把新時(shí)代改革開放推向前進(jìn),這是13億多中國人民的共同心聲。
考生選擇專業(yè)Y和專業(yè)Zi的整體相似度記為:
按照專業(yè)相似度數(shù)值從大到小排列,選取相似度最高的6個(gè)專業(yè)為作為考生最佳專業(yè)選擇,將專業(yè)相似度由高到低進(jìn)行排列組成考生最佳專業(yè)選擇集合S{S1, S2, S3, S4, S5, S6}。
專業(yè)相似度計(jì)算是以《知網(wǎng)》為基礎(chǔ),以影響考生專業(yè)選擇的因素為義原,在進(jìn)行專業(yè)相似度計(jì)算之前,先對影響考生專業(yè)選擇的因素給予的權(quán)重值,逐一計(jì)算各個(gè)影響考生專業(yè)選擇因素的相似度,再獲得考生專業(yè)相似度。
專業(yè)相似度計(jì)算模塊的流程為:
(1)以考生專業(yè)選擇因素作為屬性和各專業(yè)對應(yīng)的專業(yè)屬性,按照公式(1)分別計(jì)算出專業(yè)各屬性相似度,將計(jì)算結(jié)果保存在一個(gè)專業(yè)相似度信息表結(jié)構(gòu)中。
(2)對考生的專業(yè)屬性給予的權(quán)重值,按照公式(2)計(jì)算出考生與各專業(yè)的整體相似度即為專業(yè)相似度。
(3)按照專業(yè)相似度數(shù)值從大到小排列,選取相似度最高的6個(gè)專業(yè)為作為考生最佳專業(yè)選擇,將專業(yè)相似度由高到低進(jìn)行排列組成考生最佳專業(yè)選擇集合S{S1, S2, S3, S4, S5, S6}。
圖1 基于知網(wǎng)專業(yè)相似度計(jì)算流程圖
由于歷年試題難易程度不同,每年高校專業(yè)錄取分?jǐn)?shù)會發(fā)生一定的波動,單純依靠分?jǐn)?shù)作為判斷考生能否被錄取代表性不強(qiáng),高校專業(yè)錄取位次信息具有相對的獨(dú)立性,可以作為高校專業(yè)能否被錄取的重要依據(jù)。利用一分一位表,分析高校專業(yè)歷年錄取位次以及統(tǒng)計(jì)歷年波動情況,可以預(yù)測高校專業(yè)錄取位次信息表。
歷年高校專業(yè)平均錄取位次:
歷年波動系數(shù)λ:
根據(jù)高校專業(yè)平均錄取位次和歷年高校專業(yè)波動系數(shù)預(yù)測高校專業(yè)錄取位次ycpw=pw*(1+λ),從而建立高校專業(yè)錄取預(yù)測位次數(shù)據(jù)庫。
每年院??偟恼猩藬?shù)的變動及在各省投放人數(shù)的變動都會引起院校專業(yè)錄取位次的變動。院校專業(yè)錄取位次波動的原因不僅僅是一個(gè)概率事件,其中也有許多其他因素的影響,如招生計(jì)劃的變動、報(bào)考人數(shù)、考生整體能力、試題難易程度、競爭院校招生計(jì)劃、院校專業(yè)影響力等因素的影響。本文在充分考慮各院校專業(yè)歷年波動數(shù)據(jù)的基礎(chǔ)上,計(jì)算院校專業(yè)的錄取概率,提升了院校專業(yè)錄取概率的準(zhǔn)確性,考生錄取概率計(jì)算公式如下:
根據(jù)上述公式計(jì)算考生院校專業(yè)的錄取概率,在概率的基礎(chǔ)上對院校專業(yè)進(jìn)行分層聚類,將所推薦的院校專業(yè)志愿劃分為三類:沖擊型志愿、穩(wěn)妥型志愿、保底型志愿。
通過基于知網(wǎng)的專業(yè)相似度計(jì)算方法獲得考生最佳專業(yè)選擇集合S,根據(jù)考生專業(yè)相似度從高到低依次和考生成績位次,計(jì)算出考生被院校專業(yè)錄取概率,按錄取概率高到低分別獲得沖擊型志愿、穩(wěn)妥型志愿、保底型志愿,算法計(jì)算流程圖如圖2,算法具體步驟如下:
( 1 ) 將考生的成績通過一分一段表轉(zhuǎn)換為位次,并將考生通過知網(wǎng)相似度計(jì)算獲得最佳專業(yè)選擇集合S,按相似度高到低逐一專業(yè)選擇輸入。
( 2 ) 將高校歷年來的錄取情況通過一分一段表轉(zhuǎn)換為每年院校專業(yè)錄取的招生位次,通過公式y(tǒng)cpw=pw*(1+λ),獲得各院校專業(yè)預(yù)錄取位次。
( 3 ) 通過公式(5),獲得考生最佳專業(yè)集S中各專業(yè)的院校專業(yè)錄取概率,根據(jù)錄取概率的低到高為考生推薦志愿:1)錄取概率50%到 80%的院校專業(yè)為沖擊型志愿;2)錄取概率80%到 90%的院校專業(yè)為穩(wěn)妥型志愿; 3)錄取概率90%到 100%的院校專業(yè)為保底型志愿。
隨著網(wǎng)絡(luò)信息化的發(fā)展,網(wǎng)絡(luò)的開放性和共享性使得網(wǎng)絡(luò)更容易遭受到攻擊,因此確保數(shù)據(jù)的保密性和服務(wù)器的安全性是首要任務(wù)。基于安全的考慮,為了實(shí)現(xiàn)普通業(yè)務(wù)管理和核心數(shù)據(jù)業(yè)務(wù)的管理分離,確保核心業(yè)務(wù)數(shù)據(jù)管理的安全性,對高考志愿輔助系統(tǒng)架構(gòu)提出了層次化管理,將網(wǎng)絡(luò)分為外部網(wǎng)、內(nèi)部網(wǎng)和核心網(wǎng),具體的設(shè)計(jì)結(jié)構(gòu)如圖 3所示[9]:①外部網(wǎng),是在內(nèi)部網(wǎng)絡(luò)之外的非安全I(xiàn)nternet部分,通過建立訪問控制體系,將絕大多數(shù)攻擊隔離在內(nèi)部區(qū)之外;②內(nèi)部區(qū),安全級別比較低,主要是普通業(yè)務(wù)管理,通過對安全漏洞的周期檢查,即使攻擊到達(dá)攻擊目標(biāo),也可使絕大多數(shù)攻擊無效;③核心區(qū),安全級別比較高,主要是針對核心數(shù)據(jù)業(yè)務(wù)安全考慮,必須建立完善身份認(rèn)證體系。當(dāng)用戶通過安全認(rèn)證后,認(rèn)證服務(wù)器生成 VPN通道,授權(quán)認(rèn)證服務(wù)器與客戶端建立 VPN 通道,用戶就可以訪問核心業(yè)務(wù)數(shù)據(jù)管理系統(tǒng)。核心業(yè)務(wù)數(shù)據(jù)管理系統(tǒng)主要分為兩個(gè)模塊:基于知網(wǎng)專業(yè)相似度計(jì)算模塊和院校專業(yè)推薦模塊。
圖2 錄取概率計(jì)算流程圖
圖3 基于知網(wǎng)的高考志愿輔助系統(tǒng)架構(gòu)
本文基于知網(wǎng)技術(shù),通過計(jì)算本體概念義原的相似度來推算出考生最佳專業(yè)選擇集合。根據(jù)考生成績位次和最佳專業(yè)選擇集合,通過建立院校專業(yè)錄取概率模型,獲得考生各最佳專業(yè)的院校錄取概率,依據(jù)錄取概率的高低為考生推薦出:沖擊型志愿、穩(wěn)妥型志愿、保底型志愿,不僅考慮考生意向的院校專業(yè)范圍,而且提高了錄取概率。
[1]周井芝.基于數(shù)據(jù)分析的高考志愿決策模型研究[D].山東師范大學(xué),2017.
[2]徐蘭靜,李珊,嚴(yán)釗.基于協(xié)同過濾的高考志愿推薦系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(7): 185-189.
[3]沈小娟,孫紹榮.基于統(tǒng)計(jì)模型的高考志愿填報(bào)決策分析[J]. 統(tǒng)計(jì)與決策,2014,21:57-59.
[4]陳林.基于本體的高考志愿填報(bào)輔助系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息系統(tǒng)工程,2015,1,37-38.
[5]黃世維.互聯(lián)網(wǎng)信息情感傾向性的研究與實(shí)現(xiàn)[D].西安電子科技大學(xué),2012.
[6]谷寶柱.高考志愿選擇行為的影響因素研究[D]. 石河子大學(xué),2017
[7]高峰,張波.基于要素選擇的高考志愿填報(bào)“四步”法[J].科教文匯,2014,1,148-150.
[8]曹謝東,余飛.基于語義相似度計(jì)算的詞匯語義自動分類系統(tǒng)李杰[J].計(jì)算機(jī)仿真, 2008(8),25(8):295-307.
[9]廖光忠, 黃澤鑫. 基于動態(tài)密碼認(rèn)證和VPN隧道的防水墻研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(6),29(11):2733-2735.
[10]江敏,肖詩斌,王弘蔚,施水才. 一種改進(jìn)的基于《知網(wǎng)》的詞語語義相似度計(jì)算[J].中文信息學(xué)報(bào),2008(9),22(5):84-89.
[11]銀虹宇.基于大數(shù)據(jù)的高考志愿推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2018.
[12]聶海峰.高考志愿填報(bào)的不完全信息博弈[J].制度經(jīng)濟(jì)學(xué)研究,2010,(2).
[13]唐曉靜.高考填報(bào)志愿的綜合決策模型[J].統(tǒng)計(jì)教育,2010(07):11-15.
[14]李鳳.我國高校招生志愿填報(bào)機(jī)制的經(jīng)濟(jì)學(xué)思考——梯度志愿、平行志愿和實(shí)時(shí)動態(tài)[J].清華大學(xué)教育研究,2011(5):48-55.
[15]陳海燕.基于搜索引擎的詞匯語義相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2015,42(1): 261-267.