朱翠云等
【摘 要】 隨著互聯網技術的發(fā)展,遠程教育在現代教育中起到越來越重要的作用。本文以遠程教育招生數據為研究對象,提出一種自適應基因表達式程序設計算法。該算法能自適應調整算法的雜交和變異概率,從而有效避免人為設置初始參數的敏感性。算法在分析現有招生數據的基礎上,預測未來幾年的招生規(guī)模,有利于招生單位做出有針對性的調整,并針對我校近幾年的招生數據,有效地對以往數據進行建模,預測未來的招生規(guī)模。
【關鍵詞】 遠程教育;招生;基因表達式程序設計;建模;預測
【中圖分類號】 G40-057 【文獻標識碼】 A 【文章編號】 1009—458x(2015)02—0067—06
一、引言
隨著互聯網技術的快速發(fā)展,遠程教育也得到了快速發(fā)展,在現代教育中的作用也越來越重要[1]。作為遠程教育第一個環(huán)節(jié)的招生工作,具有十分重要的作用,但競爭日趨激烈[2]。因此,對已有招生數據進行挖掘分析,建立有效的模型,可以對未來的招生形勢進行預測,以提供有效的決策分析手段。
遠程教育招生人數與國家政策、教育資源、高校排名等有很大關系。招生數據是典型的時間序列數據,具有高度的非線性、不規(guī)則性和季節(jié)性等特點。針對招生數據建立有效的分析和預測模型,對未來招生形勢的分析具有十分重要的作用。有鑒于此,本文以我校遠程與繼續(xù)教育學院近5年春秋兩季的招生數據為對象,提出一種自適應基因表達式程序設計(Gene Expression Programming, GEP)算法,對已有數據進行建模,并根據所建模型預測未來的招生人數。為了避免人為設置參數對所求解問題敏感性的不足,采用自適應參數控制技術實現雜交概率和變異概率自適應控制。結果表明,該算法能建立較準確的模型,實現對未來招生形勢的良好預測。
二、相關工作
1. 基因表達式程序設計
葡萄牙科學家C. Ferreira于2001年提出了基因表達式程序設計算法。該算法是一種新的非線性程序設計技術,是演化算法的一種[3]。通過實驗分析,C. Ferreira討論了GEP在問題求解、時間序列預測、函數發(fā)現、分類規(guī)則、符號回歸等問題中的應用。與遺傳規(guī)劃算法不同,在基因表達式程序設計中,個體采用具有固定長度的線性串(基因組或染色體)進行編碼,并被表示成具有不同大小和形狀的非線性實體(表達式樹)。該算法已在多個領域取得了成功的應 用[4][5][6]。
Zhou等研究表明,GEP能夠挖掘出更精簡、更有效的分類規(guī)則[7];Lopes和Weinert研究了GEP在符號回歸問題中的應用,并提出了一種新的分析符號回歸問題的系統(tǒng):EGIPSYS[8];Zuo等利用GEP進行時間序列預測,提出了GEP-SWPM(即GEP滑動窗口法)和GEP-DEPM(即GEP常微分方程組法)兩種預測方法[9],實驗結果表明,兩種方法在太陽黑子的預測上均取得很好的效果;黃曉冬等提出了一種基于GEP的函數關系發(fā)現方法——MEM方法,即分域表達式挖掘。該方法能處理具有一致表達式的關系和具有不同分域表達式的復雜函數關系,并論證了它具有對數數量級的復雜度[10];汪銳等利用GEP實現了多項式函數分解,提出了GPF方法。該方法能把任意多項式函數關系,按指定精度分解若干低次多項式函數的乘積[11];元昌安等在把GEP用于函數挖掘時分析了算法的收斂性,根據收斂性定理提出了殘差制導進化算法RGEA,并通過對GP、GEP、RGEA算法進行比較實驗,表明RGEA比前兩種方法具有更好的性能[12];Cai等在預測瓦斯涌出量時,把GEP與模擬退火算法和MPI并行機制相結合,以模擬退火算法來增強算法的搜索能力,以多群體并行策略來優(yōu)化算法的性能,形成了混合并行GEP算法HPGEPSA。結果表明,與傳統(tǒng)的GP和基本GEP相比,HPGEPSA具有更好的適應性、可擴張性和更高的預測精度[13]。此外,GEP還運用到神經網絡的設計[14]、仿真[15]和文本挖掘[16]中,都取得了較好的效果。
2. 基于數據挖掘的遠程教育分析
數據挖掘(Data Mining)一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程[17]。把數據挖掘技術應用于遠程教育中已受到廣泛的重視[18]。王菁菁把STING聚類技術應用于遠程教育系統(tǒng)學生分類中,取得了較好的效果[19];陶靈奴等介紹了數據挖掘技術在遠程教育學生考試成績分析上的應用和用ID3算法構造決策樹的方法,分析了遠程教育中成功應用數據挖掘的思路和模式[20];肖勇等使用C4.5數據挖掘算法分析過程考核中采集的數據,研究過程考核實施中存在的問題和過程考核指標的改進方向[21];程華等提出基于K-means聚類方法的多項考核指標分析技術,并研究了考核指標與學習者的終結性評價之間的關系;針對目前遠程教育中個性化教學水平較低的問題,溫泉等提出了一種基于粗糙集的Web學習者聚類算法,提高了遠程教學網站的個性化教學水平[22][23];王新穎等把基于關聯規(guī)則的聚類技術應用到遠程教育的Web網頁和用戶數據分析中[24];孫瑩等采用數據挖掘方法分析了自主學習行為特征等現狀,從而有利于教師及教學管理人員有目的地引導學生的學習[25];鄭春香和韓承雙研究了關聯規(guī)則分類算法,應用關聯規(guī)則Apriori算法,對遠程教育考試系統(tǒng)數據樣本進行數據分析,從分析的結果中發(fā)現有價值的數據模式,尋找其中存在的關系和規(guī)則,可以為教學和考試環(huán)節(jié)發(fā)揮調節(jié)、控制、指導作用,為遠程教育管理提供合理、科學的決策支持[26];以自貢電大2009級近百名本科學員基本資料及學習記錄為采樣數據,毛布等利用動態(tài)聚類的方法進行了有效的學員細分及數據分析,并在此基礎上提出了相應的建立適合遠程教育的資源庫的策略[27];朱祖林等運用t檢驗、方差分析、灰關聯分析等統(tǒng)計分析技術,通過典型抽樣和便利抽樣等方法對遠程教育數據進行挖掘分析[28];侯月姣等使用K-means算法對學生的屬性數據和相應課程的成績進行了聚類數據挖掘,發(fā)現學習者群體的特點,結合聚類結果的特性和差異,為課程資源建設及教學過程的改進提供幫助[29];張曉芳把網格聚類思想應用于遠程教育系統(tǒng)中,具有良好的聚類性能以及運算速度[30];白若微等以CNKI數據庫為樣本來源,借助Citespace II信息可視化分析軟件,對我國遠程教育領域中應用數據挖掘技術的相關研究進行基于科學知識圖譜的可視化分析,以期為數據挖掘有效促進遠程教育的研究提供參考[31];周圓等以西南交通大學網絡教育學院2008-2012年所有學生的學籍數據為研究對象,采用關聯、求和、百分比、標準差等多種統(tǒng)計方法,系統(tǒng)分析了該學院五年間學生輟學的整體情況和變化趨勢,并比較挖掘了多視角下輟學率變化的情況差異和發(fā)生規(guī)律,揭示了影響遠程教育輟學率的多重因素[32];周劍云以Moodle網絡課程管理系統(tǒng)為研究基礎,分析并提出有針對性的數據挖掘方法構架,以對課程建設情況和學生學習情況的跟蹤分析,為教師改進教學策略、提高網絡課程教學質量提供有力支持及方法借鑒[33]。
三、自適應基因表達式程序設計
基本的GEP算法對于雜交概率(包括單點雜交概率和兩點雜交概率)和變異概率都是人為根據經驗設置固定的值。然而根據不同問題設置最優(yōu)的雜交概率和變異概率是很困難的。此外,由于演化算法本身的動態(tài)特性,設定固定不變的參數值也是不合理的。為了避免人為選擇最優(yōu)參數困難和參數敏感性的不足,本文采用自適應參數設置技術動態(tài)控制GEP算法的雜交概率和變異概率,提出了改進算法——Adaptive Gene Expression Programming,簡稱AGEP,具體設計如下:
1. 個體的編碼及表示
4. 算法流程
AGEP的算法流程和GEP相似,具體如下:
(1)隨機產生初始群體,群體中的個體是一些具有固定長度的線性串,串中的符號是由表示問題的函數和終結點隨機組合而成的;
(2)用表達式樹表示個體,執(zhí)行每個程序,并評價它們的適應度值;
(3)根據公式(4)和公式(5)計算每個個體的變異和雜交概率;
(4)判斷程序是否達到終止條件(終止條件可以是最大演化代數或問題求解精度),如果達到終止條件則程序終止;否則,執(zhí)行后面的步驟;
(5)保存當前群體中最好的個體;
(6)執(zhí)行遺傳操作,包括選擇、變異、變換、重組等,形成新的群體;
(7)返回步驟(2)。
四、實驗結果與分析
基于上述改進,本文把所提出的AGEP算法應用于我校遠程與繼續(xù)教育學院近5年春秋兩季的招生數據建模與預測中,以驗證所改進算法的有效性,并且為遠程教育中其他數據分析提供有效的工具。
1. 參數設置
2. 數據描述
采用我校遠程與繼續(xù)教育學院2010年到2014年春秋兩季招生錄取人數作為實驗數據(共9個),具體如表2所示。
3. 實驗結果
4. 實驗數據分析
AGEP算法根據表2的實驗數據建立模型得到最優(yōu)適應值981.42,與理論最優(yōu)值1000相當接近。此外,所得到的R=0.99999999965表明,建模數據與實際招生數據十分接近。從表4的AGEP模型預測數據與實際數據對比可知,預測數據對2012年秋季到2014年春季的預測數據與實際招生數據的預測誤差均為0,表明改進的AGEP算法能較準確地利用原有招生數據建立模型,有效預測下一季度的招生數據。
表4中AGEP算法對2014年秋季的預測招生人數為7764人,表明在這一季度的招生人數有可能下降較快,這對招生單位起到一定的警示作用,需要通過一定的政策調整來刺激招生,避免該趨勢的出現。需要指出的是,如果通過相應的政策調整和招生宣傳,2014年秋季的招生人數期望得到提升,在下次使用AGEP算法建立模型的時,只需要重新運行算法,得出相應的預測模型即可。
五、結論
本文以我校遠程與繼續(xù)教育學院近年來招生錄取人數為研究對象,提出了改進的自適應GEP算法,采用自適應參數控制技術不僅可以避免人數設置參數的敏感性,而且增強了有效性。實驗表明,AGEP算法能夠準確建立預測模型,所得模型預測數據與實際招生錄取人數的預測誤差為0。通過本文提出的AGEP算法建立的模型可以為招生單位下一季度的招生提供有效參考,并據此進行相應的政策調整和招生宣傳,起到良好的參考作用。
雖然AGEP較好地克服了基本GEP手動設置雜交概率和變異概率的不足,但是,與GEP一樣,AGEP也存在固有的不足:如何較好地設置模型的常數,如何確定基因頭部的長度等。把AGEP應用于其他領域的數據預測也是將來的一個研究熱點。
[參考文獻]
[1][19] 王菁菁. 遠程教育系統(tǒng)學生分類的數據挖掘研究[D]. 遼寧工程科技大學碩士學位論文,2010.
[2]肖貽裕. 對新形勢下遠程教育招生工作的思考[J]. 科技資訊, 2012,( 22):209-210.
[3] C. Ferreira. Gene expression programming: A new adaptive algorithm for solving problems[J]. Complex Systems, 2001, 13(2): 87-129.
[4] 李曲,蔡之華,朱莉等. 基因表達式程序設計方法在采煤工作面瓦斯涌出量預測中的應用[J]. 應用基礎與工程科學學報,2004,12(1): 49-54.
[5] 鄭皎凌,唐常杰,徐開闊,楊寧,段磊,李紅軍. 用態(tài)勢模型預測基因表達式編程的進化難度[J]. 軟件學報,2011,22(5):899-913.
[6] 周倩,王紅,姚震. 基于基因表達式編程的規(guī)則分類[J]. 計算機工程與設計,2013,34(10):3492-3496.
[7] C. Zhou, W. Xiao, T. M. Tirpak, et al. Evolving Accurate and Compact Classification Rules With Gene Expression Programming [J]. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 519-531.
[8] H. S. Lopes, W. R. Weinert. EGIPSYS: An Enhanced Gene Expression Programming Approach for Symbolic Regression Problems [J]. Int. J. Appl. Math. Comput. Sci. 2004, 14(3): 375-384.
[9] J. Zuo, C. Tang, C. Li, et at. Time Series Prediction based on Gene Expression Programming [C]. International Conference for Web Information Age, 2004.
[10] 黃曉冬,唐常杰,李智等. 基于基因表達式編程挖掘函數關系[J]. 軟件學報,2004, 15(增刊):97-106.
[11] 汪銳,唐常杰, 段磊等. 基于GEP的多項式函數關系分解[J]. 計算機研究與發(fā)展,2004,41(增刊):442-448.
[12] 元昌安,唐常杰, 左劼等. 基于基因表達式編程的函數挖掘——收斂性分析與殘差制導進化算法[J]. 四川大學學報(工程科學版), 2004, 36(6).
[13] Z. Cai, S. Jiang, L. Zhu, et al. A Novel Algorithm of Gene Expression Programming Based on Simulated Annealing [C]. International Symposium on Intelligent Computation and its Application, Wuhan, China, 2005, 605-610.
[14] C. Ferreira. Designing Neural Networks Using Gene Expression Programming [C]. The 9th Online World Conference on Soft Computing in Industrial Applications, 2004.
[15] C. Ferreira. Analyzing the Founder Effect in Simulated Evolutionary Processes Using Gene Expression Programming [J]. Soft Computing Systems: Design, Management and Applications, 2002, 153-162.
[16] Z. Xie, X. Li, W. Xiao, et al. Using Gene Expression Programming to Construct Sentence Ranking Functions for Text Summarization[C]. In Proceedings of the 20th International Conference on Computational Linguistics, 2004.
[17] J. Han, M. Kamber. 范明,孟小峰等譯. 數據挖掘——概念與技術[M]. 北京:機械工業(yè)出版社,2004.
[18] 陳登科,胡翠華. 數據挖掘技術在遠程教育中的應用[J]. 情報科學, 2003, 21(4):445-448.
[20] 陶靈奴,孫繼銀,李智,郭文普. 遠程教育考試成績分析決策樹的構造方法[J]. 計算機工程與設計,2006,27(6):976-978.
[21]肖勇,程華,孫瑩. 決策樹方法在遠程教育過程考核中的探索[J]. 遠程教育,2008:53-56.
[22] 程華,夏寧,肖勇. 基于聚類分析的遠程教育過程考核體系研究[J]. 華東理工大學學報(社會科學版),2008,(2):112-117.
[23] 溫泉,江美英,覃俊. 遠程教育中基于粗糙集的聚類算法[J]. 中南民族人學學報(自然科學版),2007,26(1):84-87.
[24] 王新穎,王向麗,張文華. 基于關聯規(guī)則的聚類挖掘在遠程教育中的應用[J]. 現代遠距離教育,2008,(4):12-14.
[25] 孫瑩,程華,萬浩. 基于數據挖掘的遠程學習者網上學習行為研究[J]. 中國遠程教育,2008,(5):44-47.
[26] 鄭春香,韓承雙. 關聯規(guī)則研究及在遠程教育考試系統(tǒng)中的應用[J]. 計算機技術與發(fā)展,2009,19(8):186-188.
[27] 毛布,田林,謝汶. 基于動態(tài)聚類的網上學員細分實證研究[J]. 四川理工學院學報(自然科學版),2010,23(6):682-685.
[28] 朱祖林,畢磊,齊新安,李瑩,陳彥彥,宋陽. 現代遠程教育輟學率的挖掘分析——基于安徽地區(qū)1999-2009年數據[J]. 遠程教育,2011:18-26.
[29] 侯月姣,李青,王曉軍,李曉麗. 基于K-means聚類算法的遠程學習者效果分析[J]. 北京郵電大學學報(社會科學版),2011,13(1):104-109.
[30] 張曉芳. 聚類分析算法在遠程教育系統(tǒng)中的應用研究[J]. 科技通報,2013,29(4):106-108.
[31] 白若微,張夏,周榕. 遠程教育中數據挖掘技術的研究熱點與發(fā)展趨勢——基于Citespace II的可視化分析[J]. 2013,27(5): 512-516.
[32] 周圓,羅霄,應松寶. 遠程教育輟學情況的統(tǒng)計分析及數據挖掘——基于西南交通大學網絡教育學院2008-2012年數據[J]. 中國遠程教育, 2014,(8):62-66.
[33] 周劍云. Moodle平臺網絡課程數據挖掘模式分析[J]. 中國遠程教育,2014,(9):68-71.
[34] 龔文引,蔡之華,劉亞東,基因表達式程序設計在復雜函數自動建模中的應用[J]. 系統(tǒng)仿真學報,2006,18(6):1450-1454.
[35] M. Srinivas and L. M. Patnaik. Adaptive probabilities of crossover and mutation in genetic algorithms [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1994, 24(4): 656-667.
收稿日期:2014-09-15
作者簡介:朱翠云,碩士;賀亞鋒,碩士;成中梅,博士,副院長。中國地質大學(武漢)遠程與繼續(xù)教育學院(430074)。
龔文引,博士,副教授,中國地質大學(武漢)計算機學院 (430074)。
責任編輯 日 新
責任校對 日 新