侯宗潤 綦文彬 李貴熙
摘要:教育在國民生活中十分重要,而對教育眾籌的分析可以推動傳統(tǒng)教育與先進(jìn)生產(chǎn)力的結(jié)合。該文綜合運(yùn)用文本挖掘手段對教育眾籌的成敗因素進(jìn)行分析和預(yù)測,在提取詞向量基礎(chǔ)下實(shí)現(xiàn)教育眾籌成敗因素的遷移學(xué)習(xí)與特征分析,使用神經(jīng)網(wǎng)絡(luò)與經(jīng)典模型對各因素的重要性進(jìn)行總結(jié),并最后預(yù)測一個請求書的申請能否被通過。
關(guān)鍵詞:詞向量;神經(jīng)網(wǎng)絡(luò);文本挖掘;遷移學(xué)習(xí);tf-idf算法;logistic模型
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)26-0159-03
眾所周知,教育是文化傳播的重要手段,在人的教化和培育上有著重要作用??梢哉f,教育對一個人乃至一個社會的影響是無可比擬的,教育的發(fā)展對于一個國家也極其重要,然而由于資金和設(shè)備的限制,世界上仍有大量貧困人口無法接受綜合教育。
近年來,為了得到足夠的教學(xué)資源來保證教學(xué)的質(zhì)量,教育眾籌應(yīng)運(yùn)而生。它的出現(xiàn)一定程度上緩解了這些矛盾,而教師們的請求書能否被大眾所接受是不確定的。因此,對于眾籌平臺、教師和學(xué)生來說,預(yù)測這些請求書能否得到公眾認(rèn)可,并獲得相應(yīng)的教育資源已經(jīng)成為當(dāng)務(wù)之急。對于眾籌平臺應(yīng)用的可行性分析是這一問題研究的熱門方向。例如楊開城,李通德,惠治儒[1]等對在線教育眾籌的技術(shù)機(jī)制與學(xué)習(xí)神經(jīng)元的研究,薛青[2]對眾籌平臺應(yīng)用于工業(yè)設(shè)計(jì)教育的可行性分析等。然而,在這些分析中,定性分析較多,對影響因素進(jìn)行量化的研究相對較少?;谶@種情況,教育眾籌領(lǐng)域現(xiàn)在急需通過建立合理的數(shù)學(xué)模型,分析影響因素并最終投入應(yīng)用。
本文中分析的教育眾籌網(wǎng)站為美國教育眾籌網(wǎng)站www.donorschoose.org,該網(wǎng)站可對全美國任意地區(qū)的教育眾籌申請書進(jìn)行公開眾籌。本文所研究的語料庫包含該網(wǎng)站2016-2017年的部分后臺數(shù)據(jù),內(nèi)容包括申請書內(nèi)容、價格、申請人(或其學(xué)生)所處年級、物品類別、總申請次數(shù)、申請物品主要介紹、申請?jiān)蚣白詈笊暾垥欠癖煌ㄟ^。
本文接下來將具體描述實(shí)現(xiàn)提取關(guān)鍵詞/詞頻分析的過程,在這一基礎(chǔ)上實(shí)現(xiàn)對詞向量的預(yù)訓(xùn)練1;隨后將說明具體影響教育眾籌的因素并對其進(jìn)行建模分析;最后將給出結(jié)論并討論此結(jié)論對教育眾籌行業(yè)的影響。
1 模型約定
1.1 模型假設(shè)
下面將會對本文解決問題的方式以及實(shí)際情況進(jìn)行合理的假設(shè),以正常進(jìn)行下文中對各要素的分析和預(yù)測。
1) 眾籌平臺上公布信息全部真實(shí);
2) 學(xué)校教育短時間內(nèi)仍將是教育的主要手段;
3) 所挖掘的數(shù)據(jù)均準(zhǔn)確無誤;
4) 不存在提交后未被審核的資源;
5) 假設(shè)數(shù)據(jù)庫在論文寫作的過程中沒有更新;
6) 假設(shè)申請書中的內(nèi)容與實(shí)際情況相符合(即,申請者所需要的東西及提供的條件不存在夸大成分或與事實(shí)不完全相同的情況)。
1.2 符號說明
表1列出了本文所使用的符號并對其進(jìn)行了說明。
2 對關(guān)鍵詞的提取與詞頻分析
對于數(shù)據(jù)挖掘中的自然語言理解,提取語料中的關(guān)鍵詞以及分析一個詞語在語料中出現(xiàn)的情況十分重要。本文接下來將對此進(jìn)行分析,并對分析的數(shù)據(jù)建立模型進(jìn)行預(yù)測。
本文中文本挖掘的基本過程如圖1所示。
4 結(jié)論
本文利用logistic模型對教育眾籌申請書成功與否的影響因素進(jìn)行了建模預(yù)測,通過檢驗(yàn)證明了對四個要素進(jìn)行定量分析的重要性,并得出了結(jié)論。本文認(rèn)為所處地域/物品價格/申請類別三個要素對一個申請書是否能夠獲得成功的影響相對更大。
當(dāng)然,論文受時間以及語料庫單一等因素的限制,無法完全準(zhǔn)確的提取出各種要素并進(jìn)行大規(guī)模分析,但本文在語料基礎(chǔ)上已經(jīng)對提取出的要素進(jìn)行了較為全面的分析。日后,加強(qiáng)語料庫的建設(shè),提高分類程度,涵蓋更多領(lǐng)域和標(biāo)簽,將會成為教育眾籌領(lǐng)域文本挖掘與分析亟需改善之處。教育眾籌項(xiàng)目的研究具有廣闊的前景,未來,對這一領(lǐng)域的研究將會更加深入,這一行業(yè)也必將擁有更為廣闊的發(fā)展前景。
注釋:
1.即Pre-training,為后面模型的設(shè)計(jì)提供數(shù)據(jù)基礎(chǔ).
2.簡稱為NLP(Nature Language Processing).
3.即認(rèn)為一個詞出現(xiàn)的概率[P(wi)]與之前[P(wi-11)]個詞出現(xiàn)的概率 有關(guān)
4.即tf(term frequency).
5.即idf(inverse document frequency).
6.此分式分母加1,分式不為0.
7.此數(shù)為Rake-tutorial中內(nèi)置的tf-idf算法分?jǐn)?shù),不代表論文中所論述的實(shí)際方法. 但須指明的是,Rake-tutotial中的算法原理基于tf-idf方法.
8.New Mexico,州名縮寫為NM.
9.Wyoming,州名縮寫為WY.
10.這一結(jié)論在3.3中還有體現(xiàn).
11.South Dokota,州名縮寫為SD.
12.Michigen,州名縮寫為MI.
13.即LR(likelihood ratio).
參考文獻(xiàn):
[1] 楊開城,李通德,惠治儒,田浩.在線教育眾籌的技術(shù)機(jī)制與學(xué)習(xí)神經(jīng)元[J]. 現(xiàn)代遠(yuǎn)程教育研究,2017(1):51-58.
[2] 薛青.眾籌平臺應(yīng)用于工業(yè)設(shè)計(jì)教育的可行性分析[J].工業(yè)設(shè)計(jì),2018(1):106-107.
[3] Bird, Steven, Edward Loper and Ewan Klein. Natural Language Processing with Python[Z]. OReilly Media Inc,2009.
[4] Xiaoqing Zheng,Hanyang Chen,Tianyu Xu.Deep Learning for Chinese Word Segmentation and POS tagging[R].Proceeding of the 2013 Conference on Empieical Methods in Natural Language Processing, 2013:647-657.
[5] 張鍵鋒,王勁. 基于文本挖掘與神經(jīng)網(wǎng)絡(luò)的音樂風(fēng)格分類建模方法[J]. 電信科學(xué), 2015,31(7):80-85.
[6] M. W. Berry & J. Kogan (Eds.). Text Mining: Theory and Applications: John Wiley & Sons[M].
[7] Rose, S., Engel, D., Cramer, N., & Cowley, W. Automatic Keyword Extraction from Individual Documents[R]. 2010.
[8] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation[Z]. 2014.
[9] Alyona M.,NLP keyword extraction tutorial with RAKE and Maui[EB/OL].
[10] 施朝建,張明銘.Logistic回歸模型分析[J].計(jì)算機(jī)輔助工程,2005(3).
[通聯(lián)編輯:王力]