王曉雪+張家禎+郭賀+王灝
摘要: 關鍵詞: 中圖分類號: 文獻標志碼: A文章編號: 2095-2163(2017)06-0167-02
Abstract: With the arrival of the era of big data, people's lives and work are surrounded by massive data, and various kinds of information are also produced at the same time. And a lot of security risks are faced by big data in the process of collection, storage and use. This paper mainly discusses the big data information security issues, introduces the related technology of big data, and analyzes the techniques suitable for mining the learning behavior model.
0引言
隨著大數(shù)據(jù)時代的到來,人們在通過各種方式獲取信息的同時,也持續(xù)產(chǎn)生了各種各樣的信息,如訪問網(wǎng)站的瀏覽信息、電商網(wǎng)站的消費記錄、各種登記信息等。不僅如此,科學計算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也均有大量數(shù)據(jù)在不斷產(chǎn)生和涌現(xiàn),專家預計到2020年這一數(shù)值會超過40 ZB,因此引發(fā)了學術界和各國政府的熱議與重視。本文即針對這一課題展開如下探討論述。
1大數(shù)據(jù)作用
大數(shù)據(jù)技術目前已經(jīng)被應用到各個領域,其現(xiàn)實作用可分為以下3類:
1)獲取信息進行預測,如利用數(shù)據(jù)分析預測股票行情走勢。
2)分析對象個性化特征,如對于網(wǎng)購客戶的搜索信息分析后進行商品推薦。
3)去偽存真辨別真假,如對于論壇虛假信息進行過濾等。
2信息安全問題
研究可知,大數(shù)據(jù)的利益價值與其帶來的信息安全問題同樣不容忽視。而另有關于社交網(wǎng)絡信息的分析研究表明,通過用戶錄入的個人信息可以發(fā)現(xiàn)其興趣愛好、生活習慣、工作領域等信息。目前的保護技術仍有待改進,掌握了客戶信息的企業(yè)常常認為經(jīng)過匿名處理來隱藏用戶標識符即可充分發(fā)揮保護作用,但事實上卻并非如此,當相關信息進行相互結合處理時,部分用戶信息還是會被顯性識別出來。目前用戶信息的收集、管理和使用等主要依托企業(yè)自律,尚待形成嚴密監(jiān)管體系,用戶也無法自行決定個人信息的使用和銷毀。
當前,主要的大數(shù)據(jù)信息保護技術有匿名保護和數(shù)據(jù)水印技術。其中,匿名保護技術可用于大數(shù)據(jù)的發(fā)布時,如社交網(wǎng)站的發(fā)布信息為大數(shù)據(jù)的主要來源之一,利用匿名保護技術既可以隱藏用戶的標識和屬性,也可以將用戶間關系的保護一并展開完成。而水印技術則是將標識信息嵌入至數(shù)據(jù)信息中,而且也不會影響數(shù)據(jù)使用的技術。
3數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術具體包括了聚類、分類、關聯(lián)規(guī)則、信息檢索及序列模式等內容。其中,關聯(lián)規(guī)則能夠找到數(shù)據(jù)間的關聯(lián)關系,序列模式能夠發(fā)現(xiàn)數(shù)據(jù)中的頻繁模式,而分類、聚類技術就能夠分別在規(guī)則已知和未知的情況進行數(shù)據(jù)分類,另外的信息檢索技術則主要用于提升搜索引擎的搜索質量和效率。本文即以筆者所在院校的學生學習行為模式作為研究對象,將各類數(shù)據(jù)挖掘融入了學生行為的研究管理實踐,并以此為核心建構科學合理教學模式。
3.1院校大數(shù)據(jù)特點分析
為發(fā)現(xiàn)高校學生的學習行為模式,除學生自行安排的學習時間段外,為使數(shù)據(jù)收集準確且完整,還需要增補課余時間的安排情況,該過程不可避免地涉及到學生隱私,由此可能導致數(shù)據(jù)量不足或者由于人為因素得到噪聲和不完整數(shù)據(jù)。相對應地,由網(wǎng)絡系統(tǒng)記錄的在線學習情況的數(shù)據(jù)則要更加準確和客觀,但這卻要有關技術和部門的支持與配合。高校學生專業(yè)特點不同,學習行為隨學期而具備了階段性變化,因此受到現(xiàn)實情況限制,只收集某專業(yè)某一屆學生畢業(yè)前的學習行為信息,數(shù)據(jù)會呈現(xiàn)局部特征明顯、但普遍代表性不高的特點。綜上分析可知,在某專業(yè)數(shù)據(jù)信息收集、分析,并經(jīng)時間離散化等結構化預處理后,可以存儲于數(shù)據(jù)庫中等待數(shù)據(jù)挖掘技術的實踐操作研究。
3.2數(shù)據(jù)挖掘技術應用解析
1)分類、聚類技術。如果需要通過學習行為對學生進行分類,則適合采用分類聚類技術。具體來說,分類是一種有指導的技術,可以將學生劃分至預先定義的各類中,如可以將學生簡單按照成績分為兩組,也可以細化成按照優(yōu)、良、中、差多個級別不等。而聚類是一種無指導的技術,需要先從數(shù)據(jù)出發(fā)找到學習行為中相近的記錄實現(xiàn)分組,分組目標事先不能確定,主要依賴數(shù)據(jù)特征識別分組,結果也需要用戶自行識別和定義。
2)關聯(lián)規(guī)則技術。利用關聯(lián)規(guī)則技術則能夠找到學生群體中影響學生成績的行為因素,如某些學生的生活習慣為晝伏夜出,經(jīng)常逃課,則必然學習成績不良,那么推得的關聯(lián)規(guī)則即為{(晝伏夜出,逃課)→成績差},利用這一規(guī)則可以輔助教師對學生善加引導,建立和完善管理機制。
3)序列模式挖掘技術。如果需要預測學生學習行為模式,就適于利用序列模式,因其發(fā)現(xiàn)事件的先后順序規(guī)律,如若有學生晝伏夜出,那么該生有可能即將逃課,最終可能影響成績和畢業(yè),這個模式可以描述為{晝伏夜出→逃課→成績差}。利用如上研究模式,教師就可對學生提前施以約束與糾正,防微杜漸,避免最壞的結果發(fā)生。
除了實踐積累的教學經(jīng)驗和心理學知識輔助,教師還需要更多先驗知識來提升學生指導工作的專業(yè)性與靈活性。最好是能夠利用大數(shù)據(jù)處理技術發(fā)現(xiàn)無意忽略或者無法發(fā)現(xiàn)的知識,能夠輔助策略性指導的規(guī)律,因此研究建議:可以更多考慮選用序列模式挖掘技術。endprint
序列模式挖掘的代表算法有Apriori[1]、GSP[2]、PrefixSpan[3]、SPADE[4]等。這里,關于序列模式挖掘的重點算法將給出如下分析闡釋。
① Apriori算法。設計策略為:首先遍歷數(shù)據(jù)庫找到長度為1的頻繁序列模式L1,算法步驟如下:
Step 1L1集合中的序列進行兩兩連接,形成的候選集合放在C2中;
Step 2對于C2中的每個長度為2的序列通過數(shù)據(jù)庫進行測試,如果為頻繁序列則放在L2中,否則放棄。對于L2中的頻繁序列按照上述連接和測試步驟而形成了遞歸處理流程,直至無法找到足夠的頻繁序列Ln進行連接為止。但因為由Ln生成Cn+1的過程中會產(chǎn)生大量的候選序列,尤其是C2的數(shù)量非常多,并且兼有源數(shù)據(jù)庫的海量特點,對于Cn+1中每個序列都要遍歷一次數(shù)據(jù)庫,使得Apriori算法的缺點也尤為顯著與突出。
② GSP算法和PrefixSpan算法。Srikant提出的GSP算法和Han 等提出的PrefixSpan算法都針對Apriori算法問題引入了變化與改進,GSP算法在Apriori算法的基礎上附增了時間約束,并且在存儲序列時采用拓撲結構輔助篩選頻繁序列,縮小了搜索目標集合,GSP算法比Apriori算法運行時可快上2~20倍。而PrefixSpan算法則改變了搜索策略,利用源數(shù)據(jù)集找到L1,以L1為前綴進行投影,在生成的投影數(shù)據(jù)庫中對L1進行挖掘并建立L1投影數(shù)據(jù)庫,在這個過程中不會生成候選序列集合,L1連接L1便形成了頻繁序列L2,但L1中每個序列均需要生成一個投影數(shù)據(jù)庫,因此空間和時間上主要就是用于保存和處理投影數(shù)據(jù)庫,后續(xù)的挖掘都是在新投影數(shù)據(jù)庫中定義支持遞歸設計,搜索規(guī)模不斷縮小。
③ SPADE算法。分析可知,前述算法都是基于水平格式數(shù)據(jù)庫,SPADE算法則是基于垂直ID-LIST格式數(shù)據(jù)庫的搜索算法,相當于將原來的搜索空間分解成基于頻繁序列的不同的格,然后在每個格里進行遞歸挖掘。雖然搜索策略仍舊是連接-測試,但卻簡化了連接和測試過程。
之后,還有針對數(shù)據(jù)庫更新時的增量式序列模式挖掘,能夠挖掘多維信息的多維序列模式挖掘,能夠增加用戶參與挖掘機會的基于約束的序列模式挖掘。
對于上述算法,Apriori算法易實現(xiàn)但效率不理想;PrefixSpan算法雖然更加理想但不易實現(xiàn),并更適宜與約束條件相結合;SPADE算法需要數(shù)據(jù)結構的配合,缺點與Apriori算法相同。經(jīng)上述分析,針對學生學習行為數(shù)據(jù)具有少量且結構化的特點,選擇Apriori算法,并結合一定約束條件來設計展開挖掘。
4結束語
本文主要分析了大數(shù)據(jù)產(chǎn)生的信息安全問題,重點闡述了數(shù)據(jù)挖掘經(jīng)典算法并從中選取適合處理學生數(shù)據(jù)的算法,未來將以實現(xiàn)算法Apriori,并嘗試添加約束提高效率,去掉用戶不感興趣的序列為研究目標,進一步系統(tǒng)推進相關研究。
參考文獻:
[1] AGRAWAL R, SRIKANT R. Mining sequential pattern[C]//Proc.of the 11th International Conference on Data Engineering. Taipei:IEEE,1995:3-14.
[2] SRIKANT R, AGRAWAL R. Mining sequential patterns:Generalizations and performance improvements[M]//APERS P, BOUZEGHOUB M, GARDARIN G. Advances in Database Technology — EDBT' 96. EDBT 1996. Lecture Notes in Computer Science, Berlin/Heidelberg:Springer, 1996,1057:1-17.
[3] PEI Jian, HAN Jiawei, MORTAZAVIASI B, et al. Prefix Span:Mining sequential patterns eficiently by prefix-projected pattern growth[C]//2013 IEEE 29th International Conference on Data Engineering (ICDE) (2001).Heidelberg, Germany:IEEE Computer Society, 2001:215-224.
[4] ZAKI M J. SPADE: An efficient algoritm for mining frequent sequences[J]. Machine Learning, 2001,42(1):31-60.endprint