邱昊天 羅春水
摘 要:文章利用區(qū)塊鏈具有去中心化、高可信度和數(shù)據(jù)不可篡改的特性,解決了傳統(tǒng)大數(shù)據(jù)不具備的安全性和不可篡改的問題,為區(qū)塊鏈技術(shù)在教育行業(yè)的應用提供成熟的解決方案。接著,提出一個讓所有學校及培訓機構(gòu)能夠公開的包括學位學歷證書、獲獎榮譽、學習成績等在內(nèi)的所有教育信息且能夠被第三方機構(gòu)或個人查詢和驗證的區(qū)塊鏈證書頒發(fā)方案,并利用數(shù)據(jù)挖掘思想,提出基于集對分析算法的學生綜合成績的分析算法。最后,以某中學生的成績?yōu)闃颖?,利用該算法與普通算法評定結(jié)果的差異,較好地分析出學生在不同階段的綜合表現(xiàn)。
關(guān)鍵詞:區(qū)塊鏈;大數(shù)據(jù);模型;分析方法;綜合表現(xiàn)
中圖分類號:G434;G424.1 文獻標志碼:A 文章編號:1008-3561(2018)15-0024-03
區(qū)塊鏈(Blockchain)是新興的以金融科技領(lǐng)域衍生的熱門研究領(lǐng)域,指的是通過去中心化和去信任的方式統(tǒng)一維護一個可靠數(shù)據(jù)集合的技術(shù)方案。這個技術(shù)方案主要是讓參與系統(tǒng)中的任意多個節(jié)點通過使用密碼學方法產(chǎn)生一串相關(guān)聯(lián)的數(shù)據(jù)塊(block)。其中每個數(shù)據(jù)塊中包含了一定時間內(nèi)的系統(tǒng)全部信息交流數(shù)據(jù),并且使用生成的數(shù)據(jù)指紋可以用于驗證其信息的有效性以及鏈接(chain)下一個數(shù)據(jù)庫塊。目前區(qū)塊鏈在各個領(lǐng)域都開始了區(qū)塊鏈的應用研究,在教育領(lǐng)域內(nèi)也有相關(guān)的研究。本文通過追蹤、檢索有關(guān)區(qū)塊鏈技術(shù)發(fā)展應用方面,對區(qū)塊鏈的共識算法對比研究,提出構(gòu)建教育區(qū)塊鏈的方法,并在構(gòu)建教育區(qū)塊鏈的基礎上,對其產(chǎn)生的數(shù)據(jù)進行清洗分析,利用一種機器學習算法,通過構(gòu)建教育區(qū)塊鏈,解決數(shù)據(jù)可信問題,并在數(shù)據(jù)可信的基礎上構(gòu)建教育區(qū)塊鏈的大數(shù)據(jù)分析新應用。
通過建立教育區(qū)塊鏈,從高中階段起,記錄學生社會實踐活動、學生成績、發(fā)表的文章情況等,從德、才、日常點滴記錄學生的成長軌跡,形成學生人力資源大數(shù)據(jù),并利用數(shù)據(jù)進行建模學習,通過大數(shù)據(jù)技術(shù),為高效選拔人才提供可信全面數(shù)據(jù)。同時,教師也可以通過機器學習進行對比,用大數(shù)據(jù)分析學生的知識結(jié)構(gòu),找出突出問題進行針對性的指導和教學,從而提高人才的質(zhì)量。
區(qū)塊鏈技術(shù)是以比特幣為應用代表的數(shù)字加密貨幣體系的核心支撐技術(shù),其核心優(yōu)勢是去中心化,利用信息記錄時間戳、分布式共識、數(shù)據(jù)加密等手段,在節(jié)點之間無須相互信任的分布式系統(tǒng)中實現(xiàn)去中心化的點對點交易、協(xié)調(diào)與協(xié)作,為解決中心化機構(gòu)普遍存在的高成本、低效率和數(shù)據(jù)存儲不安全等問題提供了解決方案。區(qū)塊鏈的去中心化、信息不可篡改、自治性三個特點對于改善上述學生行為綜合評價體系中數(shù)據(jù)的缺陷和不足有非常大的借鑒意義。
在建好區(qū)塊鏈并進行數(shù)據(jù)記錄之后,基于集對分析算法的思想對其進行分析應用。X=(x1,x2,x3,…xn),Y=(y1,y2,…,yn),n為各集合的特征個數(shù)。X和Y間的映射關(guān)系度定義見公式(1)。
在公式(1)中,S表示集合X、Y兩個集合共有特征,P為這兩個集合之間相互互斥的特征,則F=n-S-P個特征既不互斥也不共有,即差異性特征;得出υ為不確定系數(shù),在不同情況下取值于(-1,1)區(qū)間的,體現(xiàn)了確定性與不確定性之間的相互關(guān)系;υ為互斥系數(shù),υ≡1。令k=S/n,稱為統(tǒng)一函數(shù),P=F/n為差異函數(shù),q=P/n稱為互斥函數(shù),則公式(1)化簡為公式(2)。
μw=k+P μ+qμ (2)
式中k、p、q分別表示了集合X和Y所呈現(xiàn)出的相同的和相異相斥的關(guān)系,所以k+p+q=1。k、p、q三個系數(shù)的反映集合X和Y的關(guān)系情況。
1. 教育區(qū)塊模型鏈的基本結(jié)構(gòu)
模型中初始化、更新、評估、傳遞四種標志分別表示輸入輸出點對教育區(qū)塊鏈模型采取的行動。在模型傳遞過程中,模型的哈希表和模型本身的數(shù)據(jù)被更新,以此來減少區(qū)塊所占用的儲存空間。大家可以把所有包含學習活動區(qū)塊看作一個分布式數(shù)據(jù)庫,其中每一個被授權(quán)的教育機構(gòu)或者用人單位都是可以進行讀寫的。
2. 面向?qū)W習過程記錄的區(qū)塊創(chuàng)建機制
教育區(qū)塊鏈記錄了學生從高中開始的學習過程。每一區(qū)塊記錄以下幾個方面:唯一數(shù)、區(qū)塊大小標記、區(qū)塊頭信息、學習活動信息、學習活動計數(shù)。下一個新區(qū)塊計算值的參考目標數(shù)根據(jù)上一個區(qū)塊頭信息的計算值得出,區(qū)塊中的學習活動信息詳細記錄了該區(qū)塊中所有學生的學習活動。每當出現(xiàn)一個新的學習活動,系統(tǒng)會自動創(chuàng)建一個區(qū)塊,不同的學習活動都記錄在不同的區(qū)塊上,機制如圖1所示。
3. 模型鏈上的部分模型傳遞機制
在本文中展示部分模型更新和傳遞的一個運行實例,如圖2所示。其中有四名參與的教師想在私有區(qū)塊鏈網(wǎng)絡上檢查學生的學習活動的正確性。Mst代表t時刻在教師s上學生活動的模型,Est代表t時刻教師s上學生活動的誤差。在初始階段(t=0),每個教師使用自己的數(shù)據(jù)檢查學生的區(qū)塊,所有這些模型中擁有最小誤差的模型將被選中為初始模型。約定M10是從教師1到教師1的自身“傳遞”。然后,選定的模型(M10)被提交給教師2、教師3和教師4。
當t=1時,每名教師使用本地數(shù)據(jù)評估模型M11(與模型M10相同)。假如教師2具有最大的誤差(E21=70%),鑒于教師2的數(shù)據(jù)對模型M11來說最不可預期,就認為教師2包含了最豐富的信息可以改善模型M1。因此,教師2贏得了“信息出價”,于是模型M11在區(qū)塊1中被傳遞給教師2。
當t=2時,教師2更新學生學習活動模型為M22。同理,教師2發(fā)送M22到其他所有教師,接下來一個擁有最大誤差的教師將贏得“信息出價”得以在本地更新模型(如本文中的教師3)。這一過程會一直重復,直到某一名教師更新模型,并發(fā)現(xiàn)自己比其他教師誤差都大。
4. 模型鏈上的數(shù)據(jù)更新機制
在任何教師添加新數(shù)據(jù)的情況下,網(wǎng)絡并不需要重新訓練整個模型,而是通過信息證明算法以確定是否應該使用新的數(shù)據(jù)更新模型。如圖3所示。假設目前的共識模型是M44,并且新的數(shù)據(jù)接入教師1,在時間t=5,教師1使用更新后的數(shù)據(jù)(包括舊的數(shù)據(jù)和新的數(shù)據(jù))來評估模型M45(該模型與M44相同),當意識到誤差E15大于當前更新中的教師(教師4誤差E45= 30%)時,教師1再次贏得“信息出價”,并且模型M45現(xiàn)在被傳遞到教師1進行更新。重復圖2所示的過程,直到識別一致模型為止。
類似的機制可以用于一個新教師的加入,如圖4所示。新加入教師的數(shù)據(jù)都是全新的,一旦加入網(wǎng)絡,該教師首先從區(qū)塊鏈中獲取最新的模型(例如M44)在本地評估,如果評估后的誤差為當前最大(教師4誤差E45=60%),則由該教師負責就地更新模型,否則,模型仍為一致共識模型,模型的傳遞過程不需要繼續(xù)進行。
當教師離開私有區(qū)塊鏈網(wǎng)絡時,基于區(qū)塊鏈機制,不需要立即處理教師離開的情況。如果教師離開時沒有更新模型,這種離開的影響可能被忽略。此外,如果教師在更新模型時離開,仍然可以忽略它,這是因為模型的傳遞只是概念上的。
依據(jù)區(qū)塊鏈采集到的數(shù)據(jù),使用集對分析算法可以對學生的整體成績進行預測并進行成績分級。預測算法的本質(zhì)是把學生整體成績(C)與劃分標準(L)構(gòu)成映射,即構(gòu)成一個對應關(guān)系F(C,L),然后將集對F(C,L)進行分析,再將學生整體成績中的各個成績數(shù)值與成績劃分標準S中的評價標準范圍進行比較,最后通過比較對學生成績進行最終評定。
算法的核心是計算出每個學生的學習成績與等級劃分標準間的關(guān)系來確定影響因子,即計算出同關(guān)系度函數(shù)、異關(guān)系度函數(shù)和反關(guān)系度函數(shù)。根據(jù)學生的成績數(shù)據(jù),選擇能夠反映出學生分類等級特征的綜合指標x1,x2,x3,…xj(j為指標數(shù)目)。劃分標準[L(m-1,j),L(m,j)](分類等級數(shù)目;j=1,2,…),其中,l(m-1,j),l(m,j)指的是第j個科目指標的第m等級學生整體成績分類的等級下限和上限。
預測算法通過比較學生各科的成績C(i,j)和指標區(qū)間[L(m-1,j),L(m,j)]的關(guān)系來計算關(guān)系度A(m,j)(公式3),在公式3的基礎上進行改進得到A(m,j)的最終公式,如式(3)~(5)所示。
A(1,j)=1,C(i,j)≤L(1,j)1-,l(1,j)<(i,j)≤s(2,j)-1,其他 (3)
A(k,j)=1-,L(k-2,j)≤C(i,j) A(m,j)=1,C(i,j)≥L(m-1,j)1--1,其他,L(m-2,j)≤C(i,j) 公式(4)中,k=2,3,…,m-1。根據(jù)式(3)~(5)計算出來學生各科成績與每個成績整體級別之間的聯(lián)系度A(m,j)后,根據(jù)各科成績的權(quán)重W={ω(j)},計算聯(lián)系度U(i,m),ω(j),U(i,m)公式如式(6),(7)所示。 在學生的成長過程中,學習的科目重要性也不同,教師在預測算法中需要評定出不同科目在學生的整體成績中所占的權(quán)重值。在公式(6)中預測算法將學生不同科目成績分配權(quán)重ω(j),x表示第j科目在學習后所獲得的成績。如某學生某學期參與四門科目(學習成績、社會實踐、競賽、體育)學習,各科目的成績依次為70、80、90、95,則各類目的權(quán)重分別為0.4、0.2、0.1、0.3。 (6) (7) 式(7),Z(i,m)表示第i個學生和等級m的關(guān)系度; 若max(p)=max{Z(i,m)},p=1,2,3,…m (8) 則第i個學生的整體成績等級評定為P級。 本文中所闡述的關(guān)于學生綜合成績算法偽碼如下所示。 算法:基于集對分析的學生整體成績預測算法 上述算法的時間復雜度為T(n)=0(n)。因此,該算法可行。 如表1,以某中學學生的整體成績數(shù)據(jù)作為研究對象,學生整體成績按照5個等級來進行評定:等級Ⅴ為優(yōu)秀(90分~100分),等級Ⅳ為良好(80分~89分),等級Ⅲ為中等(70分~79分),等級Ⅱ為及格(60分~69分),等級Ⅰ為不及格(0分~59分)。 根據(jù)上述公式A(m,j)得出學生A各學習類別成績與各等級的影響因子如表2所示。通過公式(7)得到該學生A的成績與各個等級的影響因子如表3所示。這樣,可得出等級Ⅲ的影響因子值為五個等級值中最高的,根據(jù)公式(8)計算這個學生利用預測算法對其綜合成績等級評定為中等。同理,對學生B進行成績(表1中的第5列)評定得出的結(jié)果也是中等。 采用常規(guī)的加權(quán)均值法(公式9)對學生進行成績預測,就能得出學生A的成績?yōu)榈燃墷颍案瘢?,學生B的成績?yōu)榈燃墷螅ㄖ械龋?,但是卻與學生實際的成績情況不符了。同時從預測后的學生整體成績可以看出,雖然部分學習科目(如升學成績、中學分科考試、中學聯(lián)考成績、中學社會實踐等)學生B的成績高于學生A,但是偏科比較嚴重,而學生A各成績間相對穩(wěn)定。綜上可以得出,在學生綜合成績測評時,預測算法相對于績效均值方法更加優(yōu)越。 常見的加權(quán)均值法和均值法如下: (9) (10) 式中x1,x2,x3,…xn是各學習類目的成績,n是所學類目的數(shù)目,ωi是通過第i門類目后獲得的成績。 五、模型應用
六、總結(jié)
本文針對教育區(qū)塊鏈中的大數(shù)據(jù)分析方法,提出了建立教育區(qū)塊鏈,并進行大數(shù)據(jù)分析的算法解決方案。首先定義了教育區(qū)塊鏈的構(gòu)建以及教育區(qū)塊鏈的數(shù)據(jù)結(jié)構(gòu),接著給出了教育區(qū)塊鏈的數(shù)據(jù)產(chǎn)生與采集分析清洗方法,然后給出了大數(shù)據(jù)分析的算法,最后給出了評價結(jié)果,進而說明使用本文采用的方法的效果與實際應用。
當然,本文還存在著許多不足之處,教育區(qū)塊鏈搭建以及大數(shù)據(jù)分析算法都有待進行更多的運營實踐去檢驗。因此,利用教育區(qū)塊鏈技術(shù),改善教育教學資源投入、提升科教水平將是未來很好的研究方向。
參考文獻:
[1]王芳.大數(shù)據(jù)分析下的教育成績分析[J].時代教育,2015(06).
[2]孫華富.漫談教育教學體系中的大數(shù)據(jù)分析[J].中小學教學研究,2013(09).
[3]韓艷敏,鄭衛(wèi)榮,張楊,等.混合式學習中預測學習績效的教育大數(shù)據(jù)分析研究[J].教育現(xiàn)代化,2018(06).
[4]胡火星.大數(shù)據(jù)及其關(guān)鍵技術(shù)的教育應用實證分析[J].遠程教育雜志,2015(05).