龍 琦
(云南國防工業(yè)職業(yè)技術學院傳媒與信息工程學院,云南昆明650223)
基于k-匿名技術的學生成績數(shù)據(jù)發(fā)布研究
龍 琦
(云南國防工業(yè)職業(yè)技術學院傳媒與信息工程學院,云南昆明650223)
采用k-匿名模式對學生成績的發(fā)布進行控制,在學籍管理系統(tǒng)中實現(xiàn)了對學生成績的隱私保護.
數(shù)據(jù)挖掘;隱私保護;k-匿名;學生成績數(shù)據(jù)發(fā)布
現(xiàn)在數(shù)據(jù)挖掘技術已成功地應用于教學領域,利用這項技術可以對學生來源,在校學習狀況,進行分析、并預測學生畢業(yè)后的發(fā)展方向,更重要的是能對學校的辦學模式、招生計劃、專業(yè)設置、教學方法改進等方面起到積極的指導作用[1].由于在對學生的成績分析時涉及到學生的個人隱私,而學校對學生進行管理的專業(yè)人員對數(shù)據(jù)進行分析和處理的能力有限,有時數(shù)據(jù)只能送給數(shù)據(jù)分析方面的專業(yè)人員分析處理以便發(fā)現(xiàn)其中寶貴的教育、教學規(guī)律[2-3].因而學校、科研機構在將數(shù)據(jù)交給數(shù)據(jù)分析人員時必須考慮對數(shù)據(jù)進行必要的處理,保護學生的個人隱私.
基于k-匿名的隱私保護技術作為一種新興的信息安全技術,與傳統(tǒng)的訪問控制和加密技術有著本質的區(qū)別.訪問控制技術和加密技術的核心思想是保護數(shù)據(jù)的隱秘性,保證它不被非授權的第3方訪問.一般通過切斷從攻擊者到隱秘數(shù)據(jù)的道路(訪問控制)或者使得攻擊者獲得的數(shù)據(jù)變得不可使用(加密技術)來實現(xiàn).攻擊者則以獲得可用的隱秘數(shù)據(jù)為最終目標.而隱私保護技術并不保障數(shù)據(jù)的隱秘性,隱私數(shù)據(jù)完全是對外公開的,甚至任何人都可以訪問,其核心是要保護隱私數(shù)據(jù)與個人之間的對應關系,換句話說就是隱私數(shù)據(jù)可以被任何人得到,但是卻不能把該數(shù)據(jù)對應到某個特定的人身上.從攻擊者的角度看,攻擊的目標是隱私數(shù)據(jù)與個人之間的對應關系[4].
k-匿名模式將數(shù)據(jù)表中的屬性分為4類:
1)標識符.它們直接標識個人身份,如學號、姓名、身份證號碼等;
2)準標識符.間接(可以與其他數(shù)據(jù)表進行鏈接)標識個人身份,如郵政編碼、家庭住址、出生日期等;
3)敏感屬性.包含敏感信息的屬性,如病史,信用記錄等;
4)其他屬性.非準標識符和敏感屬性的標識符,如專業(yè)名稱.
為了保護個人隱私,在數(shù)據(jù)發(fā)布的時候,必須從數(shù)據(jù)表中刪除標識符,但是采用這種的處理方式并不能保護數(shù)據(jù)中的個人隱私,見表1所示.
表1 原始的學生成績數(shù)據(jù)集
在表1中盡管標識符,例如學號、姓名已經(jīng)從數(shù)據(jù)集中刪除,但是一些屬性,如性別、生日和籍貫依然存在于表1中,這些屬性集可以間接的用于分辨?zhèn)€人的信息.這種屬性集被稱為準標識符.Samarati和Sweeney提出一種隱私保護模式:k-匿名模式[5-7].如果數(shù)據(jù)集中的每一個記錄都與至少k-1個關于這個數(shù)據(jù)集中的準標識符屬性記錄相同,那么這個數(shù)據(jù)集滿足k-匿名,這個數(shù)據(jù)集就被稱為k-匿名數(shù)據(jù)集.這樣在k-匿名數(shù)據(jù)集中,個人就無法從最少k-1個人群中被分辨出來.
例如,表1中性別、出生日期、籍貫這3個屬性組中,第1個記錄是獨一無二的,因此學生的身份可以被間接的發(fā)現(xiàn).通過這種獨特的組合,學生的個人成績信息就可能被泄漏.為了避免侵犯隱私,表1可以修改為表2.
表2 表1的k-匿名表
在表2中,出生日期被以年的形式分組,籍貫被集束到廣大地區(qū),“*”代表一個任意數(shù)字.一項準標識符中的記錄至少與其他3個記錄相同,因此,沒有任何個人可以被識別.
由于k-匿名模式的簡潔性和適用于多種算法的特性,k-匿名模式在數(shù)據(jù)發(fā)布中變得非常流行.
現(xiàn)在已有很多學校意識到學生成績屬于學生個人隱私,學生個人的隱私應得到保護和尊重,在對學生成績進行發(fā)布時,主要采用了以下的一些保護措施:
1)采用用戶認證方法.分配給學生與教師不同的用戶權限,學生只能查詢個人成績信息,教師可以輸入或查詢所授班級學生的成績信息.在查詢學生成績時,需輸入個人學號、考號、身份證號、密碼等個人身份認證信息,這種以對訪問者授權為前提的用戶認證方法,有效地保證了只有合法的用戶才能存取數(shù)據(jù)庫系統(tǒng)中的資源.學校利用這種方法在對學生成績隱私進行保護時,存在下列問題,學生只能查詢自己的成績,不清楚自己的學習水平,將會失去學習的動力,學號對同班同學是公開的,同一考場的同學根據(jù)座次,很容易推算出同學之間的考號,好友之間可能造成個人的身份證號以及個人密碼泄漏,不能控制教師在獲得學生成績信息后,在不經(jīng)過學生同意的情況下對學生成績數(shù)據(jù)進行分析、發(fā)布;
2)采用隱藏敏感屬性的方法.在發(fā)布學生成績時將學號、姓名屬性隱藏,如表1所示,學生從表1中能知道自己學習所處的水平,而不知道其他同學的學習水平.學校利用這種方法在對學生成績隱私進行保護時,存在下列問題,在表1中,第1個記錄是獨一無二的,因此學生的身份可能被間接的發(fā)現(xiàn).結果,通過這種獨特的組合,學生的個人成績信息就可以被泄漏.
為解決上述方法中存在的隱私泄漏問題,本文擬采用k-匿名技術對學生成績的發(fā)布進行控制.在實現(xiàn)k-匿名的眾多方法中,泛化因其容易實現(xiàn),被廣泛使用,因此本文采用了泛化的方法對學生成績數(shù)據(jù)的發(fā)布進行控制,以達到保護學生個人隱私的目的.
泛化是用1個一般化的屬性值替代1個具體的屬性值.例如,出生日期的“日/月/年”格式用“月/年”格式代替.所有的屬性域都在層次化的結構中.對于屬性來說,擁有較少值的域比擁有較多值的域更加普遍一般.最一般的域只包含了1個值.在典型的關系型數(shù)據(jù)庫系統(tǒng)中,經(jīng)常用域來描述屬性值的集合,比如出生日期域、數(shù)值域、時間域等[8].
k-匿名中泛化的方法分為全局泛化與局部泛化,實驗中將采用這2種方法.
1)全局泛化.將表中某一列內所有值全部進行泛化;
2)局部泛化.不泛化一列內所有值.只泛化相關行中獨特(或重復數(shù)小于k)的值.例如,如果沒有必要,出生日期不泛化.如果需要,出生日可查采用最近組合,例如,1980和1981組合成[1980,1981].在局部泛化中,同一個值可以被泛化為不同的組合.比如,1980可能被泛化為[1980,1981]或[1979,1980].泛化值被界定于最近的可組合值.希望泛化后的區(qū)間小,信息精確.
對數(shù)值屬性,可以按照上面的方法做.因為它們有次序關系.對沒有次序關系的分類數(shù)據(jù)屬性,比如籍貫,論文采用樹型結構規(guī)定他們的泛化次序.
1)數(shù)據(jù)標識.確定原始數(shù)據(jù)中的直接或間接標識個人身份的標識符、準標識符,數(shù)據(jù)發(fā)布中需要保護的對象敏感屬性和其他屬性;
2)全局泛化.采用全局泛化的方法對敏感屬性進行保護,將學生的出生日期的“日/月/年”格式用“月/年”格式代替,將學生的出生日期的“日/月/年”格式用“年”格式代替.分析對出生日期全局泛化后,對敏感屬性保護的效果;
3)局部泛化.采用局部泛化的方法對敏感屬性進行保護,將k值設分別設為2,5,10分別實驗,分析經(jīng)過局部泛化后,對敏感屬性保護的效果;
4)生成XML數(shù)據(jù)文件.Mondrian_Distrib軟件包的k-匿名算法(Anonymizer)處理的數(shù)據(jù)文件為XML,因此,需將泛化后的數(shù)據(jù)轉換為XML數(shù)據(jù)文件;
5)k-匿名處理.用Mondrian_Distrib的Anonymizer算法對第4步生成的XML數(shù)據(jù)文件進行k-匿名處理.
數(shù)據(jù)來源于學校學籍管理軟件的數(shù)據(jù)庫系統(tǒng),硬件環(huán)境為Intel 3GHz CPU,4GB內存;軟件環(huán)境為Linux操作系統(tǒng);本文用到的k-匿名軟件包為Mondrian_Distrib[9].
在數(shù)據(jù)集中分別取50,150個記錄作為本文的初始表.選擇k=2,5,10時,應用k-匿名算法得到泛化后的表,進行比較,分析結果見表3.
表3 k-匿名處理后信息表
表3給出了泛化后數(shù)據(jù)精確度和敏感屬性泄漏情況.從表3中可以看出,當記錄數(shù)和k增加時,敏感屬性被識別機率降低.
當給定k值時,不同記錄數(shù)對應的數(shù)據(jù)精確度,數(shù)據(jù)精確度隨記錄數(shù)的增加而增加(見圖1).
k-匿名處理后,當記錄數(shù)相同時,k值增大,數(shù)據(jù)精確度降低(見圖2).
當記錄數(shù)相同,k值增大,敏感屬性最大識別率降低,保密性增大(見圖3).
泛化表中用數(shù)據(jù)精確度作為衡量數(shù)據(jù)泛化表質量的一個標準.以上分析結果說明,k=10表的質量比k=2的質量差.但k=10表的保密性比k=2的質量好.質量和保密性的要求是矛盾的,在應用中,這2個要求需要平衡.質量同數(shù)據(jù)表的大小也有關,給定同樣的k值,用同樣的泛化方法,大數(shù)據(jù)表的質量好,小數(shù)據(jù)表的質量差.在應用中,如何選取k,需要從實際情況出發(fā),平衡數(shù)據(jù)精確度和保密性這2個相互矛盾的需求,選取一個適合的k值.
記錄數(shù)經(jīng)重復抽樣到5 000,10 000,15 000,20 000,然后再隨機行間交換.
1)時間與數(shù)據(jù)大小的關系.參數(shù)設置:準標識符=5,k=10,記錄數(shù)和執(zhí)行時間實驗結果,如表4.
表4 記錄數(shù)不同時對應的執(zhí)行時間(準標識符=5,k=10)
當準標識符,k值取值不變時,記錄數(shù)增大,相應的執(zhí)行時間增長(見圖4).
2)時間與準標識符大小的關系.參數(shù)設置:記錄數(shù)=10 000,k=10,準標識符數(shù)目和執(zhí)行時間實驗結果,如表5.
表5 不同準標識符數(shù)對應的執(zhí)行時間(記錄數(shù)=10 000,k=10)
準標識符數(shù)目增大,相應的執(zhí)行時間增長(見圖5).
3)時間與 k的關系.參數(shù)設置:記錄數(shù)=10000,準標識符=5,k和執(zhí)行時間,實驗結果見表6所示.
表6 不同k值對應的執(zhí)行時間(記錄數(shù)=10 000,準標識符=5)
當數(shù)據(jù)量相同時,k值取值增大,相應的執(zhí)行時間增長(見圖6).
1)數(shù)據(jù)量少的表,k-匿名處理后會失去一定信息,比如,籍貫失去.要保住籍貫信息.同一個地方的學生數(shù)要至少大于k.因此最好發(fā)布數(shù)據(jù)量大的表,可以保證保護個人隱私的數(shù)據(jù)的有用.
2)k-匿名處理后表的精確度質量和敏感屬性保護質量是相互矛盾的.在應用中,這2個要求需要平衡.
3)精確度質量與k的取值有關,相同的記錄數(shù),用相同的泛化方法,k值小的質量高,k值大的質量低.
4)精確度質量同數(shù)據(jù)表的大小也有關.給定同樣的k,用同樣的泛化方法,大數(shù)據(jù)表的質量好,小數(shù)據(jù)表的質量差.
5)k-匿名執(zhí)行時間與記錄數(shù)、準標識符數(shù)、k的大小有關,記錄數(shù)、準標識符數(shù),和k的取值增大,都會使執(zhí)行的時間增長.
[1]張翎.概率統(tǒng)計方法在教學研究中的應用[J].云南民族大學學報:自然科學版,2007,16(4):368-369.
[2]張寒云,段鵬,丁欽華.基于關聯(lián)規(guī)則的課程拓撲排序研究[J].云南民族大學學報:自然科學版,2009,18(2):177-179.
[3]楊春華,楊玲.高校畢業(yè)生就業(yè)競爭力分析[J].云南師范大學學報:自然科學版,2009,29(5):39 -45.
[4]劉喻,呂大鶴,馮建華,等.數(shù)據(jù)發(fā)布中的匿名化技術研究綜述[J].計算機應用,2007,27(10):2 361-2 364.
[5]SWEENEY L.k-anonymity:a model for protecting privacy[J].International journal on uncertainty,F(xiàn)uzziness and knowledge based systems,2002,10(5):557 -570.
[6]SAMARATIP,SWEENEY L.Generalizing data to provide anonymity when disclosing information(Abstract)[C]//Proc.of the 17th ACM SIGACTSIGMOD - SIGART Symposium on the Principles of Database Systems.W A,USA,1998:188.
[7]SAMARATI P.Protecting respondents identities in microdata release[J].IEEE Transactions on Knowledge and Data Engineering,2001,13(6):1 010 -1 027.
[8]岑婷婷,韓建民,王基一,等.隱私保護中k-匿名模型的綜述[J].計算機工程與應用,2008,44(4):130-134.
[9]LEFEVRE K,DEWITT D,RAMAKRISHNAN R.Incognito:Efficient full-domain k -anonymity[C]//Proc of the SIGMOD 05 on Management of Data.New York:ACM,2005:49-60.
(責任編輯莊紅林)
A k-anonymity Study of the Student-Score Publishing
LONG Qi
(School of Media and information Engineering,Yunnan Vocational College of National Defense Technoeogy,Kunming 650223,China)
Data publishing provides support for better decision making,but it might also deprive the people of their privacy.This research adopts the k-anonymity model to control the process of the student-score publishing and uses the k-anonymity technology in the school management system to protect the students’privacy in the student-score publishing.
data mining;privacy protection;k-anonymity;student-score publishing
TP 311
A
1672-8513(2011)02-0144-05
10.3969/j.issn.1672 -8513.2011.02.017
2010-03-06.
龍琦(1974-),女,碩士,講師.主要研究方向:計算機應用與數(shù)據(jù)庫技術.