摘要:公平數(shù)據(jù)匯總是指從每種數(shù)據(jù)類別中選擇有代表性的子集,且滿足公平性要求。在大數(shù)據(jù)時代,每種類別的數(shù)據(jù)都是海量的,因此公平數(shù)據(jù)匯總研究具有非常重要的現(xiàn)實意義。為了使公平數(shù)據(jù)匯總的數(shù)據(jù)點更具有代表性,提出了基于k-center聚類和最近鄰中心的公平數(shù)據(jù)匯總算法。算法主要包括2個基本步驟:(1)通過k-center聚類,將k個簇中心作為當前匯總結(jié)果;(2)選擇滿足公平約束的原簇中心的最近鄰點作為新簇中心。由于更新簇中心時選擇的是原簇中心的最近鄰點,因此相對隨機選擇的數(shù)據(jù)點,最近鄰點更具有代表性,是除原始簇中心外的次優(yōu)代表點。同時,尋找最近鄰點作為新的簇中心能最大限度減少公平代價。在2個模擬數(shù)據(jù)集和6個UCI真實數(shù)據(jù)集上的對比實驗結(jié)果表明,所提出的算法在近似因子和公平代價方面都優(yōu)于對比算法,說明所提出的算法獲得的數(shù)據(jù)匯總更具有代表性。
關(guān)鍵詞:最近鄰點;k-center聚類;數(shù)據(jù)匯總;公平約束
中圖分類號:TP311.1文獻標志碼:A文章編號:1673-5072(2025)01-0095-09
Fair Data SummarizationBased on k-Center Clustering and Nearest Neighbor Center
Abstract:The fair data summarization refers to selecting representative subset from each data category and satisfying the fairness requirement.In the era of big data,each category may contain a large volume of data,so the research into fair data summarization is of great practical importance.To enhance the representativeness of data points in data summarization,we proposed a fair data summarization algorithm based on k-center clustering and nearest neighbor center.The algorithm mainly consists of two basic steps:(1)" K centers are taken as the current summarization result via" k-center clustering;(2) The nearest neighbors of the original cluster centers that satisfy the fairness constraints are selected as the new cluster centers.Because nearest neighbors are selected as new cluster centers,they are more representative compared to data points selected randomly,and they are also suboptimal representative points besides the original cluster centers.Moreover,selecting nearest neighbor points as new cluster centers can minimize the fairness cost.The comparison results on 2 simulated datasets and 6 real UCI datasets show that the proposed algorithm outperforms the compared algorithm in terms of approximation factors and fair cost,indicating that the data summarization obtained by the proposed algorithm is more representative.
Keywords:the nearest neighbor point;k-center clustering;data summarization;fairness constraint
隨著互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的高速發(fā)展,生產(chǎn)和生活中產(chǎn)生的大量數(shù)據(jù)都已經(jīng)實現(xiàn)了數(shù)字化存儲和傳播。海量的數(shù)據(jù)可以劃分成不同的類別,每個類別同樣也包含大量的數(shù)據(jù)。在檢索某個類別數(shù)據(jù)時,檢索者只希望獲得該類別具有代表性的數(shù)據(jù),為了獲得不同類別數(shù)據(jù)具有代表性的數(shù)據(jù)點,數(shù)據(jù)匯總技術(shù)應運而生。數(shù)據(jù)匯總就是在大數(shù)據(jù)集里找到一個能夠近似代表整個數(shù)據(jù)集的子集,可以將簇中心集看作數(shù)據(jù)的一個匯總。研究者主要基于現(xiàn)有的計算機技術(shù)來進行數(shù)據(jù)匯總,Hesabi等[1]總結(jié)了常被用于數(shù)據(jù)匯總的方法,如:聚類、采樣、壓縮和直方圖等。然而,因為數(shù)據(jù)集本身存在偏差,從而導致數(shù)據(jù)匯總結(jié)果存在偏見[2],在某些屬性上沒有體現(xiàn)公平性,例如,Ali等[3]發(fā)現(xiàn)在Facebook上85%的超市收銀員招聘廣告是針對女性,74%出租車司機的職位是針對黑人男性;Cowgill[4]發(fā)現(xiàn),在自動招聘系統(tǒng)中,有著相同工作能力但畢業(yè)于非精英大學的人獲得工作的機會減少了12%;Kay等[5]發(fā)現(xiàn),在谷歌中搜索圖片的關(guān)鍵詞為“CEO”時,在搜索結(jié)果中,男性的比例遠高于實際生活中的比例。為消除返回結(jié)果中的不公平性,研究者們在機器學習算法中引入了公平性概念[6]。到目前為止,算法公平性主要分為:反分類公平性(Anti-classifcation)[7]、個體公平性(Individual Fairness)和群體公平性(Group Fairness)[8]。目前應用最廣泛的是群體公平性,它基于DI(Disparate Impact)理論[9],即任何受保護組中的數(shù)據(jù)對象都不應受到?jīng)Q策系統(tǒng)結(jié)果的不利影響[10]。Chierichetti等[11]應用DI理論給出了公平定義,每個受保護組在每個簇中的比例應該接近在整個數(shù)據(jù)集中的比例。這里受保護組也稱敏感屬性組,若敏感屬性是性別,則有男性組和女性組兩個敏感屬性組?;谠摴蕉x,研究者們提出或改進了一系列公平算法[12-17]。其中,Schmidt等[12]和Rsner等[13]將文獻[11]的公平定義推廣到了多于兩個敏感屬性組的聚類問題中。Bera等[18]也將文獻[11]的公平定義進行了推廣,只要在完成聚類的簇中敏感屬性組所占比例在指定的上下界范圍內(nèi)就認為結(jié)果是公平的。
2018年,Celis等[19]在數(shù)據(jù)匯總中引入了公平性概念,通過在DDP(Determinantal Point Processes)[20]中嵌入敏感屬性的分布概率來實現(xiàn)公平數(shù)據(jù)匯總??紤]到有時在輸出結(jié)果中,敏感屬性組的比例應該與輸入數(shù)據(jù)集中的比例相同,但有時為了逆轉(zhuǎn)人們的刻板印象(例如認為CEO等職位都為男性),又要求在輸出結(jié)果中敏感屬性組比例要相等。Celis等[19]整合了以上兩種情況,定義了一種新的公平約束,從不同敏感屬性組中選擇指定數(shù)量的數(shù)據(jù)點作為輸出結(jié)果。2019年,Kleindessner等[21]將文獻[19]的公平定義推廣到了k-center聚類算法中,將公平k-center聚類獲得的簇中心集視為一個公平數(shù)據(jù)匯總,將為不同敏感屬性組指定的匯總點數(shù)量作為公平約束。2022年,Angelidakis等[22]推廣了文獻[19]的公平約束,規(guī)定不同敏感屬性組的匯總點數(shù)量必須在指定上下界范圍內(nèi)。
但是上述算法在實現(xiàn)公平約束時,是通過隨機的方式選擇數(shù)據(jù)點作為新的簇中心,這種方式使得k-center聚類結(jié)果不是最優(yōu)解,造成新的簇中心代表性不強。文獻[21]的算法雖然在數(shù)據(jù)匯總結(jié)果中實現(xiàn)了公平性,但是卻提高了公平代價。針對該問題,本研究對文獻[21]的算法進行改進,提出了基于k-center聚類和最近鄰中心的公平數(shù)據(jù)匯總算法,其主要改進思想是在實現(xiàn)公平約束時,選擇更具代表性的點作為簇中心,即選擇原簇中心周圍滿足公平約束的最近鄰點作為新簇中心,這比隨機選擇獲得的簇中心更具有代表性,同時能最大限度減少為了實現(xiàn)公平約束時的公平代價。
1公平數(shù)據(jù)匯總算法
1.1k-center聚類
設S是有限的數(shù)據(jù)集,d∶S×S→R0是S上的距離度量,k∈Ζ+給定的參數(shù)是簇中心,本文用歐氏距離來度量兩個數(shù)據(jù)點之間的距離,因此d滿足三角不等式。k-center聚類的代價函數(shù)如下:
式中,C0表示預先指定的初始中心,集Ci表示簇中心,Kleindessner等[21]通過改進Gonzalez等[23]提出的2-近似算法來解決該將k-center聚類應用到數(shù)據(jù)匯總中,在某些應用場景中預先指定部分能出現(xiàn)在匯總結(jié)果中的問題,具體內(nèi)容如算法1所示。
算法1k-center聚類算法。
1.2基于k-center聚類和最近鄰中心的公平數(shù)據(jù)匯總
輸出的簇中心集作為匯總點,而在公平數(shù)據(jù)匯總中要考慮敏感屬性組之間的平衡,使得匯總結(jié)果是公平的,即輸出的簇中心集在敏感屬性上滿足公平約束。圖1和圖2展示了兩者之間的不同。假設本次公平數(shù)據(jù)匯總中規(guī)定2個敏感屬性組的公平約束分別為2、1個。圖1因為沒有考慮敏感屬性組,傳統(tǒng)的數(shù)據(jù)匯總直接通過k-center聚類得到簇L1、L2、L3的簇中心分別是a、b、c。圖2考慮到敏感屬性組,在公平約束下得到的簇中心集合是a、d、c,其中d不是原來的簇中心。
k-center聚類是實現(xiàn)數(shù)據(jù)匯總的有效算法,該算法獲得的簇中心都是簇內(nèi)最具有代表性的點,但不一定滿足公平性。在基于k-center聚類和最近鄰中心的公平數(shù)據(jù)匯總中,為了滿足公平性,在簇內(nèi)選擇數(shù)據(jù)點替換原來的簇中心時,滿足公平約束條件的數(shù)據(jù)點可能不止一個。因為最近鄰點是與簇中心點相似度最大或者距離最近的點,所以最近鄰點是除簇中心外最能代表該簇的點??傊?,為了滿足公平性,選擇簇中心的最近鄰點替換簇中心,能夠得到一個具有代表性的公平數(shù)據(jù)匯總。
因此,利用最近鄰來更新簇中心的主要思想可以概括為:運行算法1后,考慮仍然不滿足公平約束的敏感組,其中一部分敏感組目前的簇中心數(shù)一定大于公平約束,一部分敏感組目前的簇中心數(shù)一定小于公平約束,這時就需要減少前者的簇中心數(shù),增加后者的簇中心數(shù)。通過圖3的方法,構(gòu)造有向無權(quán)圖G,找到圖中簇中心數(shù)大于公平約束的敏感組到簇中心數(shù)小于公平約束的敏感組之間的最短路徑,任選其中一條路徑進行中
根據(jù)算法思想,最近鄰中心算法的具體實現(xiàn)如算法2所示。
算法2最近鄰中心算法。
S′中包含的敏感組數(shù)量少于m,對新數(shù)據(jù)集S′調(diào)用算法1,再調(diào)用算法2,每次調(diào)用都會減少S′中的敏感組數(shù)量,如此反復直到得到Γ為空,則完成整個數(shù)據(jù)集S的公平數(shù)據(jù)匯總操作。具體內(nèi)容如算法3所示。
算法3基于k-center聚類和最近鄰中心的公平數(shù)據(jù)匯總算法。
2實驗與結(jié)果分析
2.1實驗評價指標
為驗證本文算法的有效性,分別在文獻[21]設置的模擬數(shù)據(jù)集和UCI真實數(shù)據(jù)集上進行實驗評估,并與文獻[21]的算法進行比較。兩個算法都設置相同的數(shù)據(jù)集和敏感屬性組數(shù)量m,初始中心的個數(shù)|C0|,敏感屬性組Si和對應的公平約束ki。
公平代價(Cost)是式(2)的收斂值。在滿足公平約束的情況下,公平代價值越小,表示聚類效果越好,且選擇的公平匯總點越具有代表性,反之,聚類效果越差,且公平匯總點代表性越差。近似因子(Approximation Factor)是式(2)收斂值與式(1)最優(yōu)值的比值,其值大于等于1,越接近1表示收斂值越接近最優(yōu)值,聚類效果好,且選擇的公平匯總點越具有代表性。實驗中能夠計算得到模擬數(shù)據(jù)集的k-center聚類代價函數(shù)的最優(yōu)解,所以選用近似因子衡量在模擬數(shù)據(jù)集上的數(shù)據(jù)匯總效果。而對于真實數(shù)據(jù)集,由于無法計算得到k-center聚類代價函數(shù)的最優(yōu)解,因此采用公平代價衡量數(shù)據(jù)匯總效果。k-center聚類中,不同的初始點會導致最終聚類結(jié)果不一樣,為了更完整地展示算法數(shù)據(jù)匯總性能,采用箱線圖來展示,每組箱線圖都包含了200次實驗結(jié)果。為了表示方便,將本文的算法簡稱為NFK(Nearest Neighbor Fair k-center),文獻[21]的算法簡稱為FK(Fair k-center)。
2.2模擬數(shù)據(jù)集上的近似因子對比
模擬數(shù)據(jù)集包括模擬數(shù)據(jù)集1和模擬數(shù)據(jù)集2。由于k-center聚類算法通過度量矩陣進行聚類,因此模擬數(shù)據(jù)集1通過ER隨機圖模型[24]模擬產(chǎn)生n個點的度量矩陣D以及每個點所屬敏感屬性組。度量矩陣中任意2個點之間的距離是0~100范圍內(nèi)均勻產(chǎn)生的隨機數(shù),點所屬敏感屬性組也是隨機產(chǎn)生,即如果m個敏感屬性組,那么對每個數(shù)據(jù)點隨機產(chǎn)生1~m范圍內(nèi)的整數(shù)標記該點所屬的組。
模擬數(shù)據(jù)集1只包含25個點,因此可以通過窮盡算法得到k-center聚類代價函數(shù)的最優(yōu)值。實驗中隨機選擇初始中心集C0,設置了不同m、|C0|、ki進行對比,進行了7組對比實驗,具體設置為:
(1)m=2,|C0|=2,(k1,k2)=(2,2);(2)m=2,|C0|=2,(k1,k2)=(4,2);
(3)m=3,|C0|=2,(k1,k2,k3)=(2,2,2);(4)m=3,|C0|=1,(k1,k2,k3)=(5,1,1);
(5)m=4,|C0|=0,(k1,k2,k3,k4)=(2,2,2,2);(6)m=4,|C0|=0,(k1,k2,k3,k4)=(3,3,1,1);
(7)m=5,|C0|=0,(k1,k2,k3,k4,k5)=(2,2,2,1,1)。
圖4展示了NFK和FK算法在7組參數(shù)設置情況下的近似因子對比。從整體可以看出,兩種算法得到的近似因子都比較低,極大值都小于2,中位數(shù)幾乎都低于1.5,說明小數(shù)據(jù)集在滿足公平約束的情況下,NFK算法和FK算法獲得的公平數(shù)據(jù)匯總接近傳統(tǒng)k-center聚類獲得的最優(yōu)數(shù)據(jù)匯總結(jié)果,說明兩種算法選擇的數(shù)據(jù)匯總點都比較接近聚類中心點,代表性比較強,兩種算法在小數(shù)據(jù)集上都能找到較好的次優(yōu)解。具體觀察每組箱線圖,第1組和3組中NFK和FK的極大值、中位數(shù)接近;第2組、4組、6組和7組表明NFK的中位數(shù)低于FK的中位數(shù),但其中第2組和第4組中NFK和FK極大值接近,第6組和第7組NFK的極大值明顯小于FK;第5組NFK的中位數(shù)、極大值略高于FK。這說明在小數(shù)據(jù)集上,NFK的數(shù)據(jù)匯總略好于FK,但不明顯。
模擬數(shù)據(jù)集2包含10 100個點,屬于大數(shù)據(jù)集,其產(chǎn)生方式為:首先指定100個簇中心點,(i,j)∈R2,i, j=0,…,9,在每個中心點周圍0~0.5距離范圍內(nèi)均勻分布產(chǎn)生10 000個點,構(gòu)成100個簇;然后將數(shù)據(jù)集中每個點隨機分配給m個敏感屬性組。實驗時,隨機選擇第一個初始中心點作為初始中心集。由于每個簇中的點距離簇中心的最大距離為0.5,因此根據(jù)公式(1)可得k-center聚類代價函數(shù)的最優(yōu)值為0.5。
圖5展示了NFK和FK算法在不同m情況下的近似因子對比。從整體來看,將圖4和圖5的近似因子作比較,模擬數(shù)據(jù)集2實驗得到近似因子比模擬數(shù)據(jù)集1的更大,其原因是隨著數(shù)據(jù)量的增加,為了滿足公平約束,越來越難以選擇簇中心作為代表點,造成公平代價函數(shù)的值會增長很大。說明隨著數(shù)據(jù)量的增加,獲得有代表性的公平數(shù)據(jù)匯總越難。另外,從圖5中可以看出,隨著敏感屬性組數(shù)量的增加,兩種算法的近似因子都在非常緩慢增長,說明敏感屬性組越多,獲得有代表性的公平數(shù)據(jù)匯總也將越難。對比兩種算法可以看出,NFK算法整體表現(xiàn)遠遠優(yōu)于FK算法,NFK每一組的箱線圖中極大值、上四分位數(shù)、中位數(shù)和下四分位數(shù)都明顯低于FK,NFK算法的近似因子極大值不大于2.1,中位數(shù)近似于1.7,而FK算法中除第7組和15組外近似因子極大值都大于2.1,除第1組和2組外中位數(shù)近似于1.8。其原因在于NFK算法選擇的公平匯總點比FK算法更接近k-center聚類的簇中心,從而獲得更低的近似因子。說明在數(shù)據(jù)量更大時,NFK算法比FK算法更有優(yōu)勢,獲得公平數(shù)據(jù)匯總點更具有代表性。
2.3真實數(shù)據(jù)集的公平代價對比
選取4個常被用于測試公平聚類算法的UCI真實數(shù)據(jù)集來測試本文算法。4個數(shù)據(jù)集分別是:(1)Adult數(shù)據(jù)集,包含25 000條1994年美國人口普查的相關(guān)數(shù)據(jù);(2)Bank數(shù)據(jù)集,包含4000條葡萄牙某銀行機構(gòu)的電話營銷活動相關(guān)數(shù)據(jù);(3)Creditcard數(shù)據(jù)集,包含我國臺灣省某信用卡30 000個持卡人的信息;(4)Census1990數(shù)據(jù)集,包含40 000條1990年美國人口普查的相關(guān)記錄;(5) Diabetes數(shù)據(jù)集,包含768名皮馬印第安人糖尿病數(shù)患者的信息,記錄他們的血糖、血壓、年齡、BMI和皮膚厚度等特征;(6) Student數(shù)據(jù)集,包含649條葡萄牙學生在中等教育階段的成績、人口統(tǒng)計、社會和學校相關(guān)屬性。每個數(shù)據(jù)集的聚類屬性和敏感屬性如表1所示。
針對每個數(shù)據(jù)集進行4組實驗,對每個真實數(shù)據(jù)集設置了不同的初始中心數(shù)|C0|和公平約束ki,i=1,…,m。
針對Adult數(shù)據(jù)集初始中心數(shù)|C0|都設置為100,其他參數(shù)設置分別為:(1)m=2,ki=50;(2)m=2,ki=170;(3)m=5,ki=20;(4)m=5,ki=140。
針對Bank數(shù)據(jù)集初始中心數(shù)|C0|都設置為10,其他參數(shù)設置分別為:(1)m=3,ki=10;(2)m=3,ki=70;(3)m=4,ki=10;(4)m=4,ki=70。
針對Creditcard數(shù)據(jù)集初始中心數(shù)|C0|都設置為100,其他參數(shù)設置分別為:(1)m=2,ki=20;(2)m=2,ki=170;(3)m=5,ki=30;(4)m=5,ki=110。
針對Census1990數(shù)據(jù)集初始中心數(shù)|C0|都設置為10,其他參數(shù)設置分別為:(1)m=2,ki=20;(2)m=2,ki=140;(3)m=8,ki=30;(4)m=8,ki=160。
針對Diabetes數(shù)據(jù)集初始中心數(shù)|C0|都設置為0,其他參數(shù)設置分別為:(1)m=2,ki=10;(2)m=2,ki=20;(3)m=2,ki=40;(4)m=2,ki=50。
針對Student數(shù)據(jù)集初始中心數(shù)|C0|都設置為0,其他參數(shù)設置分別為:(1)m=2,ki=10;(2)m=2,ki=20;(3)m=2,ki=15;(4)m=2,ki=30。
圖6為NFK和FK算法在真實數(shù)據(jù)集上的公平代價對比。可以看出,無論在哪個數(shù)據(jù)集上,NFK算法的公平代價都優(yōu)于FK算法。具體而言,NFK算法的箱線圖盒體長度大多小于FK算法,說明NFK算法得到的實驗結(jié)果波動程度比FK更小,NFK算法穩(wěn)定性更強;NFK獲得的每一組箱線圖中的極大值、上四分位數(shù)、中位數(shù)大多數(shù)都低于FK,特別是在Adult、Bank和Student數(shù)據(jù)集上表現(xiàn)更明顯,說明NFK選擇的公平數(shù)據(jù)匯總點距離聚類中心近,更具有代表性。另外,兩種算法在敏感屬性組個相同的數(shù)情況下,每組選擇的代表點數(shù)越多,其公平代價越小,這與公平代價計算公式1和2的意義是一致的。
3結(jié)束語
k-center聚類是實現(xiàn)公平數(shù)據(jù)匯總的有效算法,k-center聚類得到的簇中心集能夠被視為原始數(shù)據(jù)集的一個匯總,是整個數(shù)據(jù)集具有代表性的子集。要獲得公平的數(shù)據(jù)匯總,則需要替換部分簇中心,這將降低簇中心集匯總點的代表性。為解決該問題,本文提出了基于k-center聚類和最近鄰中心的公平數(shù)據(jù)匯總算法,在更新策略中通過選擇簇中心的最近鄰點作為新簇中心,本算法能夠為數(shù)據(jù)集生成一個更具代表性的公平數(shù)據(jù)匯總。在多個數(shù)據(jù)集的實驗結(jié)果表明,NFK算法明顯提高了公平數(shù)據(jù)匯總的代表性,有效降低了公平代價。由于NFK算法選擇最近鄰點比隨機選擇點需要耗費更多的計算時間,在進一步的研究中,如果數(shù)據(jù)集比較大時,可以考慮采用KD樹搜索最近鄰點從而提高計算速度。
參考文獻:
[1]HESABI Z R,TARI Z,GOSCINSKI A,et al.Data summarization techniques for big data-a survey[M]//Handbook on Data Centers.Berlin,German:Springer,2015 (7):1109-1152.
[2]MEHRABI N,MORSTATTER F,SAXENA N,et al.A survey on bias and fairness in machine learning[J].ACM Computing Surveys,2021,54(6):1-35.
[3]ALI M,SAPIEZYNSKI P,BOGEN M,et al.Discrimination through optimization:how Facebook’s Ad delivery can lead to biased outcomes[C]// Proceedings of the ACM on human-computer interaction.New York:ACM,2019:1-30.
[4]COWGILL B.Bias and productivity in humans and algorithms:theory and evidence from resume screening [EB/OL].(2020-03-21)[2023-07-03].https://api.semanticscholar.org/CorpusID:209431458.
[5]KAY M,MATUSZEK C,MUNSON S A.Unequal representation and gender stereotypes in image search results for occupations[C]// Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems.New York:ACM ,2015:3819-3828.
[6]DWORK C,HARDT M,PITASSI T,et al.Fairness through awareness[C]// Proceedings of the 3rd Innovations in Theoretical Computer Science Conference.Cambridge,Massachusetts:Association for Computing Machinery,2012:214-226.
[7]張貴紅,鄧克濤.社會化研究框架下算法公平性的實現(xiàn)策略研究[J].科學學研究:2024,42(2):248-255.
[8]TSAMADOS A,AGGARWAL N,COWLS J,et al.The ethics of algorithms:key problems and solutions[J].Ethics,Governance,and Policies in Artificial Intelligence,2021(144):97-123.
[9]FELDMAN M,F(xiàn)RIEDLER S A,MOELLER J,et al.Certifying and removing disparate impact[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2015:259-268.
[10]徐夏.公平聚類算法研究[D].綿陽:西南科技大學,2022.
[11]CHIERICHETTI F,KUMAR R,LATTANZI S,et al.Fair clustering through fairlets [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach,California,USA:Curran Associates Inc.2017:5036-5044.
[12]SCHMIDT M,SCHWIEGELSHOHN C,SOHLER C.Fair coresets and streaming algorithms for fair k-means[C]// Approximation and Online Algorithms:17th International Workshop.Berlin,Germany:Springer,2020:232-251.
[13]RSNER C,SCHMIDT M.Privacy preserving clustering with constraints [C]// 45th International Colloquium on Automata,Languages,and Programming (ICALP 2018).Germany:Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik,2018:96:1-96:14.
[14]CHEN X,F(xiàn)AIN B,LYU L,et al.Proportionally fair clustering[C]// Proceedings of the 36th International Conference on Machine Learning.New York:Curran Associates,2019:1032-1041.
[15]AHMADIAN S,EPASTO A,KUMAR R,et al.Fair correlation clustering[C]// International Conference on Artificial Intelligence and Statistics.New York:PMLR,2020:4195-4205.
[16]JONES M,NGUYEN H,NGUYEN T.Fair k-centers via maximum matching[C]// Proceedings of the 37th International Conference on Machine Learning.New York:ACM,2020:4940-4949.
[17]徐夏,張暉,楊春明,等.公平譜聚類方法用于提高簇的公平性[J].計算機科學,2023,50(2):158-165.
[18]BERA S,CHAKRABARTY D,F(xiàn)LORES N,et al.Fair algorithms for clustering [C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems.New York:Curran Associates Inc,2019:4954-4965.
[19]CELIS E,KESWANI V,STRASZAK D,et al.Fair and diverse DPP-based data summarization[C]// International Conference on Machine Learning.New York:ACM,2018:716-725.
[20]KULESZA A,TASKAR B.k-DPPs:fixed-size determinantal point processes[C]// Proceedings of the 28th International Conference on Machine Learning (ICML-11).New York:ACM,2011:1193-1200.
[21]KLEINDESSNER M,AWASTHI P,MORGENSTERN J.Fair k-center clustering for data summarization[C] // Proceedings of the 36th International Conference on Machine Learning.New York:ACM,2019:3448-3457.
[22]ANGELIDAKIS H,KURPISZ A,SERING L,et al.Fair and Fast k-Center Clustering for Data summarization[C]// International Conference on Machine Learning.New York:ACM,2022:669-702.
[23]GONZALEZ T F.Clustering to minimize the maximum intercluster distance[J].Theoretical Computer Science,1985,38:293-306.
[24]HASTIE T,TIBSHIRANI R,F(xiàn)RIEDMAN J H,et al.The elements of statistical learning:data mining,inference,and prediction[M].New York:Springer,2009.