孔永強,劉金凱,顧佳琪,徐景怡,鄭雨諾,魏以梁,伍少遠,
研究報告
南-北方漢族人、韓國人和日本人遺傳劃分機器學(xué)習(xí)模型優(yōu)化方案
孔永強1,劉金凱1,顧佳琪2,徐景怡1,鄭雨諾2,魏以梁2,伍少遠1,2
1. 天津醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院生物化學(xué)與分子生物學(xué)系,天津市表觀遺傳學(xué)重點實驗室,天津 300070 2. 江蘇師范大學(xué),江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點實驗室,徐州 221116
中國漢族人、韓國人和日本人作為東亞主體人群,其中中國漢族人呈現(xiàn)由北向南的梯度混合,在遺傳結(jié)構(gòu)上存在不同程度的差異。為實現(xiàn)對中國南-北方漢族人、韓國人和日本人的高分辨率遺傳劃分,本研究收集和分析了文獻報道和實驗室前期數(shù)據(jù)篩選出的1185個東亞人群祖先信息性SNPs (ancestry informative SNPs, AISNPs),應(yīng)用softmax與隨機森林兩種機器學(xué)習(xí)算法構(gòu)建族群遺傳劃分模型,然后利用系統(tǒng)發(fā)育樹、STRUCTURE和主成分分析方法進一步評估不同模型AISNPs位點組合的族群分類效果,最終篩選出234-AISNP的最優(yōu)組合,softmax模型準確率為92%,實現(xiàn)了南方漢族人、北方漢族人、韓國人和日本人的高精度區(qū)分。本研究測試的兩種機器學(xué)習(xí)算法模型為近距離人群的高分辨率劃分提供了重要參考,可作為法醫(yī)DNA族群推斷體系位點開發(fā)的重要工具。
法醫(yī)遺傳學(xué);祖先信息位點;機器學(xué)習(xí);東亞人群;南北方漢族
在法醫(yī)學(xué)案件偵破過程中,利用不同人群之間等位基因頻率分布差異較大的遺傳標記,即祖先信息標記(ancestry informative markers, AIMs),進行種族地域分析,可以縮小嫌疑人的偵查范圍[1]。由于單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)在人類基因組中含量豐富,常用于計算和篩選AIMs,被稱為祖先信息性SNPs (ancestry informative SNPs, AISNPs)[2]。使用AISNP進行的群體遺傳結(jié)構(gòu)差異分析在醫(yī)學(xué)全基因組關(guān)聯(lián)研究和法醫(yī)生物地理推斷中發(fā)揮著重要作用[3]。在過去10年中,國內(nèi)外已建立了多套常染色體AISNP檢測分析系統(tǒng),用于區(qū)分洲際或洲內(nèi)的族群差異[4~7]。
目前基于DNA的種族地域推斷研究已經(jīng)從非、歐、東亞等洲際大人群的劃分發(fā)展到對各自局部地區(qū)亞人群的精細劃分[8,9]。中國漢族人、韓國人和日本人作為東亞主體人群,外形特征和語言文化極為相似,基因組研究表明這3個群體間的遺傳成分存在細微差異[9,10]。中國漢族作為世界上最大的族群,其早期人類社會活動受到長江地理分隔作用的影響,人群遺傳結(jié)構(gòu)呈現(xiàn)由北向南的梯度混合模式[11]。本研究基于國內(nèi)外對中國漢族、韓國和日本人群遺傳結(jié)構(gòu)研究的相關(guān)成果,集合了1185個AISNP[8~10,12~20],采用機器學(xué)習(xí)算法篩選SNP組合和建立高精度人群劃分模型,以區(qū)分南-北方漢族人、韓國人和日本人。
參考及測試樣本數(shù)據(jù)為全基因組和芯片檢測數(shù)據(jù)。參考數(shù)據(jù)集403份樣本包括:來自千人基因組計劃[21]的105份中國南方漢族樣本、103份中國北京漢族樣本、104份日本樣本和來自韓國個人基因組計劃[22]的91份韓國人樣本(表1)。測試數(shù)據(jù)集199份樣本包括:來自千人基因組新增[23]的58份中國南方漢族樣本,來自人類基因組多樣性計劃[24]的10份中國北方漢族和27份日本樣本,來自西蒙斯基因組多樣性計劃[25]的2份日本樣本和2份韓國樣本,以及來自亞洲多樣性計劃[26](分型基于Affymetrix genome-wide human SNP array 6.0芯片)的100份韓國樣本(表2)。
表1 參考集樣本信息
表2 測試集樣本信息
前期研究和文獻調(diào)研,從12篇文獻[8~10,12~20]及實驗室前期篩選數(shù)據(jù)[27,28]中收集到1185個AISNP (附表1)。文獻研究的人群、數(shù)目及來源見表3。
1.3.1 數(shù)據(jù)類型與處理
通過IBM Aspera v3.0.0[29]從IGSR數(shù)據(jù)庫[30](https://www.internationalgenome.org/data-portal/sample)和韓國個人基因組計劃[22](ftp://biodisk.org/Release/ KPGP/)下載了502份樣本的全基因組數(shù)據(jù),并且從中國科學(xué)院上海生命科學(xué)研究院徐書華課題組[26]獲得了100份樣本的芯片位點數(shù)據(jù)。所有樣本的數(shù)據(jù)類型可分為fastq、cram與vcf格式。其中,參考和測試集中vcf格式數(shù)據(jù)是研究者分別通過GATK流程[22,30,31]和Birdsuite1.5.3[32]分析獲得的。而測試集樣本的fastq和cram格式數(shù)據(jù)是本課題組基于GATK4.1.9.0[33]流程進行質(zhì)控、預(yù)處理和變異檢測,從而獲得不同數(shù)據(jù)庫不同人群的vcf格式數(shù)據(jù)。
1.3.2 數(shù)據(jù)的質(zhì)量控制
分別從參考及測試集樣本的若干個vcf中提取1185個AISNP的基因分型數(shù)據(jù),先去除樣本基因分型缺失率大于10%的SNP,再去除SNP基因分型缺失率大于10%的樣本,最終參考集、測試集數(shù)據(jù)含1128個AISNP,602份樣本。
1.3.3 眾數(shù)填充
測序過程的失誤或其他原因會造成某些樣本的某些SNP的基因分型是缺失即NN的狀態(tài),在共線性診斷及平均降準(mean decrease accuracy, MDA)交叉驗證之前需對這些缺失的基因分型用R v4.0.2的imputeMissings v0.03包[34]進行眾數(shù)填充,即用單人群中該SNP出現(xiàn)頻率最多的基因分型填補。
由于SPSS共線性診斷及R v4.0.2中的softmaxreg v1.2[35]和randomForest v4.6-14[36]兩個包要求變量為數(shù)值型形式,在眾數(shù)填充后需要對基因分型的純合和雜合按照0、1、2進行編碼,人群則按照1-南方漢族、2-北方漢族、3-日本、4-韓國進行編碼。
表3 AISNP收集與來源
利用R4.0.2中g(shù)gtree2.4.2包[37]以參考集、測試集樣本基因分型數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹。
在進行SPSS共線性診斷及MDA交叉驗證挑選SNP和模型評估之前,先進行Hardy-Weinberg平衡檢驗(Hardy-Weinberg equilibrium, HWE)[38]和連鎖不平衡分析(linkage disequilibrium, LD)[39],通過設(shè)置不同的HWE和LDr閾值篩選AISNP組合。借助haploview v4.2[40]進行HWE和LD分析,其中HWE按照值(0~1)進行排序挑點,分別以0.05、0.01和這兩個值的Bonferroni[41]校正值(0.05/1185、0.01/ 1185)為閾值;而LD按照r(0~1),r為1說明完全連鎖,分別以0.8、0.5、0.2、0.1為閾值。
不同人群之間產(chǎn)生的遺傳差異在很大程度上受到遺傳漂變的影響,這就使得群體間差異位點即AISNP的選擇顯得尤為重要。通常研究者基于頻率差異分析技術(shù)進行AISNP的篩選,如Wright’sF值[42]和I值[43](informativeness for assignment, Rosenberg’sIdivergence)。Wright’sF值(0~1)和I值(0~1)都是群體遺傳學(xué)中衡量群體間分化程度的一個重要指標,其大小反應(yīng)了每個AISNP的等位基因頻率在不同人群間的差異程度:
H為總?cè)后w的雜合度(total heterozygosity);H為亞群體的平均雜合度(subpopulations heterozygo-sity)。
為人群,取值=1–;為等位基因,取值= 1–。SNP為雙等位基因,故=1–2。
此外,變量之間的高度相關(guān)性,即多重共線性,會嚴重干擾機器學(xué)習(xí)模型訓(xùn)練的精準度,導(dǎo)致系數(shù)估計的標準誤急劇增加[44,45]。因此,使用SPSS v26共線性診斷[46]篩選SNP組合,可以改進多元變量共線性問題。
與此同時,MDA交叉驗證是隨機森林[47]模型篩選SNP的方案,計算每個SNP的MDA值,并從大到小排序,將SNP逐一納入模型,通過參考集十折交叉驗證計算模型誤差變化曲線,選擇誤差值最低點(±5)的SNP組合[27](圖1)。
機器學(xué)習(xí)算法應(yīng)用于解決目標對象的預(yù)測和分類問題[48,49],通常分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)等。目前常用的監(jiān)督學(xué)習(xí)類型[50]主要包括線性回歸[51]、邏輯回歸[52]、支持向量機(support vector machine, SVM)[53]、決策樹[54]、隨機森林[47]和Adaboost[55]算法等。線性回歸是用來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計方法,如最小二乘法[56]。邏輯回歸是一種廣義的線性回歸分析模型,借助Sigmoid函數(shù)將輸入的變量映射到(0~1)的區(qū)間,解決二分類問題。而softmax函數(shù)[46]是Sigmoid函數(shù)在多分類問題上的推廣,將多維的輸入變量映射成多維向量,而每個向量元素都在(0~1)之間。函數(shù)softmax是非常常用的邏輯回歸模型,建模速度較快,尤其是解決多分類問題,易實現(xiàn)且計算量小、速度快。SVM主要用于解決小樣本的二分類和回歸問題,其基本模型定義為特征空間上的間隔最大的線性分類器,尋找一個滿足分類要求的最優(yōu)分類超平面,使得該超平面在保證分類精度的同時,能夠使超平面兩側(cè)的空白區(qū)域最大化。但SVM算法也存在一些問題,包括訓(xùn)練算法速度慢、算法復(fù)雜而難以實現(xiàn)、測試階段運算量大、抗擊噪聲及孤立點能力差等。
圖1 AISNP的交叉驗證錯誤率
決策樹算法是一大類典型的分類方法,通過一系列規(guī)則對數(shù)據(jù)進行分類,但容易忽略變量間的相互關(guān)聯(lián)并發(fā)生過擬合。而基于決策樹衍生出包括隨機森林、Adaboost、gradient boosting算法等。隨機森林是由很多無關(guān)聯(lián)的決策樹構(gòu)成的,能反饋高維度數(shù)據(jù)中的重要特征值,以及可以平衡誤差和糾正決策樹的過度擬合問題。算法Adaboost是通過訓(xùn)練同一個訓(xùn)練集不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。雖然Adaboost算法具有很高的精度,但是弱分類器數(shù)目不太好設(shè)定并且訓(xùn)練比較耗時,從而導(dǎo)致分類精度下降。Gradient boosting (如GBTD、XGboost)是一類基于梯度boosting的集成學(xué)習(xí)算法,其原理是通過弱分類器的迭代計算實現(xiàn)準確的分類效果,多棵決策樹的所有結(jié)論累加起來作為最終的預(yù)測結(jié)果,可快速運行大規(guī)模數(shù)據(jù),而計算相對耗時。
最后,考慮到本研究是構(gòu)建人群多分類模型,樣本量與數(shù)據(jù)規(guī)模較小,因此在上述機器學(xué)習(xí)算法中分別選擇了最常用且適合小規(guī)模數(shù)據(jù)收斂的softmax回歸算法和決策樹方案的隨機森林算法。
為了確保模型的穩(wěn)定性,在構(gòu)建模型時設(shè)置了隨機數(shù)(set.seed)[57],并使用五次十折交叉驗證方法[58](reateDataPartition函數(shù))。通過將數(shù)據(jù)集樣本分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進行試驗,從而提升模型的準確性。
softmax模型:利用R v4.0.2中的softmaxreg1.2的createDataPartition函數(shù)將參考集樣本按9:1分為訓(xùn)練集和測試集,根據(jù)trainModel函數(shù)并通過設(shè)置隱藏節(jié)點(hidden)和選擇適合的算法(algorithm)等構(gòu)建預(yù)測模型。最后根據(jù)預(yù)測結(jié)果中的準確性和kappa系數(shù)選擇合適的AISNP組合。其中,SNP輸入數(shù)量為,隱藏層為+1,最大迭代次數(shù)Maxit為50。
隨機森林模型:是先根據(jù)R4.0.2中ran-domForest4.6-14的randomForest函數(shù)計算每個SNP的MDA (平均精度),按MDA值從大到小排序從而確定SNP的顯著性。然后根據(jù)MDA值和十折交叉驗證方法(createDataPartition函數(shù)和replicate函數(shù))得到SNP數(shù)與交叉驗證錯誤率之間的曲線圖(ggplot2包)。最后使用交叉錯誤率最低的SNPs構(gòu)建預(yù)測模型(randomForest函數(shù)),同樣根據(jù)預(yù)測結(jié)果中的準確性和kappa系數(shù)選擇合適的AISNP組合。
最終,將所有挑選出的若干AISNP組合依次用softmax和隨機森林模型進行評估,通過比較準確性、kappa系數(shù)、靈敏度和特異性等選擇目標人群區(qū)分效果最佳的AISNP組合與機器學(xué)習(xí)模型。同時,使用DAA軟件[59]進行主成分分析(principal component analysis, PCA)[60]和STRUCTURE[61]分析,基于SNP組合對目標人群的聚類和祖先成分進行比較評估。
通過頻率差異分析技術(shù)、共線性診斷和MDA交叉驗證方法并以不同閾值的和r進行AISNP的過濾和篩選,本研究得到了18組AISNPs組合。首先將這些AISNPs進行合并去重,然后按0至1128的數(shù)目進行梯度劃分,即通過R4.0.2的sample函數(shù)以100個位點間隔分別在0~100、101~200、…、1001~1128這11個梯度中隨機選擇。最后,使用這11個AISNPs組合在參考集中的基因分型數(shù)據(jù)來構(gòu)建softmax和隨機森林模型,并利用對應(yīng)AISNPs的測試集基因分型數(shù)據(jù)進行南-北方漢族人、韓國人和日本人的分類預(yù)測。兩個模型的準確率及其95%的置信區(qū)間、kappa系數(shù)等評價指數(shù)見表4。
通過觀察分析發(fā)現(xiàn),兩個模型的準確率隨著AISNP的增加呈非線性變化,但隨機森林模型的準確率變化較為平穩(wěn)。其中,234-AISNP組合在softmax模型中表現(xiàn)最優(yōu)、準確率為91.96%,735-AISNP組合在隨機森林模型中表現(xiàn)最優(yōu)、準確率為94.47%。
同時,為了評估這11個AISNP組合在目標人群中的區(qū)分效果,利用 DAA軟件進行STRUCTURE和PCA分析(圖2,圖3)。結(jié)果發(fā)現(xiàn),STRUCTURE結(jié)果K=4時,南-北方漢族人、韓國人和日本人的區(qū)分效果隨著SNP數(shù)的增加呈現(xiàn)清晰、模糊、清晰、模糊的變化。PCA結(jié)果顯示,隨著SNP數(shù)減少,4個人群的區(qū)分效果表現(xiàn)出混亂、分散、聚集的趨勢。234-AISNP組合和735-AISNP組合在這兩個方案中均達到了目標人群高度區(qū)分的效果。
表4 在softmax和隨機森林模型中參考集與測試集的表現(xiàn)評估
紅色字體為兩組最優(yōu)位點組合。
圖2 11種AISNP組合的祖先成分分析結(jié)果
圖3 11種AISNP組合的PCA分析圖
最后,綜合比較234-AISNP組合和735-AISNP組合在兩種機器學(xué)習(xí)模型(softmax和隨機森林)、STRUCTURE和PCA分析中南-北方漢族人、韓國人和日本人的區(qū)分效果。結(jié)果表明,735-AISNP組合在隨機森林模型、STRUCTURE和PCA分析中均實現(xiàn)了4個人群的遺傳劃分,但是在softmax模型中沒有達到預(yù)期區(qū)分效果。盡管234-AISNP組合在隨機森林模型中的準確率低于735-AISNP組合的準確率,但234-AISNP組合在softmax模型中的準確率是最高的,并且該組合在STRUCTURE和PCA分析中也實現(xiàn)了目標人群的遺傳劃分,故234-AISNP組合的區(qū)分效果最好(表5)。
表5 234-AISNP組合的信息
續(xù)表
續(xù)表
續(xù)表
為了進一步評估234-AISNP組合在區(qū)分南-北方漢族人、韓國人和日本人的效果,基于1128和234個AISNP的基因分型,分別對403份參考集和199份測試集樣本進行系統(tǒng)發(fā)育樹構(gòu)建(圖4,A和B),結(jié)果顯示4個人群呈現(xiàn)一定區(qū)分度。
1128-AISNP組合的參考集結(jié)果表明(圖4A),南北方漢族人存在部分個體混合,韓國人呈兩簇分布,與日本人和漢族人相鄰。測試集結(jié)果顯示,北方漢族人與南方漢族人、日本人交叉混合,少部分韓國人和日本人聚類。
234-AISNP組合的參考集結(jié)果表明(圖4B),南-北方漢族人混合的個體數(shù)明顯減少,僅少數(shù)的韓國人與北方漢族人聚類,且日本人與韓國人聚類,無個體的混合。測試集結(jié)果顯示,北方漢族人的聚類效果得到提升,與少部分南方漢族人和日本人混合,雖然部分韓國人與日本人聚為一簇,但無混合。從整體來看,相比1128-AISNP組合,234-AISNP組合的聚類分析結(jié)果更優(yōu)。
法醫(yī)DNA鑒定技術(shù)作為打擊犯罪的核心技術(shù)手段之一,為維護社會的治安穩(wěn)定發(fā)揮著關(guān)鍵性作用[62]。SNP族群推斷技術(shù)[63]作為對現(xiàn)有DNA比對技術(shù)的有力補充,通過更深層次解讀生物物證的遺傳信息,對DNA來源人的種族地域來源和外形體貌特征進行遺傳推斷和刻畫,從而最大程度的發(fā)揮“生物證人”的作用,為案件偵破提供全新的線索,對判斷嫌疑人的種族來源、定義案件的性質(zhì)起到了至關(guān)重要的作用[63]。
本研究通過頻率差異分析技術(shù)、共線性診斷和MDA交叉驗證方法,并結(jié)合HWE、LD篩選出了不同SNP組合,以測試兩種機器學(xué)習(xí)模型(邏輯回歸算法softmax模型和決策樹算法隨機森林模型)、STRUCTURE (貝葉斯聚類)、PCA (協(xié)方差)和系統(tǒng)發(fā)育樹(皮爾遜相關(guān)系數(shù))方法對南-北漢族、韓國和日本人群的分類效果。這些SNP組合在這些方案中都將4個人群不同程度的區(qū)分開,并且這4種方法對人群的區(qū)分或聚類效果是不同的。例如SNP數(shù)為234~534時,softmax模型準確率均大于90%,但STRUCTURE和PCA分析的結(jié)果除234-AISNP組合外,其他SNP組合未將4個人群精確區(qū)分開。另外,735和829 AISNPs在隨機森林模型中準確率達到90%,并且STRUCTURE和PCA分析結(jié)果實現(xiàn)了目標人群的遺傳劃分,但是這兩組SNP在softmax模型中的準確率僅為14.57%和44.22%。因此,只有選擇恰當?shù)腟NP組合與判別方法才能達到最佳的人群區(qū)分效果。本研究最終挑選的234-AISNP組合在4個方案中都達到了南-北方漢族人、韓國人和日本人精確區(qū)分的目的,且SNP數(shù)較少,適合法醫(yī)學(xué)應(yīng)用。由于本研究中僅使用了千人基因組數(shù)據(jù)庫中的漢族樣本作為機器學(xué)習(xí)的參考數(shù)據(jù)集,有限的樣本量限制或掩蓋了某些AISNP真正的識別能力,后續(xù)將繼續(xù)增加樣本量與數(shù)據(jù)來源,進一步驗證和優(yōu)化234個AISNP組合。
在模型評估分析中,本研究發(fā)現(xiàn)softmax模型的準確率隨著SNP數(shù)目增加,呈現(xiàn)出上升、到達最高峰(91.96%)后穩(wěn)定、再下降(14.57%)、最后上升(48.24%)的趨勢(表4),而隨機森林模型的準確率變化較穩(wěn)定(平均83.46%)。未經(jīng)篩選的AISNP位點中存在一定比例的共線性問題即自變量間存在較強的相關(guān)性,而其中部分位點的低差異性干擾了差異信息的提煉,因此表現(xiàn)出高度的群體相似性。本研究中,過多AISNP的輸入嚴重干擾機器學(xué)習(xí)模型訓(xùn)練和測試的精準度,并出現(xiàn)模型出現(xiàn)過擬合[64]以適應(yīng)訓(xùn)練數(shù)據(jù),從而在測試數(shù)據(jù)上效果很差。使用共線性診斷和MDA交叉驗證對AISNP進行過濾,以提升模型的準確率。同時,過少AISNP的輸入會導(dǎo)致模型出現(xiàn)欠擬合現(xiàn)象[65],使得模型在訓(xùn)練和測試數(shù)據(jù)集上的效果都很差。綜上所述,在眾多特征中需要將無關(guān)和冗余特征去除,使合適的特征納入模型,才能夠進一步提升模型的穩(wěn)定性和準確率。同時本研究也觀察到,構(gòu)建的兩個模型在目標人群區(qū)分時,更集中于韓國人和中國南方漢族人的區(qū)分,忽略了中國北方漢族人的區(qū)分,最終導(dǎo)致模型測試準確率較低并且相應(yīng)的評價參數(shù)值也較低。這些可能是由于參考集樣本少導(dǎo)致機器學(xué)習(xí)模型不穩(wěn)定,或者是測試集樣本數(shù)目的不均衡導(dǎo)致模型出現(xiàn)欠擬合以及模型對目標人群的不平衡區(qū)分,從而使得模型測試結(jié)果不佳。為了解決這些問題,本研究在構(gòu)建目標人群的預(yù)測和測試模型時,不僅設(shè)置了隨機數(shù)和調(diào)試最大迭代次數(shù),還使用了五次十折交叉驗證方法,從而達到提升模型準確率的目的,最終實現(xiàn)目標人群的精確區(qū)分。另外,還觀察到SNP數(shù)增加對softmax模型系統(tǒng)性能的影響更加明顯,并且當SNP數(shù)目增加到某個閾值時,兩個模型均達到飽和即準確率不存在過大波動。
圖4 基于1128-AISNP組合與234-AISNP組合的基因分型繪制的目標人群的系統(tǒng)發(fā)育樹
A:1128-AISNP組合的參考及測試集中目標人群的系統(tǒng)發(fā)育樹結(jié)果;B:234-AISNP組合的參考及測試集中目標人群的系統(tǒng)發(fā)育樹結(jié)果。
總之,本研究先利用頻率差異分析技術(shù)(F、I、HWE和LD)及兩種機器學(xué)習(xí)算法(softmax和隨機森林),篩選AISNP、建立目標人群遺傳推斷模型并測試,再結(jié)合經(jīng)典族群推斷算法(STRUCTURE和PCA)[59]對AISNP組合進行評估,最終234-AISNP組合在這些方法中均實現(xiàn)了南-北方漢族人、韓國人和日本人的精確區(qū)分。其次,本研究發(fā)現(xiàn)softmax模型和MDA交叉驗證運行速度過慢,需要收集更加高效快速的篩選AISNP方法和更精準構(gòu)建人群遺傳劃分模型的機器學(xué)習(xí)方法。最后,在參考集和測試集樣本收集的時候,需要考慮其來源是否多樣、數(shù)目是否龐大、以及檢測方法是否相同等問題。綜上所述,在進行AISNP篩選和近距離目標群體區(qū)分時,盡可能增加參考集和測試集樣本量并運用不同方法多方面綜合評估,從而選出高效能高質(zhì)量的AISNP組合,為法醫(yī)學(xué)基礎(chǔ)數(shù)據(jù)庫進行擴充。
感謝中國科學(xué)院上海生命科學(xué)研究院計算生物學(xué)研究所的徐書華老師在文章數(shù)據(jù)方面給予的幫助。
附加材料見文章電子版www.chinagene.cn。
[1] Phillips C. Forensic genetic analysis of bio-geographical ancestry., 2015, 18: 49–65.
[2] Tishkoff SA, Kidd KK. Implications of biogeography of human populations for 'race' and medicine., 2004, 36(11 Suppl): S21–S27.
[3] Marchini J, Cardon LR, Phillips MS, Donnelly P. The effects of human population structure on large genetic association studies., 2004, 36(5): 512–517.
[4] Paschou P, Lewis J, Javed A, Drineas P. Ancestry informative markers for fine-scale individual assignment to worldwide populations., 2010, 47(12): 835–847.
[5] Phillips C, Salas A, Sánchez JJ, Fondevila M, Gómez-Tato A, Alvarez-Dios J, Calaza M, de Cal MC, Ballard D, Lareu MV, Carracedo A. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs., 2007, 1(3–4): 273–280.
[6] Kidd KK, Speed WC, Pakstis AJ, Furtado MR, Fang RX, Madbouly A, Maiers M, Middha M, Friedlaender FR, Kidd JR. Progress toward an efficient panel of SNPs for ancestry inference., 2014, 10: 23–32.
[7] Jiang L, Sun QF, Ma Q, Zhao WT, Liu J, Zhao L, Ji AQ, Li CX. Optimization and validation of analysis method based on 27-plex SNP panel for ancestry inference., 2017, 39(2): 166–173.
江麗, 孫啟凡, 馬泉, 趙雯婷, 劉京, 趙蕾, 季安全, 李彩霞. 27-plex SNP 種族推斷方法的優(yōu)化及驗證. 遺傳, 2017, 39(2): 166–173.
[8] Qin PF, Li ZQ, Jin WF, Lu DS, Lou HY, Shen JW, Jin L, Shi YY, Xu SH. A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese., 2014, 22(2): 248–253.
[9] Wang YC, Lu DS, Chung YJ, Xu SH. Genetic structure, divergence and admixture of Han Chinese, Japanese and Korean populations., 2018, 155: 19.
[10] Shi CM, Liu Q, Zhao SL, Chen H. Ancestry informative SNP panels for discriminating the major East Asian populations: Han Chinese, Japanese and Korean., 2019, 83(5): 348–354.
[11] Wang CC, Yeh HY, Popov AN, Zhang HQ, Matsumura H, Sirak K, Cheronet O, Kovalev A, Rohland N, Kim AM, Mallick S, Bernardos R, Tumen D, Zhao J, Liu YC, Liu JY, Mah M, Wang K, Zhang Z, Adamski N, Broomand-khoshbacht N, Callan K, Candilio F, Carlson KSD, Culleton BJ, Eccles L, Freilich S, Keating D, Lawson AM, Mandl K, Michel M, Oppenheimer J, ?zdo?an KT, Stewardson K, Wen SQ, Yan S, Zalzala F, Chuang R, Huang CJ, Looh H, Shiung CC, Nikitin YG, Tabarev AV, Tishkin AA, Lin S, Sun ZY, Wu XM, Yang TL, Hu X, Chen L, Du H, Bayarsaikhan J, Mijiddorj E, Erdenebaatar D, Iderkhangai TO, Myagmar E, Kanzawa-Kiriyama H, Nishino M, Shinoda KI, Shubina OA, Guo J, Cai WW, Deng QY, Kang LL, Li D, Li DW, Lin RM, Nini, Shrestha R, Wang LX, Wei LW, Xie GM, Yao HB, Zhang MF, He GL, Yang XM, Hu R, Robbeets M, Schiffels S, Kennett DJ, Jin L, Li H, Krause J, Pinhasi R, Reich D. Genomic insights into the formation of human populations in East Asia., 2021, 591(7850): 413–419.
[12] Jung JY, Kang PW, Kim E, Chacon D, Beck D, McNevin D. Ancestry informative markers (AIMs) for Korean and other East Asian and South East Asian populations., 2019, 133(6): 1711–1719.
[13] Okada Y, Momozawa Y, Sakaue S, Kanai M, Ishigaki K, Akiyama M, Kishikawa T, Arai Y, Sasaki T, Kosaki K, Suematsu M, Matsuda K, Yamamoto K, Kubo M, Hirose N, Kamatani Y. Deep whole-genome sequencing reveals recent selection signatures linked to evolution and disease risk of Japanese., 2018, 9(1): 1631.
[14] Akiyama M, Okada Y, Kanai M, Takahashi A, Momozawa Y, Ikeda M, Iwata N, Ikegawa S, Hirata M, Matsuda K, Iwasaki M, Yamaji T, Sawada N, Hachiya T, Tanno K, Shimizu A, Hozawa A, Minegishi N, Tsugane S, Yamamoto M, Kubo M, Kamatani Y. Genome-wide association study identifies 112 new loci for body mass index in the Japanese population., 2017, 49(10): 1458–1467.
[15] Liu SY, Huang SJ, Chen F, Zhao LJ, Yuan YY, Francis SS, Fang L, Li ZL, Lin L, Liu R, Zhang Y, Xu HX, Li SK, Zhou YW, Davies RW, Liu Q, Walters RG, Lin K, Ju J, Korneliussen T, Yang MA, Fu QM, Wang J, Zhou LJ, Krogh A, Zhang HY, Wang W, Chen ZM, Cai ZM, Yin Y, Yang HM, Mao M, Shendure J, Wang J, Albrechtsen A, Jin X, Nielsen R, Xu X. Genomic analyses from non-invasive prenatal testing reveal genetic associations, patterns of viral infections, and Chinese population history., 2018, 175(2): 347–359.
[16] Xu SH, Yin XY, Li SL, Jin WF, Lou HY, Yang L, Gong XH, Wang HY, Shen YP, Pan XD, He YG, Yang YJ, Wang Y, Fu WQ, An Y, Wang JC, Tan JZ, Qian J, Chen XL, Zhang X, Sun YF, Zhang XJ, Wu BL, Jin L. Genomic dissection of population substructure of Han Chinese and its implication in association studies., 2009, 85(6): 762–774.
[17] Jeon S, Bhak Y, Choi Y, Jeon Y, Kim S, Jang J, Jang J, Blazyte A, Kim C, Kim Y, Shim J, Kim N, Kim YJ, Park SG, Kim J, Cho YS, Park Y, Kim HM, Kim BC, Park NH, Shin ES, Kim BC, Bolser D, Manica A, Edwards JS, Church G, Lee S, Bhak J. Korean genome project: 1094 Korean personal genomes with clinical information., 2020, 6(22): eaaz7835.
[18] Cao YN, Li L, Xu M, Feng ZM, Sun XH, Lu JL, Xu Y, Du PN, Wang TG, Hu RY, Ye Z, Shi LX, Tang XL, Yan L, Gao ZN, Chen G, Zhang YF, Chen LL, Ning G, Bi YF, Wang WQ, Consortium C. The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals., 2020, 30(9): 717–731.
[19] Jinam TA, Kanzawa-Kiriyama H, Inoue I, Tokunaga K, Omoto K, Saitou N. Unique characteristics of the Ainu population in Northern Japan., 2015, 60(10): 565–571.
[20] Kim JJ, Verdu P, Pakstis AJ, Speed WC, Kidd JR, Kidd KK. Use of autosomal loci for clustering individuals and populations of East Asian origin., 2005, 117(6): 511–519.
[21] Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé A-M, and Flicek P. The international genome sample resource (IGSR): a worldwide collection of genome variation incorporating the 1000 genomes project data., 2016, 45(1): 854–859.
[22] Zhang WQ, Meehan J, Su ZQ, Ng HW, Shu M, Luo H, Ge WG, Perkins R, Tong WD, Hong HX. Whole genome sequencing of 35 individuals provides insights into the genetic architecture of Korean population., 2014, 15(11): 6–18.
[23] Byrska-Bishop M, Evani US, Zhao XF, Basile AO, Abel HJ, Regier AA, Corvelo A, Clarke WE, Musunuri R, Nagulapalli K, Fairley S, Runnels A, Winterkorn L, Lowy E, Flicek P, Germer S, Brand H, Hall IM, Talkowski ME, Narzisi G, Zody MC, The Human Genome Structural Variation Consortium. High coverage whole genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios., 2021, doi: 10.1101/2021. 02.06.430068.
[24] Bergstr?m A, McCarthy SA, Hui RY, Almarri MA, Ayub Q, Danecek P, Chen Y, Felkel S, Hallast P, Kamm J, Blanché H, Deleuze JF, Cann H, Mallick S, Reich D, Sandhu MS, Skoglund P, Scally A, Xue YL, Durbin R, Tyler-Smith C. Insights into human genetic variation and population history from 929 diverse genomes., 2020, 367(6484): eaay5012.
[25] Mallick S, Li H, Lipson M, Mathieson I, Gymrek M, Racimo F, Zhao MY, Chennagiri N, Nordenfelt S, Tandon A, Skoglund P, Lazaridis I, Sankararaman S, Fu QM, Rohland N, Renaud G, Erlich Y, Willems T, Gallo C, Spence JP, Song YS, Poletti G, Balloux F, van Driem G, de Knijff P, Romero IG, Jha AR, Behar DM, Bravi CM, Capelli C, Hervig T, Moreno-Estrada A, Posukh OL, Balanovska E, Balanovsky O, Karachanak-Yankova S, Sahakyan H, Toncheva D, Yepiskoposyan L, Tyler-Smith C, Xue YL, Abdullah MS, Ruiz-Linares A, Beall CM, Di Rienzo A, Jeong C, Starikovskaya EB, Metspalu E, Parik J, Villems R, Henn BM, Hodoglugil U, Mahley R, Sajantila A, Stamatoyannopoulos G, Wee JTS, Khusainova R, Khusnutdinova E, Litvinov S, Ayodo G, Comas D, Hammer MF, Kivisild T, Klitz W, Winkler CA, Labuda D, Bamshad M, Jorde LB, Tishkoff SA, Watkins WS, Metspalu M, Dryomov S, Sukernik R, Singh L, Thangaraj K, P??bo S, Kelso J, Patterson N, Reich D. The Simons genome diversity project: 300 genomes from 142 diverse populations., 2016, 538(7624): 201–206.
[26] Liu XY, Lu DS, Saw WY, Shaw PJ, Wangkumhang P, Ngamphiw C, Fucharoen S, Lert-Itthiporn W, Chin- Inmanu K, Chau TNB, Anders K, Kasturiratne A, de Silva HJ, Katsuya T, Kimura R, Nabika T, Ohkubo T, Tabara Y, Takeuchi F, Yamamoto K, Yokota M, Mamatyusupu D, Yang WJ, Chung YJ, Jin L, Hoh BP, Wickremasinghe AR, Ong RH, Khor CC, Dunstan SJ, Simmons C, Tongsima S, Suriyaphol P, Kato N, Xu SH, Teo YY. Characterising private and shared signatures of positive selection in 37 Asian populations., 2017, 25(4): 499–508.
[27] Wen H, Wei YL, Guo XY, Sun CC, Xue SY, Liu J, Fan H, Jiang L. High-resolution SNP ancestry inference model and efficiency evaluation in three East Asian populations., 2021, 48(8): 973–981.
文豪, 魏以梁, 郭曉媛, 孫昌春, 薛思瑤, 劉京, 范虹, 江麗. 東亞三族群SNP高分辨推斷模型構(gòu)建與效能評估. 生物化學(xué)與生物物理進展, 2021, 48(8): 973–981.
[28] Guo XY, Sun CC, Xue SY, Zhao H, Jiang L, Li CX. 49AISNP: a study on the ancestry inference of the three ethnic groups in the north of East Asia., 2021, 43(9): 880–889.
郭曉媛, 孫昌春, 薛思瑤, 趙慧, 江麗, 李彩霞. 49AISNP:東亞北方三個族群遺傳來源推斷. 遺傳, 2021, 43(9): 880–889.
[29] Kim T, Seo HD, Hennighausen L, Lee D, Kang K. Octopus-toolkit: a workflow to automate mining of public epigenomic and transcriptomic next-generation sequencing data., 2018, 46(9): 53–58.
[30] 1000 Genomes Project Consortium, Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, McCarthy S, McVean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.
[31] Sudmant PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J, Zhang Y, Ye K, Jun G, Fritz MHY, Konkel MK, Malhotra A, Stütz AM, Shi XH, Casale FP, Chen JM, Hormozdiari F, Dayama G, Chen K, Malig M, Chaisson MJP, Walter K, Meiers S, Kashin S, Garrison E, Auton A, Lam HYK, Mu XJ, Alkan C, Antaki D, Bae T, Cerveira E, Chines P, Chong ZC, Clarke L, Dal E, Ding L, Emery S, Fan X, Gujral M, Kahveci F, Kidd JM, Kong Y, Lameijer EW, McCarthy S, Flicek P, Gibbs RA, Marth G, Mason CE, Menelaou A, Muzny DM, Nelson BJ, Noor A, Parrish NF, Pendleton M, Quitadamo A, Raeder B, Schadt EE, Romanovitch M, Schlattl A, Sebra R, Shabalin AA, Untergasser A, Walker JA, Wang M, Yu FL, Zhang C, Zhang J, Zheng-Bradley XQ, Zhou WD, Zichner T, Sebat J, Batzer MA, McCarroll SA, 1000 Genomes Project Consortium, Mills RE, Gerstein MB, Bashir A, Stegle O, Devine SE, Lee C, Eichler EE, Korbel JO. An integrated map of structural variation in 2,504 human genomes., 2015, 526(7571): 75–81.
[32] Korn JM, Kuruvilla FG, McCarroll SA, Wysoker A, Nemesh J, Cawley S, Hubbell E, Veitch J, Collins PJ, Darvishi K, Lee C, Nizzari MM, Gabriel SB, Purcell S, Daly MJ, Altshuler D. Integrated genotype calling and association analysis of SNPs, common copy number polymorphisms and rare CNVs., 2008, 40(10): 1253–1260.
[33] Van der Auwera GA, O'Connor BD. Genomics in the Cloud: Using Docker, GATK, and WDL in Terra. 2020: O'Reilly Media, Incorporated.
[34] Meire M, Ballings M, Van den Poel D. imputeMissings: impute missing values in a predictive context. 2016.
[35] Rustowicz R. Crop classification with multi-temporal satellite imagery. 2017.
[36] Breiman L, Cutler A, Liaw A, Wiener M. Package ‘randomForest’. 2018.
[37] Yu GC, Smith DK, Zhu HC, Guan Y, Lam TTY. ggtree: an R package for visualization and annotation of phylogenetic trees with their covariates and other associated data., 2017, 8(1): 28–36.
[38] Hao W, Storey JD. Extending tests of Hardy-Weinberg equilibrium to structured populations., 2019, 213(3): 759–770.
[39] Pritchard JK, Przeworski M. Linkage disequilibrium in humans: models and data., 2001, 69(1): 1–14.
[40] Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps., 2005, 21(2): 263–265.
[41] Armstrong RA. When to use the Bonferroni correction., 2014, 34(5): 502–508.
[42] Boca SM, Rosenberg NA. Mathematical properties of Fst between admixed populations and their parental source populations., 2011, 80(3): 208–216.
[43] Rosenberg NA, Li LM, Ward R, Pritchard JK. Informativeness of genetic markers for inference of ancestry., 2003, 73(6): 1402–1422.
[44] Hui SB, Wang WJ. Improvement of multi-variable's redundant attributes in classification algorithm of support vector machines., 2006, 27(8): 1385–138.
惠守博, 王文杰. 支持向量機分類算法中多元變量共線性問題的改進. 計算機工程與設(shè)計, 2006, 27(8): 1385– 1388.
[45] Zhao YD, Liu R, Liu YL, Xiao F, Zhang Y. Multivariate logistic regression collinearity diagnosis analysis., 2000, (5): 3–5.
趙宇東, 劉嶸, 劉延齡, 肖峰, 張揚. 多元logistic回歸的共線性分析. 中國衛(wèi)生統(tǒng)計, 2000, (5): 3–5.
[46] Wang L, Tong X, Sheng MW, Qin HD, Tang QS. Review of image classification based on softmax classifier in deep learning., 2019, 18(6): 1-9+47.
萬磊, 佟鑫, 盛明偉, 秦洪德, 唐松奇. Softmax分類器深度學(xué)習(xí)圖像分類方法應(yīng)用綜述. 導(dǎo)航與控制, 2019, 18(6): 1-9+47.
[47] Rigatti SJ. Random Forest., 2017, 47(1): 31–39.
[48] Heo J, Yoon JG, Park H, Kim YD, Nam HS, Heo JH. Machine learning-based model for prediction of outcomes in acute stroke., 2019, 50(5): 1263–1265.
[49] Che DS, Liu Q, Rasheed K, Tao XP. Decision tree and ensemble learning algorithms with their applications in bioinformatics., 2011, 696: 191–199.
[50] Connor CW. Artificial intelligence and machine learning in anesthesiology., 2019, 131(6): 1346– 1359.
[51] Pandis N. Linear regression., 2016, 149(3): 431–434.
[52] LaValley MP. Logistic regression., 2008, 117(18): 2395–2399.
[53] Huang SJ, Cai NG, Pacheco PP, Narrandes S, Wang Y, Xu W. Applications of support vector machine (SVM) learning in cancer genomics., 2018, 15(1): 41–51.
[54] Karalis G. Decision trees and applications., 2020, 1194: 239–242.
[55] Hatwell J, Gaber MM, Atif Azad RM. Ada-WHIPS: explaining AdaBoost classification with applications in the health sciences., 2020, 20(1): 250.
[56] Wen J, Xu Y, Li ZY, Ma ZL, Xu YR. Inter-class sparsity based discriminative least square regression., 2018, 102: 36–47.
[57] Kloumann IM, Ugander J, Kleinberg J. Block models and personalized PageRank., 2017, 114(1): 33–38.
[58] Jung Y, Hu JH. A k-fold averaging cross-validation procedure., 2015, 27(2): 167–179.
[59] Liu J, Li S, Jiang L, Zhao L, Zhao WT, Feng L, Liu HB, Ji AQ, Li CX. DNA ancestry analyzer: an automatic program for ancestry inference of unknown individuals., 2018, 22(1): 3-7+41.
劉京, 李盛, 江麗, 趙蕾, 趙雯婷, 豐蕾, 劉海渤, 季安全, 李彩霞. 對于未知來源個體進行族群推斷的自動分析系統(tǒng). 生命科學(xué)研究, 2018, 22(1): 3-7+41.
[60] Ringnér M. What is principal component analysis?, 2008, 26(3): 303–304.
[61] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data., 2000, 155(2): 945–959.
[62] Cai LJ. The technical means of forensic material evidence identification in criminal investigation cases-DNA identification technology., 2018, (34): 177.
蔡立君. 刑偵案件中法醫(yī)物證鑒定的技術(shù)手段——DNA鑒定技術(shù). 法制博覽, 2018, (34): 177.
[63] Jiang L, Zhao L, Liu J, Zhao WT, Ma Q, Zhao H, Ji AQ, Li CX. DNA ancestry inference assisting to have a case solved., 2019, 44(4): 371–373.
江麗, 趙蕾, 劉京, 趙雯婷, 馬泉, 趙慧, 季安全, 李彩霞. DNA供者族群推斷技術(shù)在案件中的應(yīng)用. 刑事技術(shù), 2019, 44(4): 371–373.
[64] Charilaou P, Battat R. Machine learning models and over-fitting considerations., 2022, 28(5): 605–607.
[65] Dizaji KG, Chen W, Huang H. Deep large-scale multitask learning network for gene expression inference., 2021, 28(5): 485–500.
Optimization scheme of machine learning model for genetic division between northern Han, southern Han, Korean and Japanese
Yongqiang Kong1, Jinkai Liu1, Jiaqi Gu2, Jingyi Xu1, Yunuo Zheng2, Yiliang Wei2, Shaoyuan Wu1,2
Han Chinese, Korean and Japanese are the main populations of East Asia, and Han Chinese presents a gradient admixture from north to south. There are differences among the East Asian populations in genetic structure. To achieve fine-scale genetic classification of southern (S-) and northern (N-) Han Chinese, Korean and Japanese individuals in this study, we collected and analyzed 1185 ancestry informative SNPs (AISNPs) from previous literature reports and our laboratory findings. First, two machine learning algorithms, softmax and randomForest, were used to build genetic classification models. Then, phylogenetic tree, STRUCTURE and principal component analysis were used to evaluate the performance of classification for different AISNP panels. The 234-AISNP panel achieved a fine-scale differentiation among the target populations in four classification schemes. The accuracy of the softmax model was 92%, which realized the accurate classification of the S-Han, N-Han, Korean and Japanese individuals. The two machine learning models tested in this study provided important references for the high-resolution discrimination of close-range populations and will be useful tools to optimize marker panels for developing forensic DNA ancestry inference systems.
forensic genetics; ancestry informative SNPs; machine learning; East Asia; S-Han and N-Han
2022-05-03;
2022-07-13;
2022-08-11
法醫(yī)遺傳學(xué)公安部重點實驗室開放課題(編號:2020FGKFKT01),江蘇省研究生科研與實踐創(chuàng)新計劃項目任務(wù)書(編號:KYCX20_2286,KYCX21_2597)資助[Supported by the Key Laboratory of Forensic Genetics of China (No. 2020FGKFKT01), the Graduate Research and Practice Innovation Program of Jiangsu Normal University (Nos. KYCX20_2286,KYCX21_2597)]
孔永強,在讀碩士研究生,專業(yè)方向:生物學(xué)。E-mail: kongyongqiang@tmu.edu.cn
魏以梁,博士,副教授,研究方向:法醫(yī)遺傳學(xué)。E-mail: weiyiliang.2013@tsinghua.org.cn
伍少遠,博士,教授,研究方向:系統(tǒng)發(fā)育與比較基因組學(xué)。E-mail: shaoyuan5@gmail.com
10.16288/j.yczz.22-073
(責(zé)任編委: 朱波峰)