国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從本科生角度淺談生物醫(yī)學(xué)數(shù)據(jù)的統(tǒng)計建模心得

2017-12-26 20:26陳欣郁可沁魯涵魏永越趙楊于浩陳峰張汝陽
教育教學(xué)論壇 2017年52期
關(guān)鍵詞:心得體會預(yù)測模型

陳欣+郁可沁+魯涵+魏永越+趙楊+于浩+陳峰+張汝陽

摘要:由于生物醫(yī)學(xué)研究領(lǐng)域數(shù)據(jù)的復(fù)雜性,高效的統(tǒng)計建模尤為重要。筆者以肺癌全基因組關(guān)聯(lián)研究為例,結(jié)合建立肺癌風(fēng)險預(yù)測模型的切身體會,建議研究者需要重視數(shù)據(jù)質(zhì)量控制體系、反復(fù)推敲建模方法和策略、培養(yǎng)熟練的軟件操作技能。

關(guān)鍵詞:生物醫(yī)學(xué)數(shù)據(jù);統(tǒng)計建模;預(yù)測模型;心得體會

中圖分類號:G642.0 文獻標(biāo)志碼:A 文章編號:1674-9324(2017)52-0220-02

隨著生物信息技術(shù)的飛速發(fā)展,生物醫(yī)學(xué)研究領(lǐng)域的數(shù)據(jù)呈幾何級增長。近年來,生物醫(yī)學(xué)大數(shù)據(jù)受到學(xué)者們的廣泛關(guān)注。生物醫(yī)學(xué)大數(shù)據(jù)具有典型的“4V”特征:體量巨大(volume)、種類繁多(variety)、實時更新(velocity)、價值隱藏(value)[1];“3H”特點:高維(high dimension)、高度計算復(fù)雜性(high complexity)、高度不確定性(high uncertainty)[2]。因此,綜合利用生物學(xué)、醫(yī)學(xué)、數(shù)學(xué)、流行病學(xué)、統(tǒng)計學(xué)、計算機學(xué)等多個學(xué)科的方法和手段,從中挖掘“有價值”的信息,為生物醫(yī)學(xué)研究提供確鑿有效的證據(jù),顯得尤為重要。

筆者以肺癌全基因組關(guān)聯(lián)研究(genome-wide association study,GWAS)為例,結(jié)合理論學(xué)習(xí)和案例實踐的切身體會,淺談利用GWAS數(shù)據(jù)建立肺癌風(fēng)險預(yù)測模型的心得體會。

一、嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)質(zhì)量控制體系不容忽視

由于存在檢測、觀察、填寫或錄入錯誤,未經(jīng)數(shù)據(jù)質(zhì)控的原始數(shù)據(jù)極可能含有一些異常,甚至錯誤的觀測值。在研究設(shè)計之初,便要盡可能考慮規(guī)避產(chǎn)生錯誤數(shù)據(jù)。另外,統(tǒng)計建模之前,仍然必須對原始數(shù)據(jù)再次進行質(zhì)量控制。在GWAS中,要同時對行(樣本)、列(位點)進行質(zhì)量評價。例如,刪除次等位基因頻率低于5%、缺失率超過5%或哈代不平衡的位點;刪除分型失敗率超過5%、問卷性別與遺傳性別不一致、存在血緣關(guān)系、屬于離群值的樣本[3]。另外,同時需要對流行病學(xué)問卷及臨床數(shù)據(jù)進行核查。只有對數(shù)據(jù)進行清理后,才能用于后續(xù)關(guān)聯(lián)分析、統(tǒng)計建模。

二、合理的建模方法和策略值得精雕細(xì)琢

對于GWAS高維數(shù)據(jù),合理的方法和策略不僅要考慮統(tǒng)計學(xué)性能(一類錯誤、檢驗效能、預(yù)測精度),還需要考慮分析效率(計算速度)。因此,研究者應(yīng)該要深入思考,為研究項目量身定制一套“合理”的方法和策略。然而,現(xiàn)有的統(tǒng)計學(xué)模型和方法往往都有相應(yīng)的應(yīng)用條件。實際數(shù)據(jù)由于其變量結(jié)構(gòu)的復(fù)雜性,不一定完全滿足所有的應(yīng)用條件。并且,簡單的算法速度快,但統(tǒng)計性能相對低;復(fù)雜算法需要犧牲計算速度來提升統(tǒng)計性能。因此,研究者可能需要制定多個備選方案。

結(jié)合建模步驟,筆者將從以下幾個方面,淺談個人心得體會。

1.初始模型:一般擬合logistic回歸模型評價肺癌風(fēng)險。模型中往往需要納入一些協(xié)變量,例如:年齡、性別、吸煙、人群分層等。一般參考以下納入原則:(a)在模型中有統(tǒng)計學(xué)意義(P≤0.05);(b)即便在模型中無統(tǒng)計學(xué)意義,但絕大多數(shù)同類研究顯示其是公認(rèn)的影響因素。某些協(xié)變量可能是位點的混雜因素,例如人群分層。如果GWAS中忽視調(diào)整混雜因素的影響,則有可能導(dǎo)致誤報噪音位點的一類錯誤膨脹,或識別致病位點的檢驗效能降低[4]。

此外,研究者還需要考察協(xié)變量進入模型的形式。一般而言,無序分類變量以啞變量形式進入模型。當(dāng)某些類別樣本量特別小,需要進行類別合并。有序分類變量、連續(xù)性變量則需要考慮是否以非線性的形式進入模型。一種最簡單的方式是,將連續(xù)性變量轉(zhuǎn)化為有序分類變量,并以啞變量形式進入模型。如果啞變量各組的系數(shù)呈現(xiàn)線性遞增的趨勢,則提示原始變量與結(jié)局變量間存在線性關(guān)系。否則,可采用啞變量、樣條函數(shù)等方法處理非線性關(guān)系。

2.因素篩選:研究者需要從GWAS數(shù)據(jù)50萬位點中篩選出肺癌相關(guān)位點,加入初始模型,以提高模型的預(yù)測精度。常規(guī)做法是,在初始模型中逐個納入位點,對位點的主效應(yīng)進行假設(shè)檢驗。因檢驗次數(shù)達50萬次,研究者必須要考慮多重比較所致的一類錯誤膨脹。常見一類錯誤控制方法有Bonferroni法和FDR法。前者較為嚴(yán)格,后者較為寬松。GWAS識別位點一般采用“寧缺毋濫”的原則,傾向于采用嚴(yán)格的校正方法。除此之外,研究者還要在多個獨立的人群中驗證初篩的位點。如果位點在多個人群中都顯示與結(jié)局存在統(tǒng)計學(xué)關(guān)聯(lián),則認(rèn)為該位點是潛在的影響因素。

除基因位點主效應(yīng)外,研究者還需要關(guān)注基因-基因、基因-環(huán)境交互作用。復(fù)雜疾病往由環(huán)境、基因相互影響,共同導(dǎo)致。因此,有必要在模型中對交互作用進行評估。例如,基因-環(huán)境交互作用可以顯著提高肺癌風(fēng)險預(yù)測模型的預(yù)測精度[5]。

有效的降維策略能夠提高因素篩選的效率。筆者曾采用“信息熵初篩→對數(shù)線性模型再篩→多因素logistic回歸模型確認(rèn)”的降維策略進行全基因組基因-基因交互作用分析[6]。信息熵方法計算速度快,且其統(tǒng)計量總是不小于對數(shù)線性模型,不會出現(xiàn)漏檢的情況。前兩步可以檢驗次數(shù)將1011次縮減至105次。檢驗次數(shù)降低6個數(shù)量級。最后一步,利用調(diào)整協(xié)變量的logistic回歸模型對關(guān)聯(lián)結(jié)果加以確認(rèn),防止出現(xiàn)假陽性。當(dāng)然,研究者也可以根據(jù)項目“量體裁衣”,選擇其他降維方法,例如:隨機森林(random forest)、多因子降維(multifactor dimensionality reduction,MDR)等。

3.預(yù)測模型:經(jīng)過遺傳因素篩選步驟后,研究者可通逐步回歸、LASSO等方法,建立含有與協(xié)變量、遺傳位點的主效應(yīng)項、交互作用項的風(fēng)險預(yù)測模型。根據(jù)受試者工作特征曲線(receiver operating characteristic curve,ROC)確定一個風(fēng)險閾值,使得風(fēng)險預(yù)測的靈敏度、特異度同時達到最優(yōu)。若樣本的預(yù)測概率≥閾值,則預(yù)測該樣本為肺癌。

4.模型評價:從統(tǒng)計學(xué)的角度,可采用ROC曲線下面積(area under ROC,AUC)來評價模型的優(yōu)劣[7]。此外,還可以采用交叉驗證的方式評價模型,即:訓(xùn)練集擬合的預(yù)測模型對測試集的樣本進行風(fēng)險估計,并計算AUC。然而,AUC并非衡量模型的唯一標(biāo)準(zhǔn)。如果預(yù)測模型形式簡單,應(yīng)用便捷,即便AUC稍有遜色,也是優(yōu)秀的模型之一。所以,筆者認(rèn)為需要綜合考慮,權(quán)衡利弊。

三、熟練的軟件操作和編程技能令人事半功倍

扎實的理論基礎(chǔ)固然重要,熟練的軟件操作亦不可或缺。筆者建議研究者不要拘泥于某一軟件,本著“方便原則”利用多個軟件進行數(shù)據(jù)處理、統(tǒng)計建模。根據(jù)筆者的經(jīng)驗,一般不太可能一次性完成建模工作,往往需要不斷調(diào)整分析策略和分析方法。因此,筆者建議研究者適當(dāng)撰寫一些項目相關(guān)的通用程序。如果需要重新建模,只需要修改程序參數(shù),微調(diào)代碼就可以建立新的預(yù)測模型。因此,這就要求研究者“功在平時”以培養(yǎng)編程能力。

基于肺癌GWAS風(fēng)險預(yù)測模型的建模體會,筆者建議研究者需要重視數(shù)據(jù)質(zhì)量控制體系、推敲建模方法和策略、培養(yǎng)熟練軟件操作技能。

參考文獻:

[1]王波,呂筠,李立明.生物醫(yī)學(xué)大數(shù)據(jù):現(xiàn)狀與展望[J].中華流行病學(xué)雜志,2014,35(6):617-620.

[2]寧康,陳挺.生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J].科學(xué)通報,2015,(z1):534-546.

[3]陳峰,柏建嶺,趙楊,荀鵬程.全基因組關(guān)聯(lián)研究中的統(tǒng)計分析方法[J].中華流行病學(xué)雜志,2011,32(4):400-404.

[4]Zhao Y,Chen F,Zhai R,Lin X,Wang Z,Su L,Christiani DC.Correction for population stratification in random forest analysis[J].International Journal of Epidemiology,2012,41(6):1798-1806.

[5]Zhang R,Chu M,Zhao Y,Wu C,Guo H,Shi Y,Dai J,Wei Y,Jin G,Ma H,Dong J,Yi H,Bai J,Gong J,Sun C,Zhu M,Wu T,Hu Z,Lin D,Shen H,Chen F.A genome-wide gene-environment interaction analysis for tobacco smoke and lung cancer susceptibility[J]. Carcinogenesis,2014,35(7):1528-1535.

[6]Chu M,Zhang R,Zhao Y,Wu C,Guo H,Zhou B,Lu J,Shi Y,Dai J,Jin G,Ma H,Dong J,Wei Y,Wang C,Gong J,Sun C,Zhu M,Qiu Y,Wu T,Hu Z,Lin D,Shen H,Chen F.A genome-wide gene-gene interaction analysis identifies an epistatic gene pair for lung cancer susceptibility in Han Chinese[J].Carcinogenesis,2014,35(3):572-577.

[7]陳峰.醫(yī)用多元統(tǒng)計分析方法[M].北京:中國統(tǒng)計出版社,2000.

猜你喜歡
心得體會預(yù)測模型
基于矩陣?yán)碚撓碌母咝=處熑藛T流動趨勢預(yù)測
基于支持向量回歸的臺灣旅游短期客流量預(yù)測模型研究
固體物理教學(xué)的幾點心得體會
基于神經(jīng)網(wǎng)絡(luò)的北京市房價預(yù)測研究
“算法與程序設(shè)計”教學(xué)的幾點體會
融水| 北宁市| 临江市| 黄浦区| 余江县| 虹口区| 伊宁市| 德阳市| 宁蒗| 修武县| 施秉县| 巴林右旗| 长垣县| 临潭县| 扎赉特旗| 长泰县| 潞西市| 平罗县| 宁晋县| 怀柔区| 丰镇市| 徐水县| 宝山区| 昌黎县| 清镇市| 咸阳市| 贡觉县| 宁阳县| 宝山区| 尼玛县| 凤台县| 龙海市| 古蔺县| 读书| 长沙县| 清苑县| 宁德市| 湛江市| 渝北区| 绥宁县| 潍坊市|