国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用二維格子復雜性挖掘肝癌CT圖像預后信息

2018-06-21 13:19:36武瑞霞張子瑞陳宇彬葉蘇哲鄭明華柯大觀
溫州醫(yī)科大學學報 2018年6期
關鍵詞:細粒復雜性準確率

武瑞霞,張子瑞,陳宇彬,葉蘇哲,鄭明華,柯大觀

(1.溫州醫(yī)科大學 生物醫(yī)學工程學院,浙江 溫州 325035;2.溫州醫(yī)科大學附屬第一醫(yī)院 感染內(nèi)科,浙江 溫州 325015)

醫(yī)學圖像模式識別已經(jīng)成為生物醫(yī)學工程學和影像醫(yī)學的熱點領域[1-4],如何提取圖像的有效特征是該領域研究的重點。本研究中應用的格子復雜性(lattice complexity,LC)是一種通用的時間序列分析算法[5-6],作為廣義信息度量[7],特別適用于人體這類復雜系統(tǒng)所產(chǎn)生的數(shù)據(jù)。一維LC已在腦電數(shù)據(jù)分析上取得良好效果[8],有必要驗證其二維版本的表現(xiàn)。而預測肝癌患者術(shù)后存活時間本身是個醫(yī)學難題[9],本研究嘗試基于醫(yī)學影像圖像建立肝癌預后模型。

1 材料和方法

1.1 材料 作為回顧性研究,實驗中采用的患者資料和數(shù)據(jù)均來自溫州醫(yī)科大學附屬第一醫(yī)院,根據(jù)臨床資料的完整性選取了年齡27~79歲的92例原發(fā)性肝癌患者,其中男80例,女12例,每位患者擁有至少28張腹部CT掃描圖像。所有患者于2005年10月到2010年5月間接受了腫瘤切除手術(shù)。在3.5年的術(shù)后跟蹤隨訪中,有62例患者存活,30例死亡。本研究經(jīng)溫州醫(yī)科大學附屬第一醫(yī)院倫理委員會審核批準。

1.2 方法 醫(yī)學圖像模式識別一般過程如圖1所示。將全體數(shù)據(jù)劃分為訓練集和測試集時通常是按比例隨機劃分,隨后保持不變。分類模型通過訓練集數(shù)據(jù)建立,而測試集用來驗證模型的泛化能力。當樣本量較小時,重新劃分會對結(jié)果有顯著影響。當只考慮驗證特征的有效區(qū)分度時,也可采用全部數(shù)據(jù)交叉驗證的手段。本研究首先用全部數(shù)據(jù)交叉驗證挑選出有效的特征參數(shù),隨后一次性劃分訓練集和測試集做進一步檢驗。

圖1 圖像模式識別流程圖

1.2.1 醫(yī)學圖像預處理:由于LC在原理上對大片相同符號的片段不敏感,為了檢驗算法是否確實簡單易用,本研究沒有在原始CT圖像上進行目標定位和裁剪,而是直接將平掃的腹部CT圖像連同背景(見圖2)一起縮小為32像素×32像素并進行二值化。二值化的具體操作是先求整張圖片所有灰度值的均值,然后以此為“閾值”,把原始圖像里面≥均值的灰度值用“1”代替,反之用“0”代替。

圖2 原發(fā)性肝癌患者原始腹部CT圖

1.2.2 圖像維度轉(zhuǎn)換:二值化后的圖像被保存于二維矩陣中,矩陣中每個位置上的元素只有0或1兩個符號。需要先利用希爾伯特(Hilbert)曲線將二維矩陣數(shù)據(jù)轉(zhuǎn)換為一維符號序列以便進行復雜性度量的計算。二維Hilbert曲線作為一種空間填充曲線可以遍歷方形區(qū)域的每個位置[10-11],從而實現(xiàn)從二維到一維的數(shù)據(jù)轉(zhuǎn)換并保留原數(shù)據(jù)局部和整體的結(jié)構(gòu)信息。圖3所示為三階Hilbert曲線。

圖3 三階Hilbert曲線

1.2.3 圖像復雜性特征提?。寒斍皩W界的共識是生命體之類的復雜系統(tǒng)應當處于一種“弱混沌”或者“混沌邊緣”的狀態(tài)[12-13]。LC在一定參數(shù)下對“混沌邊緣”敏感[5-6],因而在醫(yī)學領域有應用潛力。LC的主要思想是:凡是有確定性因果關系的,或是歷史上已經(jīng)出現(xiàn)過的片段,都可以被壓縮,只有不可壓縮的符號數(shù)目才能代表符號序列的復雜程度。LC值依賴于一個控制參數(shù)r,稱為細粒化指數(shù)或細?;驍?shù)(fine-graining order)。將一維符號序列細?;?,就是將序列中相鄰的r個符號視為整體來判斷前后次序之間的確定性因果關系。當細?;_到一定程度時,序列中所有相鄰的r個符號都不相等或周而復始,此時LC值為1,而r就是臨界細?;驍?shù)(critical fine-graining order)[5],表示為r*。

具體而言,LC值的求取過程是依次對序列中不可壓縮的“添加”符號計數(shù)的過程。假定存在一個通用的非線性迭代系統(tǒng),通過輸入長度為r的初始符號序列來迭代產(chǎn)生后續(xù)的新符號[5-6],將新符號納入初始序列并拋棄原先初始序列的第一個符號,隨后繼續(xù)迭代。當確定性的因果規(guī)律被破壞時,我們先檢查前一次“添加”操作后的符號序列能否通過“復制”歷史來得到,如果不能“復制”,就認為新符號要通過外部“添加”獲得,用“∨”表示?!疤砑印辈僮鲗⒄麄€序列分成段落,分段數(shù)目就是LC值,代表了原符號序列中無法壓縮的信息含量。

對于如下一串符號序列:

如果取r為2,可將任意相鄰兩符號轉(zhuǎn)化為四進制數(shù),細?;笮滦蛄锌杀硎緸椋?/p>

則其LC值為4:

從左到右掃描序列,可以發(fā)現(xiàn)第一套迭代規(guī)則0→0被第五個0后出現(xiàn)的1破壞,只能“添加”這個1。第二套迭代規(guī)則中2→1被第二個2之后出現(xiàn)的0破壞,而檢查發(fā)現(xiàn)32120在整個掃描歷史0000132120中沒有先例,所以也不能“復制”,因而這個0也必須“添加”,以此類推。顯然,對于LC而言,無論參數(shù)r取多大,大量相同符號組成的前后“背景”會被視為簡單迭代規(guī)則的產(chǎn)物,基本上不影響計算結(jié)果。但r*受前置“背景”影響較大,上述例子中,序列S的r*值為6,即當r大于或等于前置的“背景”長度6時,整個序列的確定性因果律才能貫穿到底。本研究中,我們計算了所有患者每張圖像的r*并發(fā)現(xiàn)最小的r*等于69,于是就在1到69之間大致均勻地取了8個值作為r,求出對應的LC值作為模式識別特征。表1顯示了所有患者圖像的r*以及LC值的均數(shù)和標準差。為避免特征數(shù)值大小影響機器學習結(jié)果,加快計算速度,所有特征在使用前都做了歸一化,即數(shù)值被量化到0和1之間。

表1 患者圖像的復雜度特征

1.2.4 圖像特征分類:支持向量機(support vector machines,SVM)[14]在機器學習領域占有重要地位,適合小樣本數(shù)據(jù)的分類。本研究采用臺灣大學林智仁教授開發(fā)的LIBSVM工具箱[15]。核函數(shù)選用徑向基函數(shù)(radial basis function,RBF)。利用SVM建模的關鍵在于搜尋合適的懲罰因子“C”和RBF寬度參數(shù)“gamma”,后者通常用“G”表示。在搜尋的過程中,一般采用K-折交叉檢驗(K-fold cross validation)方法[14]。其做法是將樣本數(shù)據(jù)劃分為K個子集,每次先用其中K-1個子集作為訓練集訓練出模型,再用余下的一個子集作為測試集檢驗模型的識別準確率。不斷輪換測試集,最后輸出所有測試準確率的平均值作為選擇“C”和“G”的依據(jù)。但選擇特征時,準確率并非唯一標準,一般情況下“C”和“G”越小,越能避免“過學習”狀態(tài),而太小也可能意味著存在“欠學習”的狀況,也會影響模型的泛化能力,其中“C”的作用更明顯。

在本研究中,先用全部92例患者數(shù)據(jù)進行十折交叉驗證,根據(jù)在“C”和“G”搜尋范圍內(nèi)的最佳結(jié)果選出合適的細粒化序數(shù)。采取10折交叉驗證是因為納入模型的是全部的可觀的樣本量,這對實驗結(jié)果起到?jīng)Q定性作用。而作為一種補充,將對應的LC值作為后續(xù)測試的特征,再隨機劃分出46例訓練集和46例測試集,對訓練集選擇3折交叉驗證搜尋最佳的“C”和“G”,由訓練集數(shù)據(jù)建模后再用測試集來測試模型的泛化能力。

2 結(jié)果

2.1 全部數(shù)據(jù)十折交叉驗證結(jié)果 作為預熱,我們從每位患者的圖像中先抽了最中間的單幅圖像,利用不同r參數(shù)下的8個LC值和r*分別作為特征進行10折交叉驗證,發(fā)現(xiàn)除了r取9時平均準確率為69.6%,r*和其余參數(shù)下的LC值作為特征是無效的,對應的模型都只是將所有樣本識別為一類。當每位患者都采用28幅圖時,如表2所示,情況有了變化,r為19時的LC全部數(shù)據(jù)10折交叉驗證的平均準確率最高,選出的“C”和“G”大小比較合適,最終對全部數(shù)據(jù)建模后模型識別準確率也最高,實際上只錯了一個。接下來,我們選擇19作為細粒化序數(shù)來初步驗證LC特征的泛化能力。

2.2 測試集結(jié)果 將92例患者數(shù)據(jù)中2個類別都以1:1的比例劃分到訓練集和測試集中,兩集合正負樣本都各有31例和15例。以r*和r=19時對應LC值為特征,由于樣本量大減,我們采取訓練集3折交叉驗證的方法確定參數(shù)“C”和“G”,然后利用訓練集全體數(shù)據(jù)建模后對測試集進行分類測試。我們發(fā)現(xiàn)如果每位患者只取最中間的單幅圖時,兩個特征及其組合都不能有效區(qū)分兩類。當每位患者取28幅圖時,分類準確率結(jié)果見表3,當訓練的樣本數(shù)量降低一半后,參數(shù)為19的LC特征交叉驗證平均準確率也有所下降,這可能是訓練樣本數(shù)量不足所引起的。將模型應用在未經(jīng)訓練的測試集上,識別準確率沒有降低,說明至少在這兩個集合上LC特征的模式識別效果是穩(wěn)定的,不存在“過學習”問題。而r*的表現(xiàn)不如LC穩(wěn)定,兩者結(jié)合也沒有顯示互補性。

表2 不同細粒化程度對全部數(shù)據(jù)交叉驗證結(jié)果和分類準確率

表3 復雜性特征的測試集分類準確率

3 討論

上述多組實驗結(jié)果表明,即便不做圖像分割,保留原有背景,直接將原始圖像大幅縮小并二值化,利用二維格子復雜性也能有效提取醫(yī)學圖像隱含的預后信息,可以用來建立SVM模型預測肝癌患者術(shù)后存活時間。由醫(yī)學圖像反映出來的人體結(jié)構(gòu)的復雜性有其他特征所不能替代的作用。人體從一個受精卵開始發(fā)育為成熟個體并維持生理機能,可以看成確定性的迭代過程,具有分形結(jié)構(gòu),即在不同尺度下有自相似性。因而,在很多尺度下的醫(yī)學圖像復雜性都能提取出有臨床價值的信息。這是本研究將圖像尺寸大幅縮小、丟失了大量數(shù)值精度后仍然能夠捕捉到有效信息的原因。圖像縮小并二值化之后處理的速度很快,對外部噪音也有很強的魯棒性,意味著本研究的方法對設備不敏感。

本研究旨在對二維LC在醫(yī)學圖像上的應用價值進行初步驗證,由于數(shù)據(jù)和計算資源有限,實驗結(jié)果存在如下不足:①沒有充分測試更多不同參數(shù)下LC的效果,而是只選取了8個參數(shù),除了LC與r*結(jié)合,也沒有測試不同參數(shù)下的LC特征組合;②沒有嘗試與臨床指標之間的特征組合,追求最佳識別效果;③盡管在理論和實驗上都證實LC對單調(diào)背景不敏感,但r*顯然受背景影響較大,可以嘗試去除背景或改變希爾伯特曲線的搜索方式來改善r*的表現(xiàn);④將圖像大幅縮小雖然有種種優(yōu)勢但也有可能錯失一些有用信息,在計算資源更豐富的前提下,有必要探索更合適的壓縮尺寸;⑤患者數(shù)量僅92例,且來源單一,樣本量太小可能導致偏差,如果能獲得更多病例或其他形式的醫(yī)學圖像如超聲醫(yī)學圖像、核磁共振圖像等等,會更有說服力。

未來的工作除了彌補上述不足,在預處理技術(shù)上仍然存在大幅改進的余地,比如先對圖像進行二維經(jīng)驗模態(tài)分解(bidimensional empirical mode decomposition)[16]獲取不同層次的紋理圖像,在較大的圖像中設立可移動的窗口來提取局部復雜性特征并和全局特征相結(jié)合等等。

總之,由于二維LC算法簡單易用,對圖像預處理要求低,完全有資格成為正在興起的“影像組學”[4]特征。單就CT圖像而言,更有趣的可能是將LC推廣應用到三維圖像的分析上。三維重建后的立體圖像復雜性度量將有助于提取人體腹腔內(nèi)部的立體結(jié)構(gòu)信息,而不僅僅是平面結(jié)構(gòu)信息,從而有更大的潛力為輔助診斷和預后建模提供幫助。

[1] BISHOP C M. Pattern recognition and machine learning[M].New York: Springer International Publishing AG, 2006.

[2] LANZARINI L C, DE GIUSTI A E. Pattern recognition in medical images using neural networks[J]. J Comput Sci Technol, 2001, 1(4): 45-54.

[3] NAGARAJ S, RAO G N, KOTESWARARAO K, et al. The role of pattern recognition in computer-aided diagnosis and computer-aided detection in medical imaging: a clinical validation[J]. Int J Comput Appl, 2010, 8(5): 18-22.

[4] GILLIES R J, KINAHAN P E, HRICAK H. Radiomics:Images are more thanpictures, they are data[J]. Radiology,2016, 278(2): 563-577.

[5] 柯大觀, 張宏, 童勤業(yè). 格子復雜性和符號序列的細?;痆J]. 物理學報,2005, 54(2): 534-542.

[6] KE D G, TONG Q Y. Easily adaptable complexity measure for finite time series[J]. Phys Rev E, 2008, 77(6 pt 2):066215.

[7] KE D G. Unifying complexity and information[J]. Sci Rep,2013, 3: 1585

[8] 劉軍, 鄒倩, 柯大觀, 等. 基于腦電格子復雜性分析的麻醉深度監(jiān)測研究[J]. 傳感技術(shù)學報, 2015, 28(12): 1747-1753.

[9] QIAO G, LI J, HUANG A, et al. Artificial neural networking model for the prediction of post-hepatectomy survival of patients with early hepatocellular carcinoma[J]. J Gastroen Hepato, 2014, 29(12): 2014-2020.

[10] SAGAN H. Hilbert’s space-filling curve[M]. New York:Springer International Publishing AG, 1994: 9-30.

[11] BUTZ A R. Alternative algorithm for Hilbert’s space- filling curve[J]. IEEE T Comput, 1971, 20(4): 424-426.

[12] LANGTON C G. Computation at the edge of chaos: Phasetransitions and emergent computation[J]. Physica D, 1990,42 (1): 12-37.

[13] ANANOS G F J, TSALLIS C. Ensemble averages and nonextensivity at the edge of chaos of one-dimensional maps[J].Phys Rev Lett, 2004, 93: 020601.

[14] 丁世飛, 齊丙娟, 譚紅艷. 支持向量機理論與算法研究綜述[J]. 電子科技大學學報, 2011, 40(1): 2-10.

[15] CHANG C, LIN C. LIBSVM: A library for support vector machines[J]. ACMT Intell Syst Technol, 2011, 2(3): 1-27.

[16] NUNES J, BOUAOUNE Y, DELECHELLE E, et al. Image analysis by bidimensional empirical mode decomposition[J].Image Vision Comput, 2003, 21(12): 1019-1026.

猜你喜歡
細粒復雜性準確率
MG-9#捕收劑在極細粒煤泥浮選中的應用
細粒級尾砂高濃度膠結(jié)充填試驗研究與工業(yè)應用
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
PFNA與DHS治療股骨近端復雜性骨折的效果對比
簡單性與復雜性的統(tǒng)一
科學(2020年1期)2020-08-24 08:07:56
高速公路車牌識別標識站準確率驗證法
濟陽陸相斷陷湖盆泥頁巖細粒沉積層序初探
應充分考慮醫(yī)院管理的復雜性
旬邑县| 河北区| 随州市| 丰原市| 云安县| 剑河县| 昆山市| 敦化市| 徐州市| 凉山| 景洪市| 德保县| 博湖县| 沿河| 巍山| 吐鲁番市| 盐城市| 阳朔县| 剑阁县| 金川县| 八宿县| 吐鲁番市| 青神县| 桑植县| 梁山县| 鄂托克前旗| 临颍县| 朝阳县| 拜城县| 泰和县| 伽师县| 九江市| 会泽县| 香港 | 汉寿县| 庄河市| 盐亭县| 潮州市| 浦城县| 盖州市| 屯门区|