謝秋晨 梅楠 陳堅(jiān) 尹波
摘 要 在過去的幾年里,深度學(xué)習(xí)的發(fā)展勢頭很強(qiáng)勁。在骨科和創(chuàng)傷學(xué)領(lǐng)域,已有一些研究使用深度學(xué)習(xí)來輔助檢測X線片中的骨折。相比之下,在通過CT檢測骨折和進(jìn)行骨折分類方面,使用深度學(xué)習(xí)的研究還較少。本文概要介紹深度學(xué)習(xí)用于X線片和CT圖像上骨折檢測的方法、深度學(xué)習(xí)對骨傷影像學(xué)診斷的賦能潛力以及深度學(xué)習(xí)在骨折檢測中的偏差和未來發(fā)展方向。
關(guān)鍵詞 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 骨折檢測
中圖分類號:TP391.5; R683 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-1533(2020)23-0010-04
Application of deep learning in orthopedic trauma imaging
XIE Qiuchen1*, MEI Nan1, CHEN Jian2, YIN Bo1**(1. Department of Radiology; 2. Department of Gastroenterology, Huashan Hospital, Fudan University, Shanghai 200040, China)
ABSTRACT In the past few years, the development momentum of deep learning has been very strong. In the field of orthopedics and traumatology, there have been some studies using deep learning to detect fractures in X-rays imaging. In contrast, there are relatively few deep learning studies to detect and classify fractures by CT. In this narrative review, we give a brief overview of deep learning techniques, describe the methods that deep learning has been applied to fracture detection in X-rays and CT imaging so far, discuss how deep learning empowers this field and comment on the bias and future development direction of this technology.
KEy WORDS deep learning; convolutional neural network; fracture detection
人工智能識別骨折是通過完成檢測和定位這兩個(gè)獨(dú)立的任務(wù)而實(shí)現(xiàn)的。已有研究者訓(xùn)練神經(jīng)網(wǎng)絡(luò)自動裁剪相關(guān)解剖結(jié)構(gòu)的邊界框以進(jìn)行骨折的檢測,但對網(wǎng)絡(luò)決策,使用顯著圖或熱圖來顯示圖像中的哪些特定像素即定位最為重要。理想情況下,突出顯示的像素應(yīng)對應(yīng)診斷醫(yī)師所能理解的高階特征,即為顯示骨折的圖像區(qū)域。
大多數(shù)研究使用開源卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和大型訓(xùn)練數(shù)據(jù)集,以經(jīng)驗(yàn)豐富的放射科醫(yī)師的診斷為參考標(biāo)準(zhǔn),檢測髖[1-4]、肩[4-5]、腕[4, 6-8]、腳踝[4, 9]和脊柱[10-14]等多個(gè)身體部位的骨折。不同深度學(xué)習(xí)方法的診斷性能并不相同,但在所有研究中其受試者工作特征曲線下面積(area under the curve of receiver operating characteristics, AUC, 0.86 ~ 0.99)、敏感度(73% ~ 100%)、特異性(73% ~ 98%)和準(zhǔn)確度(75% ~ 99%)都很高(表1)。
1 深度學(xué)習(xí)在骨折檢測中的應(yīng)用現(xiàn)況
在骨科和創(chuàng)傷學(xué)領(lǐng)域,多種深度學(xué)習(xí)方法已被用于X線片中的骨折檢測,大大提高了骨折的臨床診斷效率。Lindsey等[4]使用由135 409張X線片組成的訓(xùn)練數(shù)據(jù)集,通過改進(jìn)的U-Net分類CNN檢測11個(gè)身體部位的骨折,隨后再用由300張隨機(jī)挑選出的X線片組成的保留測試集進(jìn)行驗(yàn)證,得出該機(jī)器檢測骨折的AUC為0.99,敏感度和特異性分別為94%和95%。此外,他們也使用相同的數(shù)據(jù)集評估了急診醫(yī)師在使用和不使用機(jī)器的情況下診斷骨折的表現(xiàn),結(jié)果顯示在使用機(jī)器輔助檢測X線片中的骨折時(shí),急診醫(yī)師的誤診率平均降低了47%。
在使用深度學(xué)習(xí)檢測骨折方面,絕大多數(shù)研究都集中在基于X線片的模型性能上,但現(xiàn)已有研究者開發(fā)出一種可用于CT檢測和標(biāo)記跟骨骨折的深度學(xué)習(xí)方法。Pranata等[15]使用CNN和計(jì)算機(jī)輔助決策(computer-assisted decision, CAD)相結(jié)合的方法,以經(jīng)驗(yàn)豐富的放射科醫(yī)師的診斷為參考標(biāo)準(zhǔn),分析了683例有跟骨骨折患者和1 248例無跟骨骨折個(gè)體的非分割CT圖像。他們先用ResNet分類CNN將CT檢查中的橫斷位、冠狀位和矢狀位圖像分為骨折和非骨折兩類,然后再用由加速魯棒特征、Canny邊緣檢測和輪廓跟蹤算法組成的CAD方法來檢測骨折在CT圖像上的確切位置。通過使用由136例有跟骨骨折患者和250例無跟骨骨折個(gè)體的CT圖像組成的保留測試集進(jìn)行測試,發(fā)現(xiàn)該機(jī)器對跟骨骨折定位的準(zhǔn)確度為98%。
2 深度學(xué)習(xí)在各部位骨折檢測中的應(yīng)用
CNN已用于中軸骨和附肢骨的骨折檢測,并取得了很大的成功。隨著成像容積不斷增加,使用人工智能算法進(jìn)行骨折自動檢測不僅可提高臨床工作效率,且有助于對患者的精準(zhǔn)診療。以下按骨折位置回顧有關(guān)骨折檢測方面已發(fā)表的研究報(bào)告,由此來介紹深度學(xué)習(xí)是如何給骨傷影像學(xué)診斷賦能的。
2.1 上肢骨折
已有研究者嘗試使用CNN模型來檢測骨折,并根據(jù)已知的分類系統(tǒng)(如Neer分類)對骨折進(jìn)行分類。Chung等[5]開發(fā)了一種深度CNN算法,可在肩部前后位X線片上對肱骨近端骨折進(jìn)行檢測和分類,將正常肩部與肱骨近端骨折區(qū)分開來,準(zhǔn)確度、敏感度和特異性分別達(dá)到96%、99%和97%。一般來說,使用CNN對骨折進(jìn)行分類具有一定的挑戰(zhàn)性,準(zhǔn)確度僅有65% ~ 86%。但總體而言,使用CNN的檢測表現(xiàn)優(yōu)于普通放射科醫(yī)師和普通骨科醫(yī)師,與具有肩部專業(yè)知識的骨科醫(yī)師相當(dāng),特別是在復(fù)雜的三部分和四部分骨折的檢測中,其性能優(yōu)勢表現(xiàn)得更為明顯。
Kim等[6]發(fā)現(xiàn),使用中等訓(xùn)練數(shù)據(jù)集(約1 400張X線片)并在非醫(yī)學(xué)圖像上進(jìn)行預(yù)訓(xùn)練的深度CNN遷移學(xué)習(xí)可用于腕部側(cè)位X線片的骨折檢測,其AUC為0.954,敏感度和特異性分別為90%和88%。遷移學(xué)習(xí)運(yùn)用一種模型,能從本質(zhì)上減少計(jì)算需求和大量訓(xùn)練的要求,因該模型已學(xué)習(xí)了可用于完成所有醫(yī)學(xué)和非醫(yī)學(xué)圖像識別任務(wù)的低級圖像特征(線、邊緣和曲線等),只需使用用于完成特定醫(yī)學(xué)圖像檢測任務(wù)的訓(xùn)練數(shù)據(jù)集(如X線片)對網(wǎng)絡(luò)模型進(jìn)行再訓(xùn)練即可。使用具有出色模型性能的遷移學(xué)習(xí)可大大減輕獲取大量數(shù)據(jù)以進(jìn)行穩(wěn)健的網(wǎng)絡(luò)開發(fā)的負(fù)擔(dān),且避免從頭開始建模的需求。
目前已有研究比較了在使用或不使用人工智能的情況下急診醫(yī)師的骨折檢測表現(xiàn)。Lindsey等[4]使用由資深骨科醫(yī)師注釋的具有真實(shí)性的大訓(xùn)練數(shù)據(jù)集,發(fā)現(xiàn)深度CNN能改善一線急診醫(yī)師檢測X線片上腕部骨折的能力:在CNN輔助下,骨折檢測的敏感度從81%提高到92%,特異性從88%提高到94%,誤診率降低了47%。研究者認(rèn)為,深度CNN可有效地將亞專科技能提供給具有計(jì)算機(jī)訪問權(quán)限的普通臨床醫(yī)師,從而顯著改善這些醫(yī)師的診療水平,且可保證患者在不同等級的醫(yī)療機(jī)構(gòu)都獲得同等高質(zhì)量的影像學(xué)診斷。
2.2 髖部骨折
Cheng等[2]使用已使用四肢骨X線片預(yù)訓(xùn)練的深度CNN,發(fā)現(xiàn)其在骨盆正位X線片上檢測髖骨骨折的準(zhǔn)確度和敏感度分別為91%和98%,假陰性率為2%,AUC為0.98。研究者還使用梯度加權(quán)的類激活映射(即顯著圖)確認(rèn)了被認(rèn)為是類別區(qū)分的像素確在骨折部位上,并顯示骨折定位準(zhǔn)確度為96%。
Urakawa等[3]發(fā)現(xiàn),在從全髖X線片手工裁剪的股骨近端前后位片上,使用CNN和骨科醫(yī)師診斷股骨粗隆間骨折的準(zhǔn)確度分別為96%和92%,敏感度分別為94%和88%,特異性分別為97%和97%。這些結(jié)果給人印象深刻,但由于該任務(wù)范圍狹窄(僅包括股骨粗隆間骨折的髖部骨折)及需手工裁剪X線片,此算法的應(yīng)用受到很大的限制。
2.3 踝關(guān)節(jié)骨折
在許多神經(jīng)網(wǎng)絡(luò)中,輸入的是身體某一部位的單一視圖,不能真實(shí)地反映其在臨床實(shí)踐中是如何發(fā)生的。Kitamura等[9]在沒有選用小樣本量的踝關(guān)節(jié)X線片訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的情況下重新訓(xùn)練了CNN(用約600張X線片),發(fā)現(xiàn)使用5個(gè)模型的集合和多個(gè)視圖(三視圖而不是踝關(guān)節(jié)的單一視圖)可將CNN檢測踝關(guān)節(jié)骨折的準(zhǔn)確度從76%提高至81%。研究者將此相對較低的準(zhǔn)確度歸因于較小的訓(xùn)練數(shù)據(jù)集,但該準(zhǔn)確度已與Olczak等[7]使用大訓(xùn)練數(shù)據(jù)集(256 000多張手腕、手和腳踝X線片)預(yù)訓(xùn)練的CNN所得到的83%的準(zhǔn)確度相當(dāng)了。
2.4 脊柱骨折
多項(xiàng)研究評估了人工智能是否可在多種成像方式(包括胸部X線片)中檢測出偶發(fā)性和非偶發(fā)性椎骨骨折的能力[16]。Burns等[10]開發(fā)了一種能使機(jī)器自動學(xué)習(xí)的計(jì)算機(jī)系統(tǒng),該系統(tǒng)使用支持向量機(jī)回歸技術(shù)在CT圖像上對胸椎和腰椎壓縮性骨折進(jìn)行檢測、定位和分類,結(jié)果顯示其診斷和定位的敏感度均為96%。Tomita等[11]創(chuàng)建了一個(gè)深度神經(jīng)網(wǎng)絡(luò),用此網(wǎng)絡(luò)對來自1 432次胸部、腹部和骨盆CT檢查中得到的10 546張二維矢狀位圖像上的偶發(fā)性脊椎骨折進(jìn)行自動檢測,準(zhǔn)確度為89%。
Mehta等[12]發(fā)現(xiàn),在常規(guī)雙能X線吸收測定法(dual-energy X-ray absorptiometry, DEXA)研究中,支持向量機(jī)學(xué)習(xí)算法經(jīng)使用DEXA輔助數(shù)據(jù)后可識別出偶發(fā)性L1 ~ L4椎體骨折,而無需再進(jìn)行諸如椎體骨折評估或其他放射學(xué)檢查等。支持向量機(jī)分類器的整體平均準(zhǔn)確度達(dá)91.8%,敏感度和特異性分別為81.8%和97.4%,而放射科醫(yī)師不能預(yù)先識別出所有的骨折。值得注意的是,該算法基于DEXA定量輔助數(shù)據(jù)(如骨密度或椎體高度的測量值)而不是圖像像素?cái)?shù)據(jù)來檢測骨折。真實(shí)數(shù)據(jù)的骨折標(biāo)記是基于那些骨折患者在DEXA檢查之前的腰椎的CT、磁共振成像或X線檢查結(jié)果,而對沒有骨折的對照組個(gè)體則是基于DEXA檢查之后進(jìn)行的類似用于診斷的影像學(xué)檢查。研究者認(rèn)為,在DEXA研究中通過人工智能輔助檢測腰椎的偶發(fā)性骨折可改變臨床決策,即能促使患者接受進(jìn)一步的診斷性檢查或?qū)颊叩脑\斷更改為嚴(yán)重的骨質(zhì)疏松癥,而這些都無需額外的影像學(xué)檢查。
Raghavendra等[13]使用專門設(shè)計(jì)的分類CNN分析100例有胸、腰椎椎體骨折患者和60例無胸、腰椎椎體骨折個(gè)體的整個(gè)脊柱非分割矢狀位CT圖像,該機(jī)器使用一個(gè)由210例有骨折患者和126例無骨折個(gè)體的CT圖像組成的保留測試集,結(jié)果發(fā)現(xiàn)對椎體骨折檢測的敏感度和特異性分別為100%和98%。Tomita等[11]使用耦合神經(jīng)網(wǎng)絡(luò)分析713例胸、腰椎椎體骨折患者和719例無胸、腰椎椎體骨折個(gè)體的整個(gè)脊柱非分割矢狀位CT圖像,先使用ResNet分類CNN進(jìn)行特征提取,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)模塊聚集提取的特征進(jìn)行分類和診斷。該機(jī)器使用由129次CT檢查所得圖像組成的保留測試集,結(jié)果顯示對椎體骨折檢測的AUC為0.91,敏感度和特異性分別為85%和96%。然而,這兩項(xiàng)研究僅對整個(gè)脊柱是否存在椎體骨折進(jìn)行了分類,故引發(fā)了對深度學(xué)習(xí)方法是否具有精準(zhǔn)定位骨傷位置的能力的質(zhì)疑。此后,Roth等[14]使用專門設(shè)計(jì)的CAD方法結(jié)合多圖譜標(biāo)簽融合和邊緣映射算法,以分離橫斷面CT圖像中椎體后段移位的18例骨折患者和5例無骨折個(gè)體的單個(gè)椎骨節(jié)段,然后通過專門設(shè)計(jì)的分類CNN對分離后的椎骨節(jié)段進(jìn)行分析,以確定是否存在骨折。使用由6例骨折患者分離后的椎骨節(jié)段圖像組成的測試集,發(fā)現(xiàn)該機(jī)器檢測椎體后段骨折的AUC為0.86,每例患者出現(xiàn)5和10次假陽性時(shí)的敏感度分別為71%和81%。
3 深度學(xué)習(xí)在骨折檢測中的不足和未來發(fā)展方向
骨折檢測的深度學(xué)習(xí)應(yīng)用程序主要基于計(jì)算機(jī)視覺,這意味著算法的輸入僅是單純的圖像數(shù)據(jù),而無需考慮患者或醫(yī)院的協(xié)變量。但是,算法可從訓(xùn)練數(shù)據(jù)集的像素中學(xué)習(xí)到患者和醫(yī)療過程模式,且所有訓(xùn)練數(shù)據(jù)集都有一定程度的內(nèi)部偏差和混淆。例如,混雜的變量(從圖像排序到圖像獲取間的時(shí)間或使用特定的掃描儀獲取X線片等)與識別患者的敏感度或臨床懷疑骨折有關(guān),此反過來也會影響患者實(shí)際擁有顯示骨折的圖像像素的可能性。
Badgeley等[17]研究發(fā)現(xiàn),CNN不僅可預(yù)測諸如髖部骨折之類的疾病,且還可根據(jù)圖像像素來預(yù)測患者和醫(yī)院的各種過程變量(如掃描儀型號、品牌和研究重點(diǎn))。此外,與單獨(dú)的圖像特征相比,將這些具有圖像特征的變量直接合并到多模態(tài)模型中可改善模型的骨折預(yù)測性能(AUC從0.78提高至0.91)。使用骨折風(fēng)險(xiǎn)在患者和醫(yī)院的過程變量之間達(dá)到平衡的保留測試集進(jìn)行測試,見該模型幾乎隨機(jī)運(yùn)行(AUC為0.52),表明這些變量是該模型具有高預(yù)測性能的主要原因。隨著CAD算法的潛在臨床利用率持續(xù)提高,對臨床醫(yī)師和放射科醫(yī)師來說,認(rèn)識到此點(diǎn)很重要。如果CAD算法在其預(yù)測中固有地利用了其他患者和醫(yī)院因素,則醫(yī)師就不應(yīng)再假定基于圖像的預(yù)測在統(tǒng)計(jì)學(xué)上獨(dú)立于其他患者數(shù)據(jù)。當(dāng)然,還需進(jìn)行更多的研究來檢查這些因素之間的相互依賴性,以便臨床醫(yī)師和放射科醫(yī)師能結(jié)合臨床情況更好地解釋模型的判斷。實(shí)際上,混雜變量間的復(fù)雜的相互作用至少可用來部分解釋為什么模型在多站點(diǎn)試驗(yàn)中顯示其可能無法很好地用于其他醫(yī)院,原因就在于該模型是基于特定醫(yī)院來源數(shù)據(jù)的深度學(xué)習(xí)模式創(chuàng)建并進(jìn)行疾病檢測的[18]。
為了避免手動裁剪圖像這一問題,有研究者研究了如何通過訓(xùn)練一種額外的模型來進(jìn)行自動化裁剪,從而實(shí)現(xiàn)網(wǎng)絡(luò)端到端的完全自動化。Gale等[19]開發(fā)了一種單獨(dú)的CNN,作為一系列“級聯(lián)”CNN的一部分來執(zhí)行自動裁剪或定位任務(wù),這些“級聯(lián)”CNN是執(zhí)行不同類型任務(wù)的序貫CNN。從本質(zhì)上講,這種預(yù)處理CNN可學(xué)習(xí)X線片裁剪方法并將重點(diǎn)放在感興趣區(qū)域上,同時(shí)還可使網(wǎng)絡(luò)保持感興趣區(qū)域的高分辨率,防止在圖像降采樣過程中丟失重要的圖像信息,且排除可能使網(wǎng)絡(luò)混淆的潛在的無關(guān)圖像像素。其他預(yù)處理步驟也可通過選擇正確的圖像類型并輸入到相應(yīng)的后續(xù)分類CNN中自動完成。例如,Gale等[19]的研究還訓(xùn)練了排除不合適或不相關(guān)圖像的CNN,區(qū)分骨盆正位與髖部側(cè)位X線片、胸部和脊柱X線片的CNN,以及能識別感興趣區(qū)域中有金屬偽影的圖像并予以自動排除的CNN。
目前,盡管使用人工智能檢測骨折基本上還處于研究階段,但已有公司開始嘗試向臨床實(shí)用方向推進(jìn)。美國FDA曾發(fā)信(https://www.accessdata.fda.gov/cdrh_ docs/pdf18/DEN180005.pdf)表示,Imagen技術(shù)公司的OsteoDetect深度學(xué)習(xí)系統(tǒng)在統(tǒng)計(jì)學(xué)上顯著改善了臨床上自成人腕關(guān)節(jié)后X線前位片和側(cè)位片上診斷橈骨遠(yuǎn)端骨折的準(zhǔn)確性(AUC從0.84提高到0.89)。美國FDA將該深度學(xué)習(xí)系統(tǒng)歸類為“放射學(xué)計(jì)算機(jī)輔助檢測和診斷軟件”,并明確提及此機(jī)器的用途是告知“由臨床用戶作出的主要診斷和患者治療決定”,且“不打算替代完整的臨床醫(yī)師評估或臨床判斷程序”。
參考文獻(xiàn)
[1] Adams M, Chen W, Holcdorf D, et al. Computer vs human: deep learning versus perceptual training for the detection of neck of femur fractures [J]. J Med Imaging Radiat Oncol, 2019, 63(1): 27-32.
[2] Cheng CT, Ho TY, Lee TY, et al. Application of a deep learning algorithm for detection and visualization of hip fractures on plain pelvic radiographs [J]. Eur Radiol, 2019, 29(10): 5469-5477.
[3] Urakawa T, Tanaka Y, Goto S, et al. Detecting intertrochanteric hip fractures with orthopedist-level accuracy using a deep convolutional neural network [J]. Skeletal Radiol, 2019, 48(2): 239-244.
[4] Lindsey R, Daluiski A, Chopra S, et al. Deep neural network improves fracture detection by clinicians [J]. Proc Natl Acad Sci U S A, 2018, 115(45): 11591-11596.
[5] Chung SW, Han SS, Lee JW, et al. Automated detection and classification of the proximal humerus fracture by using deep learning algorithm [J]. Acta Orthop, 2018, 89(4): 468-473.
[6] Kim DH, MacKinnon T. Artificial intelligence in fracture detection: transfer learning from deep convolutional neural networks [J]. Clin Radiol, 2018, 73(5): 439-445.
[7] Olczak J, Fahlberg N, Maki A, et al. Artificial intelligence for analyzing orthopedic trauma radiographs [J]. Acta Orthop, 2017, 88(6): 581-586.
[8] Thian YL, Li Y, Jagmohan P, et al. Convolutional neural networks for automated fracture detection and localization on wrist radiographs [J/OL]. Radiol Artif Intell, 2019, 1(1): e180001 [2020-04-17]. doi: 10.1148/ryai.2019180001.
[9] Kitamura G, Chung CY, Moore BE 2nd. Ankle fracture detection utilizing a convolutional neural network ensemble implemented with a small sample, de novo training, and multiview incorporation [J]. J Digit Imaging, 2019, 32(4): 672-677.
[10] Burns JE, Yao J, Summers RM. Vertebral body compression fractures and bone density: automated detection and classification on CT images [J]. Radiology, 2017, 284(3): 788-797.
[11] Tomita N, Cheung YY, Hassanpour S. Deep neural networks for automatic detection of osteoporotic vertebral fractures on CT scans [J]. Comput Biol Med, 2018, 98: 8-15.
[12] Mehta SD, Sebro R. Computer-aided detection of incidental lumbar spine fractures from routine dual-energy X-ray absorptiometry (DEXA) studies using a support vector machine classifier [J]. J Digit Imaging, 2020, 33(1): 204-210.
[13] Raghavendra U, Bhat NS, Gudigar A, et al. Automated system for the detection of thoracolumbar fractures using a CNN architecture [J]. Future Gener Comput Syst, 2018, 85: 184-189.
[14] Roth HR, Wang Y, Yao J, et al. Deep convolutional networks for automated detection of posterior-element fractures on spine CT [EB/OL]. [2020-04-17]. https://arxiv.org/ pdf/1602.00020.pdf.
[15] Pranata YD, Wang KC, Wang JC, et al. Deep learning and SURF for automated classification and detection of calcaneus fractures in CT images [J]. Comput Methods Programs Biomed, 2019, 171: 27-37.
[16] Kasai S, Li F, Shiraishi J, et al. Usefulness of computer-aided diagnosis schemes for vertebral fractures and lung nodules on chest radiographs [J]. AJR Am J Roentgenol, 2008, 191(1): 260-265.
[17] Badgeley MA, Zech JR, Oakden-Rayner L, et al. Deep learning predicts hip fracture using confounding patient and healthcare variables [J/OL]. NPJ Digit Med, 2019, 2: 31[2020-04-17]. doi: 10.1038/s41746-019-0105-1.
[18] Zech JR, Badgeley MA, Liu M, et al. Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: a cross-sectional study [J/OL]. PLoS Med, 2018, 15(11): e1002683 [2020-04-17]. doi: 10.1371/journal. pmed.1002683.
[19] Gale W, Oakden-Rayner L, Carneiro G, et al. Detecting hip fractures with radiologist-level performance using deep neural networks [EB/OL]. [2020-04-17]. https://arxiv.org/ pdf/1711.06504.pdf.