閔棟
在人工智能的引領(lǐng)下,新一輪科技革命和產(chǎn)業(yè)變革已經(jīng)展開。
當(dāng)2016年IBM的人工智能(AI)“沃森”學(xué)習(xí)海量醫(yī)學(xué)論文后,在人類醫(yī)生們對(duì)一名病人束手無策的情況下,10分鐘內(nèi)判斷出病人得的是罕見白血病,并給出了治療方案,人工智能給醫(yī)療領(lǐng)域帶來的就不僅是沖擊,還有無限可能的未來。
AI“思考”出針對(duì)每一個(gè)病人的單獨(dú)的結(jié)論,是基于它運(yùn)轉(zhuǎn)的規(guī)則不是事先輸入的程序,而是依托龐大的后臺(tái)數(shù)據(jù)庫。在人工智能領(lǐng)域,這被稱為“深度學(xué)習(xí)”。作為AI領(lǐng)域的重要技術(shù),深度學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí),而大模型則是通過使用大量的模型來訓(xùn)練數(shù)據(jù),可以說是深度學(xué)習(xí)模型。
2023年風(fēng)靡全球的ChatGPT,就是大模型的經(jīng)典范例,其已應(yīng)用于多個(gè)醫(yī)療場(chǎng)景,在病歷書寫、報(bào)告生成、病例歸納、輔助診療等醫(yī)療服務(wù)領(lǐng)域已有應(yīng)用,未來將進(jìn)一步支持病歷記錄、醫(yī)療咨詢、患者管理、學(xué)術(shù)交流等醫(yī)療場(chǎng)景,為患者、醫(yī)生和研究人員提供高效、智能的解決方案。
截至目前,在醫(yī)療領(lǐng)域的國產(chǎn)大模型數(shù)量不少于40個(gè)。
就技術(shù)而言,大模型本質(zhì)基本相同,通過對(duì)大量數(shù)據(jù)的學(xué)習(xí)和分析,提取出隱藏在數(shù)據(jù)中的規(guī)律和特征,如醫(yī)療大模型重點(diǎn)支持醫(yī)學(xué)圖像識(shí)別和分析、醫(yī)療數(shù)據(jù)分析和預(yù)測(cè),實(shí)現(xiàn)更準(zhǔn)確、高效的醫(yī)療診斷和治療。
大模型因側(cè)重點(diǎn)不一樣,如開源或閉源,后續(xù)發(fā)展各有特色?;ヂ?lián)網(wǎng)巨頭騰訊、百度、京東等的大模型開發(fā),涵蓋藥物研發(fā)、智慧診療、醫(yī)療設(shè)備運(yùn)維、醫(yī)院管理等多個(gè)領(lǐng)域。其中,京東健康正式發(fā)布面向醫(yī)療健康行業(yè)的大模型“京醫(yī)千詢”,以京東言犀通用大模型為基礎(chǔ),開發(fā)覆蓋全流程醫(yī)療需求、實(shí)現(xiàn)智能決策、支持多模態(tài)的醫(yī)療大模型;華為云與廣州金域醫(yī)學(xué)正式簽署盤古大模型戰(zhàn)略合作協(xié)議,雙方將合力打造醫(yī)檢行業(yè)AI大模型,驅(qū)動(dòng)醫(yī)學(xué)檢驗(yàn)全鏈條多場(chǎng)景的智能化;醫(yī)聯(lián)自主研發(fā)的基于Transformer架構(gòu)的醫(yī)療大語言模型——MedGPT,能夠支持循序漸進(jìn)多輪問診,引導(dǎo)患者收集足夠的診斷決策因素,保證后續(xù)診斷有效,在與三甲主治醫(yī)生診斷相比中,已達(dá)到96%的一致性。
從技術(shù)實(shí)現(xiàn)方面來看,一類是直接開發(fā)形成的醫(yī)療大模型,如醫(yī)聯(lián)的MedGPT、深睿醫(yī)療的Deepwise MetAI等;另一類是基于通用大模型而進(jìn)一步訓(xùn)練形成垂類行業(yè)大模型,如華為云盤古大模型、京東健康“京醫(yī)千詢”、科大訊飛的“星火認(rèn)知”等。各大模型應(yīng)用根據(jù)自身既有業(yè)務(wù)基礎(chǔ)進(jìn)一步深化應(yīng)用場(chǎng)景,呈現(xiàn)出差異化發(fā)展特點(diǎn)。
由于是產(chǎn)業(yè)發(fā)展早期,國內(nèi)大模型產(chǎn)業(yè)對(duì)標(biāo)ChatGPT同步發(fā)展,目前處于跟進(jìn)復(fù)刻的階段,創(chuàng)新性總體偏弱。當(dāng)國內(nèi)大模型技術(shù)積累達(dá)到一定階段,不同應(yīng)用定位的模型優(yōu)勢(shì)將會(huì)在產(chǎn)業(yè)中顯現(xiàn)出來,呈現(xiàn)出差異化。
國外多數(shù)公司采用直接在基礎(chǔ)模型開發(fā)具備多樣性的應(yīng)用,相對(duì)聚焦且貼合行業(yè)痛點(diǎn),可以有效規(guī)避通用大模型的同質(zhì)化?,F(xiàn)階段通用大模型雖在同質(zhì)化發(fā)展,但已顯現(xiàn)出垂直領(lǐng)域大模型在應(yīng)用端的差異化創(chuàng)新突破。
差異化發(fā)展是大模型商業(yè)落地的主要途徑。用戶對(duì)于大模型產(chǎn)品的需求側(cè)重點(diǎn)各有不同,如需求強(qiáng)弱、單一或綜合功能要求等,會(huì)根據(jù)最切實(shí)的需要來適配大模型產(chǎn)品。同時(shí),大模型數(shù)據(jù)分析、代碼編寫等能力對(duì)于用戶自身素質(zhì)也有一定門檻。因此,大模型提供者落地的主要場(chǎng)景不同,角色定位各有差異。各大互聯(lián)網(wǎng)公司在用戶端各有固定場(chǎng)景,如騰訊在社交、百度在搜索、京東在購物等。
讓大模型成為一個(gè)好用的工具,在交付用戶之前,還要通過一個(gè)考試。當(dāng)前模型應(yīng)用效果測(cè)評(píng)方式多樣,工具化、智能化的綜合評(píng)價(jià)體系已具備雛形。
大模型是由海量數(shù)據(jù)和算法組成的復(fù)雜系統(tǒng),在訓(xùn)練和推理過程中會(huì)考慮很多因素。通過大模型測(cè)評(píng)能夠更好了解模型的性能和特點(diǎn),評(píng)估使用價(jià)值和意義,明確局限性和潛在風(fēng)險(xiǎn)等,公平、客觀、直觀地感知大模型真正的效果,支持用戶選擇合適的大模型。
模型測(cè)評(píng)基準(zhǔn)是通用人工智能的基石,需要同步探索構(gòu)建測(cè)試集和測(cè)試方法。國內(nèi)圍繞大模型測(cè)試集,各類機(jī)構(gòu)紛紛入場(chǎng),如真格基金構(gòu)建了大模型測(cè)試集Z-Bench;清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測(cè)集C-Eval。依托多種評(píng)測(cè)數(shù)據(jù)集,進(jìn)一步形成針對(duì)不同維度的測(cè)評(píng)方法。
由于大模型發(fā)展太快,國際上對(duì)于大模型測(cè)評(píng)目前尚無絕對(duì)標(biāo)準(zhǔn)?!堵槭±砉た萍荚u(píng)論》的一個(gè)評(píng)測(cè)相對(duì)全面,從研發(fā)、商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢(shì)等方面檢測(cè)大模型的全面能力。其評(píng)測(cè)使用的測(cè)試集包含600道題目,覆蓋了語言專項(xiàng)、數(shù)學(xué)專項(xiàng)、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識(shí)、安全性共8個(gè)一級(jí)大類,126個(gè)二級(jí)分類,290個(gè)三級(jí)標(biāo)簽,并針對(duì)問題的豐富性和多樣性做了優(yōu)化。
另外,國際數(shù)據(jù)公司IDC的測(cè)評(píng),是將大模型分為三層,服務(wù)生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應(yīng)用,對(duì)每一層的能力都提供測(cè)評(píng),主要考察指標(biāo)為算法模型、通用能力、創(chuàng)新能力、平臺(tái)能力、安全可解釋、大模型的應(yīng)用行業(yè),以及配套服務(wù)和大模型生態(tài)等,具體包括36項(xiàng)細(xì)分維度的評(píng)估標(biāo)準(zhǔn)。
在醫(yī)療健康大模型評(píng)測(cè)方法演進(jìn)中,谷歌和DeepMind進(jìn)行了較為全面的實(shí)踐。2023年7月12日,谷歌和DeepMind的科研人員在《自然》雜志上發(fā)表了研究,通過MultiMedQA(美國醫(yī)師執(zhí)照試題)評(píng)估基準(zhǔn),評(píng)估大語言模型在編碼臨床知識(shí)方面的表現(xiàn),并詳解了谷歌醫(yī)療大模型Med-PaLM的進(jìn)化過程。
國內(nèi)大模型產(chǎn)業(yè)對(duì)標(biāo)ChatGPT同步發(fā)展,目前處于跟進(jìn)復(fù)刻的階段,創(chuàng)新性總體偏弱。圖/視覺中國
首先,構(gòu)建了全新的美國醫(yī)師執(zhí)照試題評(píng)估基準(zhǔn),專門用于評(píng)估大語言模型在編碼臨床知識(shí)方面的表現(xiàn)。該基準(zhǔn)結(jié)合了六個(gè)現(xiàn)有醫(yī)療問答數(shù)據(jù)集(MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU),涵蓋臨床知識(shí)、醫(yī)學(xué)研究和患者問答等多個(gè)方面,以及一個(gè)全新的在線搜索醫(yī)療問題庫數(shù)據(jù)集HealthSearchQA,旨在從多方面把AI培養(yǎng)成一名合格的醫(yī)生。其次,依托MultiMedQA,形成基于人類評(píng)估的框架模型,包括事實(shí)、理解、推理,以及可能的偏見等多個(gè)維度。
谷歌大型語言模型PaLM(Pathways Language Model)及其變體Flan-PaLM評(píng)估顯示,F(xiàn)lan-PaLM在MedQA的多項(xiàng)選擇題上表現(xiàn)出色,準(zhǔn)確率為67.6%,比之前的技術(shù)水平高出17%以上,但它對(duì)病人醫(yī)療問題的回答卻暴露出關(guān)鍵的差距。然而,經(jīng)過指令提示調(diào)整產(chǎn)生的Med-PaLM,一組臨床醫(yī)生對(duì)其回答的評(píng)分為92.6%,與現(xiàn)實(shí)中臨床醫(yī)生的水平(92.9%)相當(dāng)。
在上述谷歌評(píng)測(cè)中,安全性、公平性和偏見方面的評(píng)估內(nèi)容尚不完全。隨著模型規(guī)模的擴(kuò)大和提示詞的調(diào)整,其理解能力、知識(shí)回憶和推理能力均有所提高,顯示出醫(yī)學(xué)領(lǐng)域的潛在實(shí)用性。
綜合來看,較為全面的評(píng)測(cè)主要由技術(shù)能力、行業(yè)服務(wù)能力、合規(guī)及安全四個(gè)維度組成。其中,技術(shù)應(yīng)包括穩(wěn)定性、效率、效果等;行業(yè)服務(wù)能力應(yīng)關(guān)注應(yīng)用效果、成本可控、服務(wù)完整等;合規(guī)主要考慮數(shù)據(jù)、模型、應(yīng)用治理能力;安全應(yīng)確保大模型應(yīng)用的全生命周期可控。
醫(yī)療服務(wù)嚴(yán)謹(jǐn)復(fù)雜,將大模型運(yùn)用到臨床應(yīng)用前,應(yīng)通過相對(duì)完備的標(biāo)準(zhǔn)測(cè)試,對(duì)不同大模型性能和效果進(jìn)行評(píng)估比較,幫助用戶選擇適合自己需求的大模型。
因此,評(píng)估標(biāo)準(zhǔn)需綜合患者、消費(fèi)者、大模型研究人員、臨床醫(yī)生、社會(huì)科學(xué)家、倫理學(xué)家、政策制定者和其他利益相關(guān)方之間的共識(shí)。
可以說,標(biāo)準(zhǔn)化工作,是促進(jìn)醫(yī)療健康行業(yè)大模型從“作坊式”走向“工業(yè)化”的關(guān)鍵。
從標(biāo)準(zhǔn)化角度看,目前,全球知名的人工智能標(biāo)準(zhǔn)化組織主要有四個(gè),分別是ISO/IEC JTC1(國際標(biāo)準(zhǔn)化組織和國際電工委員會(huì)第一聯(lián)合技術(shù)委員會(huì))、ISO(國際標(biāo)準(zhǔn)化組)、IEC(國際電工委員會(huì))和ITU(國際電信聯(lián)盟)。
其中,ISO/IEC JTC1在人工智能領(lǐng)域的標(biāo)準(zhǔn)化工作已有20多年的歷史,并于2018年4月成立人工智能分技術(shù)委員會(huì)(SC42),圍繞基礎(chǔ)標(biāo)準(zhǔn)、計(jì)算方法、可信賴和社會(huì)關(guān)注等方面開展國際標(biāo)準(zhǔn)化工作;ISO與人工智能標(biāo)準(zhǔn)化研究上的工作主要集中在工業(yè)機(jī)器人、智能金融、智能駕駛?cè)箢I(lǐng)域;IEC主要在可穿戴設(shè)備領(lǐng)域開展人工智能標(biāo)準(zhǔn)化工作;從2016年起,ITU開展人工智能標(biāo)準(zhǔn)化研究,提出了人工智能和物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)等領(lǐng)域的標(biāo)準(zhǔn)化項(xiàng)目。
中國高度重視新一代人工智能發(fā)展,2020年7月,國家標(biāo)準(zhǔn)委、中央網(wǎng)信辦等五部門共同發(fā)布《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》,主要包括基礎(chǔ)共性、支撐技術(shù)與產(chǎn)品、基礎(chǔ)軟硬件平臺(tái)、關(guān)鍵通用技術(shù)、關(guān)鍵領(lǐng)域技術(shù)、產(chǎn)品和服務(wù)、行業(yè)應(yīng)用、安全與倫理八部分。
圍繞醫(yī)療健康領(lǐng)域,中國信通院依托中國通信標(biāo)準(zhǔn)化協(xié)會(huì)、互聯(lián)網(wǎng)醫(yī)療健康產(chǎn)業(yè)聯(lián)盟,關(guān)注醫(yī)療健康行業(yè)大模型的總體技術(shù)框架、應(yīng)用服務(wù)能力、合成服務(wù)治理及安全管理能力等四個(gè)方面,發(fā)布醫(yī)療健康行業(yè)大模型領(lǐng)域的系列標(biāo)準(zhǔn),推動(dòng)人工智能技術(shù)與醫(yī)療健康的深度融合。
其中,《醫(yī)療健康行業(yè)大模型應(yīng)用技術(shù)要求》中“第1部分:醫(yī)院側(cè)醫(yī)療服務(wù)”、《醫(yī)療健康行業(yè)大模型應(yīng)用技術(shù)要求》的“第2部分:患者側(cè)醫(yī)療服務(wù)”,這兩項(xiàng)標(biāo)準(zhǔn)針對(duì)門診、急診、住院等不同臨床場(chǎng)景中醫(yī)生、護(hù)士、患者等不同角色所進(jìn)行的活動(dòng),定義醫(yī)療健康行業(yè)大模型在醫(yī)療服務(wù)應(yīng)具備的功能,規(guī)范大模型的實(shí)際落地應(yīng)用能力。
同時(shí),通過規(guī)范模態(tài)支持?jǐn)?shù)量,語言任務(wù)、視覺任務(wù)、語音任務(wù)、跨模態(tài)任務(wù)等不同模態(tài)的任務(wù)支持度,語言理解、文書生成、多輪主動(dòng)交互等基本能力,明確醫(yī)療大模型的醫(yī)療服務(wù)的應(yīng)用優(yōu)勢(shì)及業(yè)務(wù)范圍,支持醫(yī)療健康服務(wù)效率及質(zhì)量的提升。
此外,通過規(guī)范軟硬件、數(shù)據(jù)、算法模型、應(yīng)用等方面的安全要求及易用性、穩(wěn)定性、魯棒性、公平性、可解釋性、可審查性等模型服務(wù)要求,保障醫(yī)療健康信息安全及大模型的服務(wù)可靠性。
可以預(yù)見,人工智能將在醫(yī)療領(lǐng)域,能夠提高醫(yī)生效率,滿足更多患者需求,推動(dòng)優(yōu)質(zhì)醫(yī)療資源擴(kuò)容下沉,應(yīng)對(duì)醫(yī)療資源短缺的全球共同難題。醫(yī)療大模型聚焦嚴(yán)肅且謹(jǐn)慎的醫(yī)療場(chǎng)景,對(duì)錯(cuò)誤的容忍度更低,對(duì)準(zhǔn)確性和安全性要求更高。研制并推廣大模型技術(shù)在醫(yī)療健康領(lǐng)域應(yīng)用的相關(guān)標(biāo)準(zhǔn),將大幅降低醫(yī)療健康大模型應(yīng)用的研發(fā)門檻和創(chuàng)新成本,助力醫(yī)療健康行業(yè)的數(shù)字化轉(zhuǎn)型,提升醫(yī)療服務(wù)效率,讓優(yōu)質(zhì)醫(yī)療資源觸達(dá)更多患者群體。
大模型在醫(yī)療健康領(lǐng)域應(yīng)用所面臨的挑戰(zhàn)和難題是基本一致的,業(yè)界亟須搭建良好的公共服務(wù)生態(tài)環(huán)境促進(jìn)良性發(fā)展。
筆者認(rèn)為,一是需要大量訓(xùn)練數(shù)據(jù)和計(jì)算資源,醫(yī)療數(shù)據(jù)的獲取和處理比較困難,應(yīng)用過程中應(yīng)重點(diǎn)關(guān)注數(shù)據(jù)合規(guī);二是大模型的結(jié)果和決策相對(duì)難以解釋和理解,涉及科技倫理治理的工作;三是大模型的安全性和隱私保護(hù)是后續(xù)規(guī)模化應(yīng)用的基本前提,醫(yī)療數(shù)據(jù)涉及個(gè)人隱私和敏感信息,需采取相應(yīng)的措施來保護(hù)數(shù)據(jù)安全。大模型走向應(yīng)用落地時(shí),在保障產(chǎn)品好用、可用、易用前提下,應(yīng)契合場(chǎng)景的核心痛點(diǎn),發(fā)展核心優(yōu)勢(shì),支持后續(xù)差異化發(fā)展。
對(duì)標(biāo)準(zhǔn)體系的建立,中國亦不能落于人后。標(biāo)準(zhǔn)體系建設(shè)貫穿醫(yī)療健康行業(yè)大模型應(yīng)用的全生命周期,涉及規(guī)劃論證、科研生產(chǎn)、使用管理等多個(gè)部門,是復(fù)雜的系統(tǒng)工程,需要人工智能技術(shù)與衛(wèi)生健康兩個(gè)領(lǐng)域傾力協(xié)作配合,相互銜接、互為補(bǔ)充與支撐,以期盡快建立國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)。
筆者建議,從國家層面,推動(dòng)標(biāo)準(zhǔn)應(yīng)用試點(diǎn)示范。也就是依托人工智能標(biāo)準(zhǔn)體系,以“優(yōu)勢(shì)先行、成熟先用、應(yīng)用牽引”為原則,通過重點(diǎn)標(biāo)準(zhǔn)的先試先行,總結(jié)提煉可借鑒、可復(fù)制、可推廣的實(shí)踐經(jīng)驗(yàn),以點(diǎn)帶面拓展標(biāo)準(zhǔn)應(yīng)用深度和廣度,持續(xù)推動(dòng)大模型技術(shù)在醫(yī)療健康領(lǐng)域的應(yīng)用,為醫(yī)療健康服務(wù)數(shù)字化轉(zhuǎn)型及智能化發(fā)展奠定基礎(chǔ)。
另外,重視數(shù)據(jù)資源安全防護(hù)。從技術(shù)層面看,大模型技術(shù)在醫(yī)療健康領(lǐng)域應(yīng)用有利于提高診斷治療效率,但也存在數(shù)據(jù)泄露、模型被篡改破壞導(dǎo)致診療輔助決策誤判等情況,要加強(qiáng)對(duì)數(shù)據(jù)資源的安全防護(hù)。通過技術(shù)、標(biāo)準(zhǔn)與規(guī)范等方式排除系統(tǒng)遭黑客攻擊、程序被修改而導(dǎo)致錯(cuò)誤內(nèi)容輸出等的可能性。
從過往經(jīng)驗(yàn)看,技術(shù)跑馬快行時(shí),要有倫理作為束縛的韁繩。大模型技術(shù)在醫(yī)療健康領(lǐng)域的發(fā)展尤其要注意科技倫理風(fēng)險(xiǎn),由人工智能算法所帶來的偏見歧視、責(zé)任缺失、技術(shù)失控、隱私侵犯等倫理問題在醫(yī)療健康領(lǐng)域?qū)?huì)引發(fā)嚴(yán)重后果,要加強(qiáng)對(duì)醫(yī)療健康大模型的科技倫理治理工作,由產(chǎn)學(xué)研用各方聯(lián)合開發(fā)科技倫理治理工具,引導(dǎo)醫(yī)療健康大模型有序、安全發(fā)展。
(編輯:王?。?/p>