王 萍 牟冬梅,2* 楊鑫禹 李 樺,2 彭 浩 李 茵
(1.吉林大學公共衛(wèi)生學院,吉林 長春 130021;2.吉林大學第一醫(yī)院,吉林 長春 130021)
當前世界正經(jīng)歷著以數(shù)字化、網(wǎng)絡化和智能化為顯著標志的信息技術革命,相關技術的成熟,推動在線健康社區(qū)(Online Health Communities,OHCs)的誕生與蓬勃發(fā)展,使其成為人們獲得健康信息的重要渠道。2017年發(fā)布的《中國網(wǎng)民科普需求搜索行為報告》結果顯示,關鍵詞“健康與醫(yī)療”是中國網(wǎng)民用戶最關注的科普主題[1]。為了滿足人們?nèi)找嬖鲩L的健康信息服務需求,國家相繼發(fā)布了多項政策推動互聯(lián)網(wǎng)醫(yī)療體系的建設。2018年4月28日,國務院發(fā)布了《國務院辦公廳關于促進“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見》,意見中鼓勵醫(yī)療機構運用互聯(lián)網(wǎng)技術搭建線上線下一體化的醫(yī)療服務模式。2020年12月,國家衛(wèi)生健康委、國家醫(yī)保局以及國家中醫(yī)藥管理局,聯(lián)合發(fā)布《關于深入推進“互聯(lián)網(wǎng)+醫(yī)療健康”“五個一”服務行動的通知》,以期推動解決人們就醫(yī)過程中存在的“急難愁盼”問題。
綜上,伴隨大數(shù)據(jù)戰(zhàn)略在醫(yī)療領域的深入貫徹和落實,促進了海量多源異構的在線健康信息的廣泛積累,但也引發(fā)人們難以從海量復雜的健康信息中獲取所需要的健康知識的問題,形成了健康信息供給泛濫與用戶對精準健康知識需求之間的矛盾。目前的在線健康信息研究仍停留在個例事件,且碎片化,未上升到理論層,更未深入探討信息融合過程的序化、轉化、融合形成健康知識。因此,探索基于數(shù)據(jù)特征的在線健康社區(qū)信息融合,構建適應“互聯(lián)網(wǎng)+醫(yī)療健康”新業(yè)態(tài)環(huán)境的在線健康社區(qū)信息融合模式,是實現(xiàn)用戶健康信息需求與健康信息供給精準匹配的重要途徑之一,有助于推動多源異構的在線健康信息向健康知識的轉化。
近年來,在線健康社區(qū)作為用戶分享和獲取健康信息的重要途徑,已經(jīng)吸引國內(nèi)外學者展開了多個視角的研究,分別圍繞用戶健康信息需求、健康信息搜尋行為和健康知識交互共享等方面展開研究。①用戶健康信息需求方面:有研究者利用潛在語義索引模型構建用戶的信息需求框架[2],也有學者探究用戶行為特征和需求偏好[3],或利用醫(yī)生的用戶畫像揭示患者對醫(yī)生的需求關注點[4],以及患者尋求第二醫(yī)療意見需求的關鍵因素[5];②用戶的健康信息搜尋行為方面:有研究者使用Tobbi眼動儀分析用戶思維方式對信息搜尋行為的調(diào)節(jié)作用[6],分析用戶參與行為動機[7]。信息交互模式方面,發(fā)現(xiàn)用戶與醫(yī)生間的對話呈現(xiàn)螺旋式和直線式的交互模式[8],也有研究者探究用戶信息搜尋過程的情感變化[9-10];③用戶健康知識共享與傳播方面:有學者探討在線健康社區(qū)中專業(yè)的醫(yī)學用戶的健康知識共享意愿[11]、知識共享型社區(qū)的構成[12]、用戶信息交互的網(wǎng)絡拓撲結構[13]、知識服務的主題[14]、問答可視化的知識圖譜[15]、信息分享過程的主題分布及主題動態(tài)[16]、健康知識交流效率的差異[17]和為用戶提供健康知識推薦服務[18]。
早在1973年,美國國防部就開始資助聲納信號處理系統(tǒng)相關研究[19]。信息融合模型是基于JDL(Joint Directors of Laboratories)數(shù)據(jù)融合模型演變而來[20],該模型將信息融合概括分為3層,即數(shù)據(jù)層、特征層、決策層[21]。①數(shù)據(jù)層:主要探究為完成數(shù)據(jù)融合而專門設計的操作規(guī)則,例如:匹配連接[22]、數(shù)據(jù)沖突[23]、概率分類器[24]、畫像構建[25]等;②特征層:顧偉等在多特征融合的基礎上提出,多通道特征模型通過人體整體信息和人體部位的語義信息來檢測行人[26];③決策層:有學者將其歸納為目標提煉、態(tài)勢分析、威脅估計及過程精煉的四級模型[27],隨后,又拓展到情境感知決策支持系統(tǒng)[28]、網(wǎng)絡大數(shù)據(jù)知識融合模型[29-30]、面向應急決策全流程的信息融合框架[31]。
通過梳理國內(nèi)外的相關研究,發(fā)現(xiàn)學者從不同的視角對在線健康社區(qū)信息展開定性和定量的研究。從研究內(nèi)容角度看,國內(nèi)外學者圍繞在線健康社區(qū)信息生態(tài)系統(tǒng)用戶、信息內(nèi)容和信息環(huán)境3個要素展開多方面的研究;從研究內(nèi)容的發(fā)展趨勢來看,國外對在線健康社區(qū)的應用和研究比國內(nèi)稍早,從早期對在線健康社區(qū)的應用推廣的接受程度研究,逐漸發(fā)展深入到健康知識服務效果和健康知識發(fā)現(xiàn)的研究。縱覽國內(nèi)外在線健康社區(qū)的研究成果,健康信息需求和行為方面的研究已經(jīng)積累了豐富的研究基礎,但有關在線健康社區(qū)信息融合利用方面的研究仍有研究空間。
在線健康社區(qū)種類繁多、用戶數(shù)量龐大且增長速度快的特征,使得在線健康社區(qū)信息產(chǎn)生信息過載問題、組織結構復雜的規(guī)范性低問題、來源渠道廣而可信度下降問題和信息內(nèi)容價值密度稀疏的信息降級問題,都為在線健康社區(qū)信息的融合利用帶來了挑戰(zhàn)。
由于在線健康社區(qū)自由開放的特征,平臺并不會對用戶描述健康信息的方式、信息架構進行約束,形成在線健康社區(qū)信息組織架構的多樣性,也帶來了信息結構復雜、規(guī)范性差、利用難度高等諸多問題。在線健康社區(qū)具有社交媒體數(shù)據(jù)形式的不規(guī)范性、多樣性,表現(xiàn)為在線健康社區(qū)用戶生成內(nèi)容的異構性。在線健康社區(qū)信息組織結構規(guī)范性低,為信息的融合利用帶來消極影響,包括:①健康信息的可讀性降低,當面對組織結構混亂的健康信息時,會加重用戶的認知負荷,產(chǎn)生一系列健康信息加工處理的問題;②健康信息的可共享性降低,由于健康信息的可傳遞是建立在其科學性和規(guī)范性的基礎上,也就意味著越不規(guī)范和不科學的信息,則越不容易被傳遞共享;③健康信息的可處理性降低,當健康信息處于混沌無序的狀態(tài)時,信息的存儲、降噪、語義消歧等處理工作都將面臨巨大的挑戰(zhàn),使健康信息加工的時間成本、人力成本上升,降低產(chǎn)生新健康知識的效率。
信息過載已經(jīng)成為當代社會各領域中普遍存在的問題,該現(xiàn)象在社交媒體環(huán)境中尤為顯著。在線健康社區(qū)作為依托社交媒體平臺而存在的一種虛擬社交平臺,致使在線健康社區(qū)中的用戶所接收到的信息是無窮無盡的,其信息發(fā)送頻率遠遠高于用戶處理信息的認知能力?;ヂ?lián)網(wǎng)時代下的在線健康社區(qū)信息過載,導致用戶要面對越來越多嘈雜的、瑣碎的、低價值的信息,但隨著信息數(shù)量的增長,其邊際價值和意義反而降低了。正因為在線健康社區(qū)信息存在過載問題,為用戶利用信息帶來了諸多的負面影響。一方面,因海量信息呈現(xiàn)出“先發(fā)布后過濾”的模式,很大程度上降低了用戶對價值密度較高的健康信息的感知能力;另一方面,數(shù)據(jù)的體量巨大,也增加了用戶獲取高質(zhì)量健康信息的時間成本、精力成本和財務成本。
Klapp O E指出,信息過載不僅僅是信息數(shù)量的增加,更重要的是將會導致信息質(zhì)量層面的降級[32]。信息降級的表現(xiàn)有多個方面,如信息的噪音化、信息無用且過剩。社交媒體環(huán)境下的在線健康社區(qū)信息的來源渠道廣、復雜異構、更新速度快等特征,都是導致信息價值降級的原因。在線健康社區(qū)信息價值質(zhì)量降級,為信息的利用帶來了諸多挑戰(zhàn)。首先,在線健康社區(qū)信息的主題特征減弱,信息價值密度低的最直觀表現(xiàn)是冗余信息過多,該因素直接影響在線健康社區(qū)信息主題識別過程,包括醫(yī)學領域?qū)嶓w識別、評估映射、映射模型構建過程;其次,用戶受到虛假健康信息欺騙的概率增高,虛假信息是誘導人們形成錯誤健康認知、采取不恰當?shù)慕】敌袨榈闹饕kU因素,給用戶的身體健康和心理健康帶來不可逆的危害;再者,數(shù)據(jù)分析利用的結果準確率降低,當輸入的樣本為海量高維的網(wǎng)絡健康數(shù)據(jù)時,添加了許多與結局變量弱相關的混雜因素,增加機器學習運算時間和復雜度的同時,也降低了數(shù)據(jù)分析結果的精確度。
針對在線健康社區(qū)信息特征為其融合利用帶來的挑戰(zhàn),基于情報學研究的序化論、轉化論和融合論,構建在線健康社區(qū)信息融合模式,包括1個核心目標、4個融合層級和4個構成要素。
在線健康社區(qū)信息融合是以提高信息的利用率為核心,以為用戶提供精準高質(zhì)量的健康知識服務為目標,探討在線健康社區(qū)信息的序化、轉化和融合過程,實現(xiàn)異構網(wǎng)絡健康知識深度融合。在線健康社區(qū)信息的融合,是實現(xiàn)主觀經(jīng)驗和客觀知識的一體化,滿足用戶健康知識服務的需求,推動傳統(tǒng)的基于用戶個體經(jīng)驗的健康知識構建范式向動態(tài)的群體健康知識構建范式的演進。在線健康社區(qū)信息融合的原則,是探究泛在的在線健康社區(qū)信息與用戶精準知識服務需求的供需平衡問題。在線健康社區(qū)信息融合的框架設計遵循科學性、系統(tǒng)性和有序性原則,綜合實現(xiàn)各種健康知識鏈接的形式各盡其能,即融合的過程充分考慮健康信息與健康信息的實體鏈接關系、用戶與在線健康社區(qū)信息實體間的知識鏈接。
基于在線健康社區(qū)融合利用所面臨的挑戰(zhàn),研究構建了在線健康社區(qū)信息多層級融合模式,從健康信息集成層、序化層、轉化層和融合層面探究數(shù)據(jù)融合的框架。研究構建的在線健康社區(qū)信息多層級融合模式,如圖1所示。
圖1 在線健康社區(qū)信息多層級融合模式
1)在線健康社區(qū)信息的集成層
在線健康社區(qū)信息的數(shù)據(jù)匯聚集成是打破互聯(lián)網(wǎng)環(huán)境下“信息孤島”問題的重要途徑,為實現(xiàn)對分散在不同位置的同型異源、異質(zhì)異構、多模態(tài)信息的集成整合,就是將不同時間空間的異構信息源、同構信息源進行物理層面的整合,基于某種共性化的特征或主題的精細化組織,將具有不同屬性的在線健康社區(qū)信息,按主題、時間、模態(tài)等外在特征或內(nèi)容特征進行二次組織、排序聚合奠定基礎。在線健康社區(qū)信息的集成是推進智能化健康知識服務的數(shù)據(jù)基礎,是建立在互聯(lián)網(wǎng)環(huán)境下在線健康社區(qū)信息破碎化的背景下,以及用戶對海量異構健康信息的序化、轉化和融合的需求基礎上。
2)在線健康社區(qū)信息的序化層
在線健康社區(qū)信息的組織結構映射,是實現(xiàn)信息的序化。在線健康社區(qū)用戶的多樣性,以及健康信息的自組織性,造成在線健康社區(qū)信息的組織結構和表現(xiàn)形式復雜多樣,為數(shù)據(jù)的進一步分析利用帶來了挑戰(zhàn)。因此,在線健康社區(qū)信息的組織重構,是在線健康社區(qū)信息深度挖掘利用的必要環(huán)節(jié),以解決在線健康社區(qū)信息規(guī)范性差的問題。在線健康社區(qū)信息組織結構重構的目的是將動態(tài)獲取的多源數(shù)據(jù),借助一定工具、規(guī)則和方法,將數(shù)據(jù)的結構進行映射組織,形成新的規(guī)范化的在線健康社區(qū)信息結構,創(chuàng)建新的信息對象。目的是消除分散異構在線健康社區(qū)信息冗余和不確定性,解決同源異構、異源異構的在線健康社區(qū)信息的結構不規(guī)范化,難以進行數(shù)據(jù)分析利用的問題。在線健康社區(qū)信息的組織結構重構,就是要對混亂無序的信息進行序化的組織,是對數(shù)據(jù)的存儲結構、映射過程和映射結果進行規(guī)范化。
3)在線健康社區(qū)信息的轉化層
在線健康社區(qū)信息的特征關系分析,是為了實現(xiàn)信息的轉化。充分了解在線健康社區(qū)信息的整體特征和局部特征,有助于數(shù)據(jù)分析者更全面深入地了解數(shù)據(jù),進而選取合適的數(shù)據(jù)分析方法,制定合理的數(shù)據(jù)分析流程,解決多源異構數(shù)據(jù)的信息過載問題,也能精準地滿足用戶個性化的健康知識需求。全面地認識在線健康社區(qū)信息的特征,有助于實現(xiàn)知識深層融合過程中具備更好的適應能力和知識篩選能力,推動以問題解決為邏輯起點的在線健康社區(qū)信息融合系統(tǒng)的構建。在線健康社區(qū)信息的特征體現(xiàn)在多個方面,包括數(shù)據(jù)的來源多樣、質(zhì)量差異特征、健康話題的主題特征、用戶的交互行為特征、空間關系、時序關系和主題關系等。其表現(xiàn)的特征關系是對信息質(zhì)量的全面性和可信度的評估,根據(jù)特征去評估在線健康社區(qū)開放、共享的群體智慧信息,能夠解決用戶健康有關的信息需求。
4)在線健康社區(qū)信息的融合層
在線健康社區(qū)信息是在經(jīng)過異構數(shù)據(jù)集成、組織結構映射、特征關系分析的基礎上,深層的語義融合對信息內(nèi)容的深度挖掘,解決因信息價值密度低導致的信息降級問題。首先,是根據(jù)在線健康社區(qū)中多模態(tài)信息的特征,將碎片化的網(wǎng)絡健康知識進行關聯(lián)重構、多層次的融合分析,完成多模態(tài)在線健康社區(qū)信息的底層特征和高層語義內(nèi)涵之間的映射;然后,根據(jù)一定的推理規(guī)則對在線健康社區(qū)中的領域?qū)<抑R進行實體抽取、屬性抽取、關系抽取,并進行命名實體的對齊、整合和驗證;最后,借助結構化描述體系中的醫(yī)學領域命名實體的融合、關聯(lián)關系的融合和語義融合,實現(xiàn)在線健康社區(qū)信息的深層語義融合。
在線健康社區(qū)信息融合模式的構成要素包括4類,分別是用戶主體要素、數(shù)據(jù)客體要素、技術方法要素和應用環(huán)境要素。主體要素是指在線健康社區(qū)中健康信息的生產(chǎn)者、健康知識的傳遞者、健康知識的消費者;客體要素是指健康信息的內(nèi)容和載體,包括不同模態(tài)的健康科普數(shù)據(jù)、健康問答數(shù)據(jù)、臨床病例數(shù)據(jù)等;技術方法要素是在線健康社區(qū)信息的存儲技術、信息推薦技術、數(shù)據(jù)挖掘技術和自然語言處理技術等;環(huán)境要素包括互聯(lián)網(wǎng)+醫(yī)療政策環(huán)境、社會環(huán)境、健康知識產(chǎn)生環(huán)境、社交媒體傳播環(huán)境和健康知識應用環(huán)境等。在線健康社區(qū)信息融合模式的構成要素示意圖,如圖2所示。
圖2 在線健康社區(qū)信息融合模式的構成要素
1)在線健康社區(qū)信息融合的用戶主體要素
互聯(lián)網(wǎng)環(huán)境下的在線健康社區(qū)信息融合的主體要素,是參與健康知識的生產(chǎn)、傳遞和利用的各類用戶,扮演著健康知識的生產(chǎn)者、傳遞者和消費者角色。用戶作為健康知識依附的主體,串聯(lián)起了在線健康社區(qū)信息在不同群體之間的知識提供、知識傳播到知識利用的過程,推動健康知識在各個用戶主體之間的定向流動。隨著用戶對健康知識需求的改變,在線健康社區(qū)信息的知識流動方向也會不斷地發(fā)生改變。根據(jù)在線健康社區(qū)中用戶的角色特征,用戶可以劃分為多種類型:醫(yī)生、患者、家屬等。
2)在線健康社區(qū)信息融合的數(shù)據(jù)客體要素
在線健康社區(qū)信息融合的客體要素是社區(qū)中積累的健康相關數(shù)據(jù),包括健康相關的疾病癥狀體征、健康檢查結果、疾病名稱等個人健康信息,也包括健康信息搜尋行為、健康信息交流互動等社交行為數(shù)據(jù)。在線健康社區(qū)積累的海量信息是為用戶提供健康知識服務的數(shù)據(jù)基礎,支撐著知識服務過程中的用戶需求精準定位、知識篩選和協(xié)同過濾推薦。通過在線健康社區(qū)信息融合的結果,形成的信息流是知識服務活動的動力,鏈接起健康知識提供者和健康知識消費者。在線健康社區(qū)信息融合后形成的知識具有密度和粘性等特征,這些特征是影響用戶知識交流感知的動力因素和障礙因素。在線健康社區(qū)信息數(shù)據(jù)類型有多種分類,按照信息的內(nèi)容可以分為健康科普類信息、個人健康信息、健康信息溝通數(shù)據(jù);按照信息的知識服務功能可以分為醫(yī)學保健常識信息、醫(yī)學病例討論信息、醫(yī)學藥物相關信息等;按照信息的來源渠道可以分為醫(yī)療機構發(fā)布的信息、用戶個人發(fā)布的健康相關信息等。
3)在線健康社區(qū)信息融合的技術支撐要素
技術要素是在線健康社區(qū)信息融合的必要支撐,包括基礎支撐技術、信息融合技術和應用技術。①基礎支撐技術是搭建各種類型在線健康社區(qū)的基石。在線健康社區(qū)構建需要網(wǎng)站設計技術,搭建起承載信息的平臺,用MySQL等數(shù)據(jù)庫構建技術搭建海量健康信息的存儲數(shù)據(jù)庫;②信息融合技術是健康知識發(fā)現(xiàn)的核心技術,借助于深度學習和自然語言處理等技術,推動多源異構的在線健康社區(qū)信息的深度語義融合,以滿足用戶健康知識服務的需求及數(shù)據(jù)序化、轉化和融合的發(fā)展需求;③應用技術是健康信息融合后為用戶提供知識服務的關鍵技術,包括協(xié)同過濾推薦技術、人工智能技術和知識圖譜技術等。信息推薦技術可以根據(jù)用戶對健康信息的興趣度、相關度和意外度進行信息推薦,提高用戶對健康知識服務的滿意度,并有助于打破信息過載帶來的負面影響。
4)在線健康社區(qū)信息融合的應用環(huán)境要素
在線健康社區(qū)信息融合之后的應用效果,受到在線健康社區(qū)的外部環(huán)境和內(nèi)部環(huán)境的共同影響。外部環(huán)境通常包括“互聯(lián)網(wǎng)+醫(yī)療”政策環(huán)境、行業(yè)技術環(huán)境、社會環(huán)境,如在經(jīng)濟環(huán)境的影響下,當某一地區(qū)的經(jīng)濟條件較差導致醫(yī)療衛(wèi)生資源缺乏時,用戶通過在線健康社區(qū)獲取健康信息的意愿則更強烈,用戶對在線健康知識的應用程度則越高;內(nèi)部環(huán)境則包括健康知識產(chǎn)生環(huán)境、社交媒體傳播環(huán)境和健康知識應用環(huán)境。在線健康社區(qū)信息的內(nèi)部環(huán)境是影響知識產(chǎn)生、流動和應用的重要因素,由于健康知識單元不都是以游離或孤立的形式存在,而是常?;陉P聯(lián)關系呈現(xiàn)出具有一定特征的團簇性或者群體屬性,當有高質(zhì)量信息提供者和高效的信息傳播途徑時,在線健康社區(qū)信息的應用范圍會逐漸擴張,拓展信息融合后的應用環(huán)境。在外部環(huán)境和內(nèi)部環(huán)境的共同驅(qū)動作用下,推動在線健康社區(qū)信息的多層級融合,使得為用戶提供更高質(zhì)量的健康知識服務更具有可行性。
在線健康社區(qū)信息融合利用的過程,從數(shù)據(jù)形態(tài)的變化和價值密度的提升視角可以劃分為5個階段,即用戶網(wǎng)絡健康知識服務需求定位階段、多源在線健康社區(qū)信息獲取階段、領域健康知識抽取階段、領域健康知識生成階段和健康知識融合利用階段。將為用戶提供高質(zhì)量的健康知識服務作為核心目標,研究定義了在線健康社區(qū)信息融合各個過程階段的作用與重要任務。在線健康社區(qū)信息融合的過程階段,如圖3所示。
隨著社會公眾生活水平的提高,越來越關注健康相關信息的獲取,在線健康社區(qū)逐漸成為公眾獲取在線健康社區(qū)信息的主要渠道。雖然公眾對健康信息的需求逐漸增高,但當前在線健康社區(qū)建設側重于平臺的開發(fā)建設,較少考慮用戶的健康信息需求的精準性[33],由此造成用戶獲取和利用在線健康社區(qū)信息的困難和障礙,并由此導致用戶信息搜尋過程中產(chǎn)生焦慮情緒[34]。因此,精準定位用戶的健康信息需求和信息搜尋動機,是提升信息融合的知識服務效果的前提。識別出用戶的健康信息需求,可以提升健康知識服務結果匹配性、健康知識推薦內(nèi)容有用性、健康知識推薦過程精準性、健康知識推薦服務效率和健康知識推薦服務滿意度。在線健康社區(qū)用戶的需求可以有多種定位方法,既可以根據(jù)用戶所處的特定情景(健康保健、慢性病管理、急癥咨詢等),又可以根據(jù)用戶的健康信息興趣(減肥、美容、健身等),還可以根據(jù)用戶自身的特征(年齡、所屬地區(qū)范圍、職業(yè)、性別等)以及在線健康社區(qū)信息的主題(孕前檢查、母嬰護理、嬰幼兒看護等)。
圖3 在線健康社區(qū)信息融合的階段
在線健康社區(qū)信息的獲取階段,就是根據(jù)用戶的健康信息需求采集散落在網(wǎng)絡中的各類基礎數(shù)據(jù),為后期的健康知識服務奠定數(shù)據(jù)基礎。在線健康社區(qū)具有來源廣且分散異構的特征,儲存了用戶通過在線健康社區(qū)平臺進行健康信息交流的靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。數(shù)據(jù)采集的過程,首先要確保數(shù)據(jù)采集的全面性,保持數(shù)據(jù)采集格式的統(tǒng)一,采用全鏈路的健康信息采集、校驗和統(tǒng)一規(guī)則的集成整合,并采集特定的數(shù)據(jù)指標和元素,如健康問答話題的標題、時間、回答者、提問者等信息,便于后期的數(shù)據(jù)追蹤溯源、實時更新。在線健康社區(qū)信息的處理,需要對原始數(shù)據(jù)進行整合、清洗、特征分析等信息處理工作,實現(xiàn)打通底層健康數(shù)據(jù)間的壁壘,以提高在線健康社區(qū)信息向知識的轉化能力。
在線健康社區(qū)信息多層級融合是以滿足用戶健康知識服務需求為目標,解決網(wǎng)絡健康大數(shù)據(jù)的組織結構異構、內(nèi)容價值密度低和知識服務效果差的問題。多層級的融合就是通過對異構的在線健康社區(qū)信息結構的映射、知識抽取、知識轉換、知識的融合,實現(xiàn)在線健康社區(qū)中健康醫(yī)療數(shù)據(jù)中知識的序化、轉化和融合。融合后形成的健康知識庫,進一步借助人工智能技術,疊加自然語言處理技術和機器學習方法,實現(xiàn)挖掘其中蘊含的顯性和隱性健康知識。在線健康社區(qū)信息融合,可以打通底層的多源異構網(wǎng)絡健康大數(shù)據(jù)和用戶精準健康知識服務需求,以多源異構的在線健康社區(qū)信息驅(qū)動精準的健康知識服務。
健康信息的推薦與知識服務是在線健康社區(qū)融合的最終目標,是數(shù)據(jù)集成、融合效果的評價。基于在線健康社區(qū)信息多層級融合的信息推薦,按照推薦目的和動機可以分為熱門健康信息推薦、最新發(fā)布的健康資訊、個性化健康信息推薦等。健康信息推薦,使用戶獲取健康知識能夠按照自身的認知進行健康知識體系重構,達到剔除錯誤的健康知識,吸收并彌補自身健康知識的短板,并運用到日常生活中的健康保健或解決自身實際遇見的健康問題。健康知識服務就是服務者通過用戶已經(jīng)發(fā)布的信息需求,選擇科學的且符合用戶需要的健康知識,定向推薦給用戶。用戶接收到健康知識后可以根據(jù)對知識的有效性、有用性、準確性、匹配性和滿意度等進行評價,評價結果對網(wǎng)絡健康知識的獲取、處理和融合過程提供正反饋和負反饋的指導。
選擇北京大學國際醫(yī)院微信公眾平臺的AI智能導診為在線健康信息融合的應用案例,驗證在線健康社區(qū)信息融合的可行性和現(xiàn)實應用價值。其AI智能導診模塊是百度AI開放平臺開發(fā)的智能分診解決方案的實踐應用,被中國醫(yī)院協(xié)會信息專業(yè)委員會(China Hospital Information Management Association,CHIMA)作為智慧醫(yī)院建設的經(jīng)典案例進行分享[35]。本文從北京大學國際醫(yī)院的微信公眾號、中國醫(yī)院協(xié)會信息專業(yè)委員會、百度AI開放平臺、媒體報道、期刊論文等途徑搜集案例相關數(shù)據(jù)[36]。
北京大學國際醫(yī)院的微信公眾平臺智能分診功能,就是通過在線健康平臺搜集患者所述癥狀、基本信息和疾病信息,利用自然語言處理技術和機器學習方法融合所有數(shù)據(jù),最終提供最佳的就診科室,以此減少患者因缺少醫(yī)學知識而導致的掛號科室錯誤問題,提高患者就診的效率,優(yōu)化就診流程,減少醫(yī)療資源的浪費?;谠诰€健康信息融合的北京大學國際醫(yī)院智能分診過程,如圖4所示。
圖4 基于在線健康信息融合的北京大學國際醫(yī)院智能分診過程
1)北京大學國際醫(yī)院的線上智能分診的異構信息集成
智能分診第一步是患者信息的采集,患者輸入基本信息和主訴,形成異構數(shù)據(jù)的語料庫?;颊叩幕拘畔ɑ颊叩男詣e、年齡、地址等,患者的主訴信息包括患者的癥狀、體征,信息的采集過程支持自然語言輸入和選項選擇兩種模式。當患者輸入的信息不足以實現(xiàn)分診到某一科室時,系統(tǒng)會智能地推薦患者可能出現(xiàn)的癥狀選項,請患者再次確認信息,進行關聯(lián)癥狀候補,直至匹配對應的診療科室。這一信息采集過程得到的信息是非結構化、口語化且無序的,需要進一步地序化和轉化才能實現(xiàn)診療科室推薦。
2)北京大學國際醫(yī)院的線上智能分診的信息序化階段
在線健康平臺對患者信息的序化階段,是利用自然語言處理技術將無序信息有序化的過程。這個過程首先識別判斷患者主訴是否有分診的需求,然后,再利用分詞、切詞和去停用詞,抽取其中的醫(yī)療信息,并將其序化分類為癥狀類、體征類、疾病類和意圖類等。通過序化,使患者輸入的信息拆分并歸納入對應的類別,進一步形成可以被機器理解和分析的內(nèi)容。
3)北京大學國際醫(yī)院的線上智能分診的信息轉化階段
患者信息轉化的過程是利用自然語言處理技術,將識別的患者輸入的醫(yī)學術語轉化為專業(yè)的醫(yī)學用語,將口語化的醫(yī)學詞匯轉化為標準的醫(yī)學癥狀、體征、疾病名稱等,以提高信息融合的準確率。采用的方法包括切詞、去停用詞、命名實體識別等,使用的醫(yī)學標準包括SNOMED CT、HL7 C-CDA、OMAHA醫(yī)學本體等,對健康信息內(nèi)容進一步規(guī)范化,并分析信息的內(nèi)容特征和屬性特征,為輸入的患者健康相關信息的語義融合奠定基礎。
4)北京大學國際醫(yī)院的線上智能分診的信息融合階段
智能分診是患者健康相關信息經(jīng)過序化、轉化后進一步融合的結果,該結果能夠為患者提供智能化的線上診療科室推薦服務。在這一階段,通過機器學習和深度學習方法對輸入數(shù)據(jù)進行語義層面的深度融合,輸出就診建議,然后將其映射到醫(yī)院的分科規(guī)則,進而匹配到醫(yī)院的對應科室。匹配科室的基礎上,根據(jù)醫(yī)生的學科背景和專長,進一步匹配醫(yī)生的用戶畫像,為患者推薦該學科的醫(yī)生,提高醫(yī)生和患者的匹配度。
本文根據(jù)在線健康社區(qū)的信息環(huán)境,歸納總結在線健康社區(qū)數(shù)據(jù)特征為其融合利用帶來的規(guī)范性低、信息過載和信息降級問題。由此,根據(jù)情報學研究中的序化論、轉化論和融合論,探索在線健康社區(qū)信息融合模型的目標和原則,并將在線健康社區(qū)融合層級劃分為異構數(shù)據(jù)的集成層、組織結構的映射層、特征關系的分析層和文本語義的融合層面,探究信息融合的模式。在研究創(chuàng)新性地提出面向在線健康社區(qū)信息特征的信息融合模式,有助于推動在線健康社區(qū)信息向健康知識的轉化,為面向用戶提供精準高質(zhì)量的健康知識服務提供一定的參考依據(jù)。
但本研究僅從理論層面探究了在線健康社區(qū)信息融合模型,尚未進行實踐應用效果的實證研究。因此,下一步,本研究將根據(jù)構建的在線健康社區(qū)信息融合模型進行實證研究,探索融合模型在健康信息推薦和健康知識服務中的應用效果。