基于NLP的醫(yī)療糾紛投訴件分類系統(tǒng)探討

2022-08-06 05:46于越董曉睿

中國醫(yī)院院長 2022年12期

文/于越董曉睿

基于自然語言算法（NLP）這一智能分析工具，可實現(xiàn)投訴件的快速分類，未來還可生成匹配回復(fù)模板，提高工作效率的同時可標準化回復(fù)內(nèi)容。

近年來，醫(yī)患關(guān)系成為焦點與熱點，逐年增加的投訴事件使醫(yī)患溝通辦公室壓力倍增，如何快速高效地辨識糾紛類型并給予滿意回復(fù)，成為提高醫(yī)院服務(wù)滿意度與緩解矛盾的主要途徑之一。然而，目前在這類事件處理中卻存在從事醫(yī)療糾紛解決的溝通人員總量不足、專業(yè)不夠、問題類型繁雜、回復(fù)內(nèi)容有待規(guī)范等諸多問題。

人工智能領(lǐng)域中的自然語言處理技術(shù)（Natural Language Processing，NLP），可自動解析語義信息，現(xiàn)已廣泛應(yīng)用于各行各業(yè)，同時也為醫(yī)院業(yè)務(wù)處理帶來了便利。通過模型訓(xùn)練發(fā)現(xiàn)，自然語言處理算法不僅可以對投訴件進行分類、分析和搜索，還可生成匹配的標準化回復(fù)模板。

醫(yī)療投訴件分析工具的發(fā)展與挑戰(zhàn)

微軟創(chuàng)始人比爾·蓋茨曾說過，“自然語言處理是人工智能領(lǐng)域皇冠上的明珠”。該技術(shù)是由計算機科學(xué)、語言學(xué)、心理認知學(xué)等一系列學(xué)科構(gòu)成的一門交叉學(xué)科。自然語言處理技術(shù)在醫(yī)院業(yè)務(wù)中已經(jīng)得到廣泛應(yīng)用，其中最重要的是針對電子病歷（Electronic Medical Record，EMR）的文本處理應(yīng)用，海量病歷中蘊含了大量信息，電子病歷已成為醫(yī)學(xué)研究獲取數(shù)據(jù)的重要來源之一，自然語言處理算法不僅為研究人員節(jié)省了結(jié)構(gòu)化病例的時間，還可以“讀懂”病歷數(shù)據(jù)，提高臨床科研效率的同時也能深度挖掘其隱含信息。

IBM在過去6年以來收集了超過100萬名患者近2000萬的病例數(shù)據(jù)，包含了超過200個參數(shù)，通過對電子病歷進行梳理分析，還發(fā)現(xiàn)與疾病發(fā)生十分相關(guān)但未在醫(yī)療記錄中輸入的信息，包括患者吸煙盒數(shù)、處方藥服用形式、心臟的供血能力等。這些隱含信息可能被醫(yī)生所忽視，但卻無法逃脫自然語言處理技術(shù)的分析，其預(yù)測算法在一年內(nèi)發(fā)現(xiàn)了8500名有心力衰竭風險的患者。

自然語言處理不僅可以解析電子病歷，還可處理醫(yī)療糾紛投訴件，協(xié)助答復(fù)人員標注內(nèi)容中的關(guān)鍵信息、分類投訴件、自動識別所涉及科室（內(nèi)科、外科、門急診等）、推薦標準化回復(fù)模板等，提高重復(fù)和相似投訴的處理速度，完善回復(fù)的標準化水平。隨著投訴渠道的完善，近幾年投訴事件逐年提升，以杭州為例，2017—2019年杭州總共受理各類醫(yī)療投訴3155件，并以每年20%的速度增加。北京某三甲醫(yī)院2009—2018年共有5598人次患者進行投訴，也呈現(xiàn)增長態(tài)勢。

第一個醫(yī)療投訴的標準化分析工具（The healthcare complaint analysis tool，HCAT）于2016年誕生，該工具常被用于編纂和評估投訴件中所反映的問題，根據(jù)內(nèi)容進行分類問題、評估嚴重程度、判斷問題所在階段等以便確定對患者的傷害程度，并對問題進行編碼，協(xié)助管理者發(fā)現(xiàn)服務(wù)漏洞和管理缺失等。

目前國內(nèi)對患者投訴分類沒有統(tǒng)一標準，一般將投訴分為臨床診療、醫(yī)院管理和醫(yī)患關(guān)系3大類。臨床診療細分為檢查、診斷、治療和護理等小類，醫(yī)院管理細分為就診流程、醫(yī)院環(huán)境、診療費用等小類，醫(yī)患關(guān)系細分為溝通交流、患者權(quán)利保障等小類。投訴主體有患者本人、患者家屬、患者朋友或其他關(guān)系人。投訴對象有醫(yī)生、醫(yī)技、護士等。

為構(gòu)建預(yù)防為主且標準化的投訴管理體系，無論在處理投訴件中還是事后統(tǒng)計分析，投訴件的快速準確分類都十分必要，門急診投訴的處理速度和方式直接決定患者對醫(yī)院的滿意度，面對繁多的分類元素，內(nèi)容解讀耗時耗力，也不利于結(jié)構(gòu)化分析。因此，基于自然語言算法的智能分析工具變得必不可少，本文利用成熟的人工智能算法實現(xiàn)了對投訴件的快速分類，未來還可增加對投訴件嚴重性的分析功能。

分類系統(tǒng)數(shù)據(jù)處理

投訴件屬于非結(jié)構(gòu)化文字信息，在訓(xùn)練模型前必須對其進行預(yù)處理，這也是文本數(shù)據(jù)分析的重點和難點。隨著醫(yī)院信息化的迅速發(fā)展，投訴件大多以電子文檔形式提交并儲存，這為數(shù)據(jù)預(yù)處理提供了便利的條件，醫(yī)患溝通部門在過去累積了大量的電子版投訴件，為模型訓(xùn)練提供了充足的語料資源。

收集到充足的數(shù)據(jù)后，預(yù)處理任務(wù)分四步展開：第一步，先將投訴文本進行分詞處理，在對比jieba（結(jié)巴）、THULAC、FoolNLTK及HanLP后，本文采用較為成熟的HanLP工具，在文本分詞時，為實現(xiàn)速度與精度的最佳平衡，采用HMM-Bigram算法和N-最短路分詞。分詞的同時進行詞性標注，給字詞打上標簽，如形容詞、動詞、名詞等，詞性標注基于最大熵和最大概率。

第二步，語料清洗將視為噪音的內(nèi)容剔除，僅保留主要內(nèi)容，去除的部分包含人稱、代詞、日期、停詞、語氣詞、標點等內(nèi)容，例如“綜上所述”“總的來說”和“由此可見”等。投訴件中最常見的停詞有“某某先生”“某某女士”以及電話號碼等聯(lián)系信息。清洗方式主要分為兩種，分別是人工處理和代碼腳本。人工處理方式較為靈活且準確度高，缺點是耗時且成本高。腳本代碼則根據(jù)規(guī)則自動運行，快速剔除無關(guān)內(nèi)容，但缺點是靈活度不夠且準確度較低。

經(jīng)過前兩步處理，投訴件A“自己母親胡某2018年12月15日在心理科住院，在走廊走動時被醫(yī)生撞倒導(dǎo)致右上臂骨折，當日轉(zhuǎn)入骨科治療，其認為責任完全在醫(yī)院，要求醫(yī)院給予解決住院費用”。投訴件B“王某2018年6月17日在我院看病，發(fā)現(xiàn)多位醫(yī)生要求病人從醫(yī)院內(nèi)的醫(yī)藥連鎖店買藥，不允許使用社保卡，對此表示不滿，現(xiàn)要求給予自己一個合理說法”。投訴件C“因心梗2018年11月13日在心內(nèi)科搶救，情況穩(wěn)定后等待搭橋手術(shù)，護士將其他患者降壓藥給予服用，身體出現(xiàn)食欲不振、憋氣、腹瀉、心率加快等不良反映，家屬認為醫(yī)院存在藥物錯用情況”轉(zhuǎn)換為字詞組。

投訴件A“費用問題，相關(guān)答復(fù)，心理科，住院，在走廊，走動，醫(yī)生，撞倒，導(dǎo)致，右上臂，骨折，骨科，治療，責任，醫(yī)院，住院，費用”。投訴件B“流程問題，相關(guān)答復(fù)，我院，看病，醫(yī)生，病人，醫(yī)院，醫(yī)藥，連鎖店，買藥，不允許，使用，社?？?，表示，不滿，要求，給予，說法”。投訴件C“醫(yī)療事故問題，相關(guān)答復(fù)，心梗，心內(nèi)科，搶救，搭橋手術(shù)，護士，患者，降壓藥，服用，身體，食欲不振，憋氣，腹瀉，心率加快，不良反應(yīng)，家屬，醫(yī)院，藥物，錯用”。

第三步，在分詞結(jié)果中剔除重復(fù)部分，確保每個詞語僅出現(xiàn)一次，生成總詞表。

第四步，遍歷所有投訴件，若總詞表中的詞出現(xiàn)在某一投訴文本中，則對應(yīng)位置標1，沒出現(xiàn)則為0，構(gòu)成以字詞為橫坐標以文本號為縱坐標的矩陣，每件投訴文本可看作是由1和0構(gòu)成的向量。

預(yù)處理之后，特征提取是模型訓(xùn)練的重要步驟，特征以文本形式表現(xiàn)，將具有較強語義的字詞納入為一個特征集，特征集可以保留全文大部分信息，有利于分類文章，未納入特征集的內(nèi)容可導(dǎo)致部分語義信息的丟失，但對分類問題影響較小。投訴件字數(shù)通常在100字到500字間，屬于較短的文本，為實現(xiàn)相對準確的分類，本文采用詞袋模型提取文本特征，每個不同的詞都被收入詞庫，且記錄出現(xiàn)頻率，例如投訴件D“許先生反映：2018年6月6日下午5點半左右自己帶孩子到醫(yī)院看鼻子，掛號耳鼻喉科，醫(yī)生只是用鑷子檢查了一下，就收取前鼻鏡檢查15元，醫(yī)生稱是鑷子消毒費，對此不滿，認為醫(yī)院存在亂收費現(xiàn)象，要求投訴該醫(yī)院亂收費”，該件中多次出現(xiàn)包含“鼻”，如“鼻子”“耳鼻喉科”“前鼻鏡”，“收費”也多次出現(xiàn)，某一字詞超過頻率閾值都可被認定特征，詞袋特征將文本視為一個無序集合，文本分類基于特定字詞出現(xiàn)的頻率，上述投訴件的詞袋特征如表1所示。

表1 特征詞歸納

經(jīng)過文本數(shù)據(jù)預(yù)處理步驟，文本中還存在大量的無語義助詞或字，例如，“的”在文本中出現(xiàn)的次數(shù)較多，但其對文本分類的貢獻價值卻很低，為了避免此類字詞的干擾，本文還使用了TF-IDF特征選擇算法進一步過濾特征，TF是詞頻Term Frequency，代表某個詞在當前文本中出現(xiàn)的頻率。IDF是逆文本頻率指數(shù)Inverse Document Frequency，其計算方式為文本總件數(shù)除以包括該詞條的文本件數(shù)。

經(jīng)過TF-IDF處理，特征的重要性與其在當前文本中出現(xiàn)次數(shù)成正比，同時其重要性隨著它在所有文本中出現(xiàn)的頻率成反比。字詞在某種類別的文本中出現(xiàn)的次數(shù)越多，表示該詞條與該種文本類型的相關(guān)性越高。若該詞或字在其他文本中出現(xiàn)的次數(shù)越少，則表示其對于分類的重要性是真正的高，因為該字詞僅與某一類型的文本相關(guān)性強。經(jīng)過TF-IDF處理，諸如“的”的問題就可被緩解，過濾后的特征文本更有利于分類投訴件，表2以收費問題為例，列舉了比較重要的特征文本。

表2 收費問題特征值列表

數(shù)據(jù)源包含2000余條投訴件，并已被人工標注10類，本文采用監(jiān)督式機器學(xué)習的模型訓(xùn)練算法，為保證每種投訴類型都有充足的訓(xùn)練數(shù)據(jù)，選取樣本總數(shù)前6的類型進行訓(xùn)練，投訴類型分別為“收費問題”“就診流程”“設(shè)施環(huán)境”“醫(yī)療事故”“服務(wù)態(tài)度”和“紀檢”，樣本數(shù)如表3所示。

表3 樣本數(shù)量

分類算法采用多類文本分類支持向量機算法（Support Vector Machine，SVM），其在解決小樣本、非線性及高維模式識別中具有優(yōu)勢。SVM本為二分類算法，在處理多分類問題時，需要構(gòu)造多類分類器。在訓(xùn)練時依次把某類投訴歸為正集，其余幾類投訴歸為負集，6類源數(shù)據(jù)構(gòu)造出6個SVM，分類時將未知類型的新投訴件劃分為具有最大分類函數(shù)值的那類。

“收費問題”“就診流程”“設(shè)施環(huán)境”“醫(yī)療事故”“服務(wù)態(tài)度”“紀檢”簡稱為A、B、C、D、E、F，訓(xùn)練過程如下：（1）A為正集，B、C、D、E、F為負集；（2）B為正集，A、C、D、E、F為負集；（3）C為正集，A、B、D、E、F為負集；（4）D為正集，A、B、C、E、F為負集；（5）E為正集，A、B、C、D、F為負集；（6）F為正集，A、B、C、D、E為負集。使用這6個訓(xùn)練集分別進行訓(xùn)練，然后得到6個結(jié)果文件。在分類新投訴件時，把測試向量分別通過6個訓(xùn)練結(jié)果文件進行計算，得到f1(x)、f2(x)、f3(x)、f4(x)、f5(x)、f6(x)，最終以值最大的一個作為分類結(jié)果。

源數(shù)據(jù)分3個集合，分別為訓(xùn)練集、驗證集和測試集。訓(xùn)練集用于擬合源數(shù)據(jù)樣本。驗證集用于調(diào)整模型參數(shù)，并對模型分類的能力進行初步評估，驗證數(shù)據(jù)集可以幫助尋找最優(yōu)的網(wǎng)絡(luò)深度，并決定反向傳播算法的停止點。測試集用于來評估模模型的泛化能力，但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。

2000余條投訴件在數(shù)據(jù)規(guī)模上不算充足，為了得到更可靠穩(wěn)定的模型，防止某類投訴件在訓(xùn)練集、驗證集或測試集中扎堆出現(xiàn)，使得其他集合中缺乏該類投訴，本文加入交叉驗證環(huán)節(jié)，采用10折交叉驗證法，將樣本數(shù)據(jù)分割成10個子集，1個子樣本作為驗證集，1個子集作為測試集，其他8個子集用來訓(xùn)練。交叉驗證重復(fù)10次后，每個子樣本都被驗證且測試過1次，最后平均10次的結(jié)果，在不同集合組合中得到了相似的分類效果，分類準確度達到了78%。

未來展望

為促進醫(yī)院信息化建設(shè)，規(guī)范醫(yī)療糾紛標準化處理，結(jié)合新興技術(shù)落地，2018年4月，國家衛(wèi)生健康委印發(fā)《全國醫(yī)院信息化建設(shè)標準與規(guī)范（試行）》，同年7月國務(wù)院頒布《醫(yī)療糾紛預(yù)防和處理條例》。隨著信息化發(fā)展和人工智能技術(shù)普及，在投訴件逐年增長的壓力下，事件處理工作在自然語言處理算法和大數(shù)據(jù)技術(shù)的支撐下，不僅可實現(xiàn)投訴件的自動分類，還可生成匹配回復(fù)模板，提高工作效率的同時可標準化回復(fù)內(nèi)容。隨著數(shù)據(jù)的積累，可形成投訴件數(shù)據(jù)庫，方便查找類似事件的歷史記錄，還可通過自然語言處理技術(shù)進行階段性服務(wù)質(zhì)量分析，優(yōu)化醫(yī)務(wù)管理，改善醫(yī)療服務(wù)?？傊?，自然語言處理作為人工智能領(lǐng)域的重要方向，必然會為醫(yī)療糾紛的預(yù)防和處理做出重大貢獻。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于NLP的醫(yī)療糾紛投訴件分類系統(tǒng)探討

醫(yī)療投訴件分析工具的發(fā)展與挑戰(zhàn)

分類系統(tǒng)數(shù)據(jù)處理

未來展望