陳楚云,李偉林,洪佳明,李麗霞,張去飛,謝麗琴
1.廣州市中醫(yī)醫(yī)院針灸科,廣東 廣州 510130;2.中山大學(xué)新華學(xué)院信息與網(wǎng)絡(luò)中心,廣東 廣州 510080;3.廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣東 廣州 510006
針灸古籍經(jīng)驗(yàn)推薦平臺(tái)構(gòu)建方法及功能展示
陳楚云1,李偉林2,洪佳明3,李麗霞1,張去飛1,謝麗琴1
1.廣州市中醫(yī)醫(yī)院針灸科,廣東 廣州 510130;2.中山大學(xué)新華學(xué)院信息與網(wǎng)絡(luò)中心,廣東 廣州 510080;3.廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣東 廣州 510006
本文分析了針灸古籍?dāng)?shù)據(jù)的特點(diǎn),提出根據(jù)針灸學(xué)診治疾病的模式,采用多種數(shù)據(jù)挖掘技術(shù)提取、整合、展示散布于古籍?dāng)?shù)據(jù)中的理、法、經(jīng)、穴、術(shù)知識(shí),構(gòu)建一個(gè)通過(guò) B/S 方式提供給用戶使用的針灸古籍?dāng)?shù)據(jù)庫(kù)平臺(tái);闡述了針灸古籍經(jīng)驗(yàn)平臺(tái)的框架、模塊的功能、實(shí)現(xiàn)各功能的方法,對(duì)以“中風(fēng)”為檢索詞的檢索結(jié)果作了演示,并總結(jié)歸納構(gòu)建針灸古籍經(jīng)驗(yàn)推薦平臺(tái)的體會(huì)及該平臺(tái)在針灸古籍?dāng)?shù)據(jù)開(kāi)發(fā)中的優(yōu)勢(shì)。
數(shù)據(jù)挖掘技術(shù);針灸古籍;軟件開(kāi)發(fā)
針灸療效取決于中醫(yī)獨(dú)特的理論體系,其診療過(guò)程離不開(kāi)傳統(tǒng)的針灸經(jīng)絡(luò)理論。文獻(xiàn)是記錄歷代針灸基礎(chǔ)理論和臨床經(jīng)驗(yàn)的主要載體,是總結(jié)和繼承前人學(xué)術(shù)思想的重要資料。針灸古籍是前人對(duì)針灸經(jīng)絡(luò)、腧穴、刺灸法等理論和臨床經(jīng)驗(yàn)的總結(jié),據(jù)不完全統(tǒng)計(jì),現(xiàn)存針灸專(zhuān)著約 180 種[1]。但傳統(tǒng)的存在形式和使用方式已不能滿足現(xiàn)代社會(huì)對(duì)信息獲取的需求,且面對(duì)如此浩瀚的文獻(xiàn)信息,人工獲取非常有限。如何將針灸古籍蘊(yùn)含的寶貴經(jīng)驗(yàn)開(kāi)發(fā)成為可供現(xiàn)代人隨時(shí)獲取的方式,實(shí)現(xiàn)針灸古籍有效、快捷地為臨床、科研、教學(xué)服務(wù),擴(kuò)大針灸的影響成為迫在眉睫的問(wèn)題。
數(shù)據(jù)挖掘技術(shù)是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中提取隱含、無(wú)先驗(yàn)、對(duì)決策有用的知識(shí),用專(zhuān)門(mén)算法從數(shù)據(jù)庫(kù)中抽取模式,然后通過(guò)系統(tǒng)解釋和評(píng)價(jià)模塊,將模式轉(zhuǎn)換成用戶可以理解的知識(shí)。由于古代針灸文獻(xiàn)數(shù)據(jù)量大,記錄方式簡(jiǎn)單、術(shù)語(yǔ)不規(guī)范、標(biāo)準(zhǔn)不統(tǒng)一,造成文獻(xiàn)中知識(shí)、經(jīng)驗(yàn)具有明顯模糊性與不確定性。用普通的數(shù)據(jù)獲取方法,無(wú)法實(shí)現(xiàn)對(duì)復(fù)雜的模糊性與不確定性針灸古籍?dāng)?shù)據(jù)進(jìn)行關(guān)聯(lián)分析。為此,筆者通過(guò)開(kāi)發(fā)一個(gè)按照針灸學(xué)診治疾病的模式,以針灸古籍為分析對(duì)象,采用數(shù)據(jù)挖掘技術(shù)提取、整合、展示散布于古籍?dāng)?shù)據(jù)中的理、法、經(jīng)、穴、術(shù)知識(shí),連接現(xiàn)代針灸與古籍作用的平臺(tái),以供用戶檢索使用。茲介紹如下。
該平臺(tái)基于 SSH(Struts+Spring+Hibernate)架構(gòu),由 Struts 實(shí)現(xiàn)表示層、Spring 實(shí)現(xiàn)業(yè)務(wù)邏輯層、Hibernate 實(shí)現(xiàn)數(shù)據(jù)持久層,數(shù)據(jù)庫(kù)用 Oracle10g,開(kāi)發(fā)語(yǔ)言 JAVA,運(yùn)行環(huán)境為 Windows2008 R2 Server+Tomcat6.0+JDK1.6,通過(guò) B/S(Browser/Server,瀏覽器/服務(wù)器模式)的方式提供給用戶和數(shù)據(jù)錄入核對(duì)人員使用。針灸古籍經(jīng)驗(yàn)推薦平臺(tái)功能模塊見(jiàn)圖1。
圖 1 針灸古籍經(jīng)驗(yàn)推薦平臺(tái)結(jié)構(gòu)圖
2.1 系統(tǒng)管理模塊
系統(tǒng)管理模塊包括操作員管理、角色管理、權(quán)限管理、設(shè)置個(gè)人信息、修改密碼、操作日志、訪問(wèn) IP限定等子模塊,具體分述如下。
2.1.1 操作員管理 是系統(tǒng)管理員開(kāi)通、設(shè)置錄入校對(duì)人員的操作員帳號(hào)、密碼、權(quán)限與真實(shí)姓名的操作模塊,只有在操作管理開(kāi)通并授權(quán)的情況下方可進(jìn)入系統(tǒng)進(jìn)行相關(guān)的操作,每位參與古籍錄入校對(duì)人員均需有針灸專(zhuān)業(yè)知識(shí)基礎(chǔ)。
2.1.2 角色管理 因平臺(tái)先期的古籍收集整理,以及后期的古籍庫(kù)資料庫(kù)、資料核對(duì)、標(biāo)準(zhǔn)庫(kù)的建立工作均需大量人員參與,將參與這項(xiàng)工作的人員進(jìn)行分工以方便管理是很有必要的,系統(tǒng)中將參與人員按角色區(qū)分為超級(jí)管理員、資料錄入校對(duì)員、標(biāo)準(zhǔn)庫(kù)錄入校對(duì)員,其中超級(jí)管理員擁有最高權(quán)限。
2.1.3 權(quán)限管理 是系統(tǒng)管理員限定操作員分工范圍的功能模塊,為超級(jí)管理員、資料錄入校對(duì)員、標(biāo)準(zhǔn)庫(kù)錄入校對(duì)員3種不同角色限定工作范圍,除超級(jí)管理員外,每個(gè)操作員登錄系統(tǒng)時(shí)只能操作本人錄入校對(duì)的古籍或標(biāo)準(zhǔn)庫(kù)內(nèi)容,如資料錄入校對(duì)員可操作本人錄入校對(duì)古籍的查詢(xún)、查看、新增、修改、刪除、回收功能。
2.1.4 設(shè)置個(gè)人信息 所有操作人員于該功能模塊下完善個(gè)人信息,包括聯(lián)系方式、專(zhuān)業(yè)、單位、錄入或校對(duì)的古籍書(shū)目等。
2.1.5 修改密碼 系統(tǒng)管理員設(shè)置錄入校對(duì)人員權(quán)限時(shí)使用初始密碼,告知操作員后,操作員可于本功能模塊下修改自己的登錄密碼。
2.1.6 操作日志 所有操作人員每次登錄平臺(tái),平臺(tái)自動(dòng)記錄來(lái)訪操作員名稱(chēng)、IP 地址、操作時(shí)間,描述其操作內(nèi)容等。
2.1.7 訪問(wèn) IP 限定 為提高系統(tǒng)安全性,除授權(quán)訪問(wèn)外,還可通過(guò) IP 地址限制哪些 IP 地址可以訪問(wèn),哪些 IP 地址不能訪問(wèn)。
2.2 資料管理模塊
該功能模塊是操作員登錄系統(tǒng)后的操作界面,操作員于此錄入、修改、校對(duì)資料,包括標(biāo)準(zhǔn)庫(kù)、資料庫(kù)、簡(jiǎn)繁體轉(zhuǎn)換、數(shù)據(jù)校對(duì)與規(guī)范、通假字處理、術(shù)語(yǔ)詞典等子模塊。
2.2.1 標(biāo)準(zhǔn)庫(kù) 在數(shù)據(jù)挖掘的多個(gè)環(huán)節(jié)需要使用標(biāo)準(zhǔn)庫(kù),如分詞時(shí)將標(biāo)準(zhǔn)庫(kù)擴(kuò)充為 IKAnalyzer2012_u6(IK)分詞器的詞典,在詞性標(biāo)注時(shí)將標(biāo)準(zhǔn)庫(kù)作為ICTCLAS2015 的擴(kuò)展字典,規(guī)則抽取是用標(biāo)準(zhǔn)庫(kù)的術(shù)語(yǔ)去標(biāo)注分析資料庫(kù),監(jiān)督分類(lèi)也需標(biāo)準(zhǔn)庫(kù)作為訓(xùn)練語(yǔ)料,是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)。標(biāo)準(zhǔn)庫(kù)包括病證、癥狀、病癥、經(jīng)絡(luò)、穴位、刺灸法6個(gè)子庫(kù),操作員可于各個(gè)子庫(kù)下新增、查看、修改、刪除每個(gè)癥狀、病證、病癥、經(jīng)絡(luò)、穴位、刺灸法的名稱(chēng)、類(lèi)別、代號(hào)、出處、別名、主癥、兼癥、描述等信息,并可上傳圖片。
2.2.2 古籍庫(kù) 針灸古籍是平臺(tái)進(jìn)行數(shù)據(jù)挖掘的對(duì)象,包括古籍書(shū)名目錄、資料列表、回收站3個(gè)子庫(kù),并有書(shū)籍管理、內(nèi)容管理可供操作員按書(shū)名、作者、章、節(jié)、內(nèi)容、錄入人員查詢(xún)。①古籍書(shū)名目錄:操作員可于本子庫(kù)下新增、查看、修改、刪除每本古籍的書(shū)名、版本、類(lèi)別(綜合性、專(zhuān)書(shū))、作者、朝代、備注等信息;②資料列表:操作員可于本子庫(kù)下新增、查看、修改、核對(duì)、刪除、回收古籍書(shū)名目錄下書(shū)籍的章、節(jié)、內(nèi)容、備注等,并可插入書(shū)中圖片。
2.2.3 繁簡(jiǎn)轉(zhuǎn)換 由于古籍存在版本年代的差異,可能存在繁體字,操作員可錄入繁體字與簡(jiǎn)體字,系統(tǒng)采用開(kāi)源包 HanLP[2]中的簡(jiǎn)轉(zhuǎn)繁詞典,實(shí)現(xiàn)繁體字與簡(jiǎn)體字的互換。2.2.4 同名穴處理 資料錄入后,由針灸專(zhuān)業(yè)人員用交叉校對(duì)法進(jìn)行校對(duì),糾正錯(cuò)誤數(shù)據(jù),刪除重復(fù)數(shù)據(jù)。
2.2.5 通假字處理 古籍存在大量的通假字,根據(jù)高啟沃《簡(jiǎn)明通假字字典》[3]對(duì)古籍中的通假字進(jìn)行識(shí)別替換,并基于二分 Trie 樹(shù)的前綴查詢(xún)算法實(shí)現(xiàn)快速的檢索匹配比較。
2.2.6 術(shù)語(yǔ)處理 除了標(biāo)準(zhǔn)庫(kù)中的病證、癥狀、病癥、經(jīng)絡(luò)、穴位、刺灸法內(nèi)容是 IK 分詞器的詞典、ICTCLAS2015 的擴(kuò)展字典,同時(shí)將搜狗輸入法的詞庫(kù)等進(jìn)行整理,包括書(shū)名、人名、朝代名詞、古代區(qū)域名稱(chēng)等,作為術(shù)語(yǔ)詞典之一。
2.3 數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘是平臺(tái)核心部分,目的是實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的古籍文本信息按照病癥、腧穴、經(jīng)絡(luò)、刺灸法的關(guān)系進(jìn)行抽取,并通過(guò)關(guān)聯(lián)挖掘分析腧穴的配伍關(guān)系及病癥、腧穴、經(jīng)絡(luò)、刺灸法的對(duì)應(yīng)關(guān)系,最終形成知識(shí)庫(kù)。
2.3.1 分詞 分詞是進(jìn)行句子理解、語(yǔ)法分析及信息抽取的基礎(chǔ),針灸古籍經(jīng)驗(yàn)推薦平臺(tái)采用IKAnalyzer2012_u6 作為分詞器,將上述術(shù)語(yǔ)詞典作為擴(kuò)展詞典,對(duì)資料庫(kù)進(jìn)行切分并標(biāo)注詞性。
2.3.2 詞性標(biāo)注 為更好理解古籍中每個(gè)句子的含義,在分詞基礎(chǔ)上,對(duì)每個(gè)詞語(yǔ)進(jìn)行標(biāo)注,區(qū)分每一個(gè)詞的詞性,系統(tǒng)采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的漢語(yǔ)詞法分析系統(tǒng) ICTCLAS2015[4]作為詞性標(biāo)注工具,將標(biāo)準(zhǔn)庫(kù)作其擴(kuò)展字典,對(duì)資料庫(kù)進(jìn)行切分并標(biāo)注詞性。
2.3.3 依存分析 語(yǔ)法樹(shù)的依存關(guān)系分析有助于更好地進(jìn)行人工智能的自然語(yǔ)言處理分析,平臺(tái)采用最大熵算法實(shí)現(xiàn)語(yǔ)法樹(shù)的依存關(guān)系分析。
2.3.4 規(guī)則抽取 通過(guò)詞性標(biāo)注,得到每個(gè)詞語(yǔ)的詞性,通過(guò)擴(kuò)展詞典,將病癥、腧穴、經(jīng)絡(luò)、刺灸法標(biāo)準(zhǔn)庫(kù)的術(shù)語(yǔ)通過(guò)自定的詞性標(biāo)注標(biāo)簽來(lái)進(jìn)行分區(qū),存在關(guān)聯(lián)關(guān)系的句子用正則規(guī)則關(guān)系進(jìn)行抽取。
2.3.5 監(jiān)督分類(lèi) 采用 Adaboost 算法[5],將規(guī)則抽取的結(jié)果根據(jù)標(biāo)準(zhǔn)庫(kù)的內(nèi)容進(jìn)行細(xì)分分類(lèi)。該算法的優(yōu)點(diǎn)是不需預(yù)先標(biāo)注的手工訓(xùn)練集,只需少量抽取目標(biāo)的樣本信息及大量的未標(biāo)注語(yǔ)料就可自動(dòng)抽取目標(biāo)信息。先將標(biāo)準(zhǔn)庫(kù)構(gòu)建成訓(xùn)練模板,通過(guò) Adaboost算法迭代進(jìn)行分類(lèi)。
2.3.6 相似度計(jì)算 為提高監(jiān)督分類(lèi)的準(zhǔn)確率,在采用 Adaboost 算法基礎(chǔ)上,采用基于 TF-IDF[6]和余弦[7]實(shí)現(xiàn)相似度分析。該算法通過(guò)詞頻和逆向文檔,將文本信息轉(zhuǎn)為多維的空間向量,通過(guò)余弦公式計(jì)算兩個(gè)空間向量的夾角大小進(jìn)行評(píng)估文本的相似度。
2.3.7 歧義分析 對(duì)于同一病癥在不同書(shū)籍中存在不同名稱(chēng)的歧義,采用基于隱含語(yǔ)義分析(latent semantic analysis,LSA)[8]和奇異值分解(singular value decomposition,SVD)[9]來(lái)解決。
2.3.8 關(guān)聯(lián)挖掘 通過(guò)以上的清理、去噪、整理,形成病癥-腧穴-經(jīng)絡(luò)-刺灸法集,采用 Apriori 算法[10]實(shí)現(xiàn)多層的關(guān)聯(lián)分析,通過(guò)迭代和設(shè)置最小支持度和置信度,分析項(xiàng)集之間的潛在關(guān)系,建立腧穴配伍關(guān)系、病癥腧穴對(duì)應(yīng)關(guān)系、腧穴刺灸法對(duì)應(yīng)關(guān)系的知識(shí)庫(kù)。
2.3.9 決策分析 在關(guān)聯(lián)挖掘所建立知識(shí)庫(kù)的基礎(chǔ)上,采用決策樹(shù) C4.5 算法[11]解決疾病不同癥狀所選用的腧穴、刺灸法可能不同的問(wèn)題,以提高分類(lèi)的準(zhǔn)確度,實(shí)現(xiàn)更好的分類(lèi)預(yù)測(cè)。
2.4 用戶檢索模塊
2.4.1 全文檢索 用戶可于該界面以檢索詞檢索古籍全文,檢索詞將以不同顏色顯示,用戶點(diǎn)擊任意一條記錄可以查看全文。
2.4.2 詞頻統(tǒng)計(jì) 用戶檢索全文時(shí),系統(tǒng)自動(dòng)統(tǒng)計(jì)檢索詞在古籍庫(kù)中每本書(shū)出現(xiàn)的頻率。檢索病癥時(shí),還將出現(xiàn)治療該病癥的經(jīng)絡(luò)、腧穴、刺灸法出現(xiàn)的頻率,以遞減的方式顯示;若檢索的是腧穴,還會(huì)出現(xiàn)該穴治療病癥、刺灸法的頻率,以遞減的方式顯示。2.4.3 關(guān)聯(lián)挖掘結(jié)果 用戶檢索時(shí),平臺(tái)將顯示關(guān)聯(lián)挖掘結(jié)果,病癥與腧穴(特定穴)、病癥處方中腧穴與腧穴、病癥與刺灸法及腧穴與刺灸法的支持度和置信度,且病癥與腧穴可以關(guān)系圖的方式表示。
通過(guò)上述的功能模塊設(shè)計(jì)和實(shí)現(xiàn),完成平臺(tái)的構(gòu)建,根據(jù)《新編針灸大辭典》[12]、《中國(guó)針灸穴位通鑒(上、下卷)》[13],將書(shū)中的經(jīng)絡(luò)、穴位、刺灸法內(nèi)容錄入系統(tǒng),建立含有經(jīng)絡(luò)、穴位、刺灸法信息的標(biāo)準(zhǔn)庫(kù),具體包括名稱(chēng)、別名、定義或描述、特性與出處等信息。根據(jù)《中國(guó)針灸薈萃·現(xiàn)存針灸醫(yī)籍之部》[14]、《新編針灸大辭典》[12]的針灸醫(yī)籍名稱(chēng),收集清代以前針灸古籍并錄入數(shù)據(jù)庫(kù),建立古籍庫(kù),具體包括書(shū)名、版本、作者、朝代、章、節(jié)、內(nèi)容等。
3.1 全文檢索結(jié)果界面
用戶通過(guò)搜索界面,可對(duì)所錄入的 150 本針灸古籍進(jìn)行全文檢索。平臺(tái)根據(jù)用戶的查詢(xún)條件在古籍中進(jìn)行全文檢索,檢出包含檢索詞的文章,同時(shí)檢索檢索詞的別名、通假字等,且于界面以關(guān)聯(lián)詞語(yǔ)表示;全文檢索界面的主體部分是含有檢索詞的書(shū)籍名稱(chēng)及部分章節(jié),檢索詞于文中以紅色顯示,雙擊書(shū)目可連接書(shū)籍中所有含有該檢索詞的章節(jié);界面同時(shí)以頻次遞減的形式列出所有含有該檢索詞的書(shū)目。
3.2 腧穴配伍關(guān)聯(lián)分析結(jié)果界面
平臺(tái)自動(dòng)顯示關(guān)聯(lián)分析的結(jié)果,可選擇疾病相關(guān)的癥狀、所用腧穴、腧穴配伍關(guān)系、不同朝代腧穴配伍關(guān)系、刺灸法等。不同支持度與置信度的,分析結(jié)果記錄數(shù)不同,用戶可根據(jù)自身需求選擇支持度與置信度閾值。圖2顯示的是病癥處方中腧穴與腧穴的配伍關(guān)系。
圖 2 腧穴配伍關(guān)聯(lián)分析結(jié)果界面示例
3.3 病癥腧穴關(guān)聯(lián)關(guān)系圖界面
病癥與腧穴的關(guān)系以復(fù)雜關(guān)系圖顯示,圖3顯示的是中風(fēng)病常見(jiàn)癥狀、常用腧穴及病癥與腧穴間的關(guān)系,使關(guān)聯(lián)分析結(jié)果更直觀。
圖 3 病癥腧穴關(guān)聯(lián)關(guān)系圖界面示例
數(shù)據(jù)挖掘技術(shù)在海量、非線性針灸數(shù)據(jù)處理中具有明顯優(yōu)勢(shì),適于分析散在、龐雜的與針灸相關(guān)的經(jīng)絡(luò)、腧穴、疾病、醫(yī)案等資料,以揭示針灸理論科學(xué)內(nèi)涵。但由于在針灸古籍中,腧穴、病癥術(shù)語(yǔ)不統(tǒng)一,存在同名穴、一穴多名,以及同一癥狀有多種描述等現(xiàn)象,即針灸古籍?dāng)?shù)據(jù)具有模糊性與不確定性特點(diǎn),限制了信息化研究的開(kāi)展。目前,數(shù)據(jù)挖掘技術(shù)在針灸文獻(xiàn)研究中的應(yīng)用大部分針對(duì)單個(gè)穴位的應(yīng)用規(guī)律、某個(gè)病的選穴規(guī)律、某種刺灸法及單個(gè)名家病案的挖掘,且大多采用人工閱讀抽取目的相關(guān)的記錄,建立單病、單穴、單種刺灸法資料庫(kù),而非真正意義上的大數(shù)據(jù)、智能化。針灸古籍經(jīng)驗(yàn)推薦平臺(tái)旨在突破以上限制,采用數(shù)據(jù)挖掘的分詞、詞性標(biāo)注、依存分析、規(guī)則抽取、相似度計(jì)算、隱性語(yǔ)義分析、監(jiān)督分類(lèi)技術(shù)結(jié)合標(biāo)準(zhǔn)庫(kù),實(shí)現(xiàn)自動(dòng)古籍文本抽取,突破人工限制;建立含有經(jīng)絡(luò)、穴位、病證、病癥對(duì)應(yīng)、針灸相關(guān)術(shù)語(yǔ)等的標(biāo)準(zhǔn)庫(kù),采用隱性語(yǔ)義分析用標(biāo)準(zhǔn)庫(kù)將病癥、經(jīng)絡(luò)、腧穴庫(kù)標(biāo)準(zhǔn)化,解決古籍中腧穴、病癥術(shù)語(yǔ)不統(tǒng)一的問(wèn)題。構(gòu)建一個(gè)具有適合針灸診療模式及數(shù)據(jù)挖掘功能的平臺(tái),綜合多種數(shù)據(jù)挖掘技術(shù),通過(guò)“大數(shù)據(jù)”開(kāi)發(fā)適合所有針灸文獻(xiàn)的智能系統(tǒng),在反映古籍中病癥與腧穴、腧穴與腧穴、病癥與刺灸法、病癥與經(jīng)絡(luò)關(guān)系特點(diǎn)的同時(shí),實(shí)現(xiàn)針灸古籍有效、快捷地為針灸臨床、科研、教學(xué)服務(wù),促進(jìn)針灸的傳承與發(fā)展,并架起一座通往針灸古籍的橋梁。
[1] 黃龍祥.針灸名著集成[M].北京:華夏出版社,1996:1.
[2] 上海林原信息科技有限公司.HanLP 漢語(yǔ)處理包:HanLP v1.2.8[EB/OL]. [2017-03-23].ht tp://hanlp.linrunsof t.com/.
[3] 高啟沃.簡(jiǎn)明通假字字典[M].2 版.合肥:安徽教育出版社,1999.
[4] 張華平.NLPIR 漢語(yǔ)分詞系統(tǒng):ICTCLAS2015[EB/OL].[2015-08-23]. http://ictclas.nlpir.org.
[5] 許劍,張洪偉.Adaboost 算法分類(lèi)器設(shè)計(jì)及其應(yīng)用[J].四川理工學(xué)院學(xué)報(bào):自然科學(xué)版,2014,27(1):28-31.
[6] 黃承慧,印鑒,侯昉.一種結(jié)合詞項(xiàng)語(yǔ)義信息和 TF-IDF 方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):856-864.
[7] 張振亞,王進(jìn),程紅梅,等.基于余弦相似度的文本空間索引方法研究[J].計(jì)算機(jī)科學(xué),2005,32(9):160-163.
[8] 蓋杰,王怡,武港山.潛在語(yǔ)義分析理論及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2004,21(3):9-12.
[9] 李金嶺.SVD 算法簡(jiǎn)介與模擬數(shù)據(jù)檢驗(yàn)[J].中國(guó)科學(xué)院上海天文臺(tái)年刊,1998,19:16-21.
[10] HAN J W, KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.3 版.北京:機(jī)械工業(yè)出版社,2012:148.
[11] 黃文.決策樹(shù)的經(jīng)典算法:ID3 與 C4.5[J].四川文理學(xué)院學(xué)報(bào),2007, 17(5):16-18.
[12] 程寶書(shū).新編針灸大辭典[M].北京:華夏出版社,1995.
[13] 王德深.中國(guó)針灸穴位通鑒[M].青島:青島出版社,2004.
[14] 郭靄春.中國(guó)針灸薈萃:現(xiàn)存針灸醫(yī)籍之部[M].長(zhǎng)沙:湖南科學(xué)技術(shù)出版社,1993.
Construction Method and Function Disp lay of Recommendation Platform for Acupuncture Ancient Books
CHEN Chu-yun1, LI Wei-lin2, HONG Jia-m ing3, LI Li-xia1, ZHANG Qu-fei1, XIE Li-qin1(1. Department of Acupuncture, Guangzhou Hospital of Chinese Medicine, Guangzhou 510130, China; 2. Information and Network Center, Xinhua College, Zhongshan University, Guangzhou 510080, China; 3. College of Medical Information Engineering, Guangzhou University of Chinese Medicine, Guangzhou 510006, China)
This article analyzed the characteristics of data of acupuncture and moxibustion in ancient books, and put forward to a mode of diagnosis and treatments according to acupuncture and moxibustion. A variety of data mining techniques were used to extract, integrate and display the theory, methods, meridians, acupoints and techniques in ancient books to establish a database platform of ancient books based on B/S architecture, which can be used by users. Also, this article described the framework, the function of the module, and the method of realizing each function of the experience platform of acupuncture ancient books, and demonstrated an interface of the results searched by key words“stroke”, and summarized the experience of building this platform and the advantages of the platform in the research and development of data of acupuncture ancient books.
data m ining technology; acupuncture ancient books; software development
10.3969/j.issn.1005-5304.2017.08.002
R2-05
A
1005-5304(2017)08-0004-05
2016-12-16)
(
2017-01-26;編輯:梅智勝)
廣東省科技計(jì)劃項(xiàng)目(2012B060500015);廣東省自然科學(xué)基金(2014A030309013);廣東省第二批名中醫(yī)師承項(xiàng)目(CS2015030)
李偉林,E-mai l:lwl_tech@126.com