潘瑋 鄭鵬 黃錦泉
〔摘 要〕[目的/意義]了解我國(guó)健康信息領(lǐng)域研究熱點(diǎn),提升研究熱點(diǎn)識(shí)別的準(zhǔn)確性。[方法/過(guò)程]論文首先構(gòu)建了數(shù)據(jù)清洗“DEAN”流程,在此基礎(chǔ)上以CNKI和萬(wàn)方數(shù)據(jù)庫(kù)收錄的2004-2017年健康信息領(lǐng)域文獻(xiàn)數(shù)據(jù)為研究對(duì)象,運(yùn)用Citespace Ⅴ軟件對(duì)健康信息領(lǐng)域的研究熱點(diǎn)進(jìn)行識(shí)別。[結(jié)果/結(jié)論]研究共探測(cè)出我國(guó)健康信息領(lǐng)域六大研究熱點(diǎn),并對(duì)是否運(yùn)用“DEAN”流程識(shí)別出的研究熱點(diǎn)結(jié)果進(jìn)行對(duì)比分析,發(fā)現(xiàn)運(yùn)用“DEAN”流程能夠提升研究熱點(diǎn)識(shí)別的準(zhǔn)確性。
〔關(guān)鍵詞〕數(shù)據(jù)清洗;DEAN;健康信息;研究熱點(diǎn)
DOI:10.3969/j.issn.1008-0821.2018.10.011
〔中圖分類號(hào)〕G250.252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)10-0073-05
〔Abstract〕[Purpose/Significance]The purpose of this paper was to understand the research hotspots of the health information researches.[Method/Process]The Data cleaning process named“DEAN”was constructed firstly,and published articles on health information during 2004-2017,which were recorded in the database of CNKI and WanFang,were chosen to be analyzed in this paper.[Result/Conclusion]By applying the software of Citesapce Ⅴ,the paper found Six research hotspots on the areas of health information.Meanwhile the paper compared the results of two cases that applied“DEAN”process or not,and found“DEAN”process could improve the accuracy of research hotspot identification.
〔Key words〕data clean;DEAN;health information;research hotpot
健康信息指與公眾、患者及其家屬有關(guān)的醫(yī)學(xué)和健康相關(guān)信息[1]。健康信息的來(lái)源較為復(fù)雜,可源自專業(yè)人士(如醫(yī)生)、非專業(yè)人士(如家庭成員或朋友)和媒體(如網(wǎng)絡(luò)、電視等)[2]。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,健康信息在互聯(lián)網(wǎng)上的快速增殖,使得患者趨向于首先通過(guò)網(wǎng)絡(luò)獲取自身狀況的健康信息,而不是第一時(shí)間尋求專業(yè)人士的幫助[3]。2016年10月發(fā)布的《中國(guó)網(wǎng)民科普需求搜索行為報(bào)告》顯示:健康與醫(yī)療主題占百度搜索所有主題的57%,成為最受關(guān)注的科普主題[4]。由此可見(jiàn)健康信息對(duì)優(yōu)化公眾健康管理及改善公眾健康意識(shí)意義重大[5]。因此全面把握健康信息領(lǐng)域研究熱點(diǎn),對(duì)健康信息的深入研究至關(guān)重要。
目前已有學(xué)者進(jìn)行了健康信息領(lǐng)域研究熱點(diǎn)識(shí)別的相關(guān)研究,如吳浩等對(duì)網(wǎng)絡(luò)健康信息的研究熱點(diǎn)進(jìn)行了分析[6]。陳娟等對(duì)國(guó)內(nèi)外健康信息領(lǐng)域的演進(jìn)路徑和研究熱點(diǎn)進(jìn)行了比較研究[7]。Wang Y等對(duì)6個(gè)國(guó)家的區(qū)域健康信息網(wǎng)絡(luò)的研究熱點(diǎn)和演進(jìn)路徑進(jìn)行了比較分析[8]。上述研究均是以國(guó)內(nèi)外文獻(xiàn)數(shù)據(jù)庫(kù)健康信息研究相關(guān)文獻(xiàn)為數(shù)據(jù)源,通過(guò)關(guān)鍵詞頻次分析及共現(xiàn)分析,識(shí)別國(guó)內(nèi)外健康信息研究領(lǐng)域或其子領(lǐng)域的研究熱點(diǎn),具有較好的實(shí)用價(jià)值,但是與大多數(shù)利用關(guān)鍵詞共現(xiàn)方法識(shí)別領(lǐng)域研究熱點(diǎn)的研究類似,上述研究對(duì)于研究熱點(diǎn)識(shí)別過(guò)程中數(shù)據(jù)清洗過(guò)程的描述不夠全面系統(tǒng),而數(shù)據(jù)清洗的效果將直接決定研究熱點(diǎn)識(shí)別的準(zhǔn)確性?;诖耍P者首先構(gòu)建數(shù)據(jù)清洗的“DEAN”流程,對(duì)關(guān)鍵詞數(shù)據(jù)進(jìn)行全面系統(tǒng)的清洗,在此基礎(chǔ)上對(duì)健康信息領(lǐng)域研究熱點(diǎn)進(jìn)行識(shí)別,以提升結(jié)果準(zhǔn)確性。
1 數(shù)據(jù)清洗的“DEAN”流程
1.1 基本環(huán)節(jié)
數(shù)據(jù)清洗的“DEAN”流程的基本環(huán)節(jié)如圖1的所示。
“DEAN”源自數(shù)據(jù)清洗的4類對(duì)象,即重復(fù)記錄(Duplicates)、錯(cuò)誤記錄(Errors)、同義關(guān)鍵詞(Alias)和干擾關(guān)鍵詞(Noises)的英文首字母組合。關(guān)鍵詞的準(zhǔn)確性和頻次是影響關(guān)鍵詞共現(xiàn)方法識(shí)別領(lǐng)域研究熱點(diǎn)結(jié)果準(zhǔn)確性的兩個(gè)重要因素?!癉EAN”4類對(duì)象及其對(duì)關(guān)鍵詞準(zhǔn)確性和頻次產(chǎn)生影響的具體機(jī)理為:
1)Duplicates
Duplicates指數(shù)據(jù)庫(kù)中所有字段均相同,或有些字段不同,但題名且關(guān)鍵詞字段相同,或存在包含關(guān)系的文獻(xiàn)記錄。主要包括:①數(shù)據(jù)庫(kù)內(nèi)的重復(fù)記錄,可由于數(shù)據(jù)庫(kù)更新、維護(hù)失誤所致,或是題名及關(guān)鍵詞字段相同的論文被兩種以上期刊同時(shí)收錄所致。②多數(shù)據(jù)庫(kù)重復(fù)記錄,多見(jiàn)于使用多數(shù)據(jù)庫(kù)作為數(shù)據(jù)來(lái)源時(shí),由不同數(shù)據(jù)庫(kù)收錄相同文獻(xiàn)所致。Duplicates可增加關(guān)鍵詞的頻次,可能導(dǎo)致本不是研究熱點(diǎn)的關(guān)鍵詞被識(shí)別為研究熱點(diǎn)。
2)Errors
Errors指不符合檢索需求的記錄。主要包括:①文獻(xiàn)類型錯(cuò)誤,如檢索出的會(huì)議通知、編者按及廣告等不符合檢索需求的類型的記錄。②由檢索策略導(dǎo)致的錯(cuò)誤,如檢索出的不相關(guān)的記錄。Errors可降低關(guān)鍵詞的準(zhǔn)確性,可能降低聚類的準(zhǔn)確性,進(jìn)而影響研究熱點(diǎn)的歸納和整合。
3)Alias
Alias指表示相同概念的關(guān)鍵詞。主要包括:①語(yǔ)法異構(gòu),如英文單詞的大小寫及單復(fù)數(shù)。②語(yǔ)義異構(gòu),如全稱與縮寫及同義詞。Alias可降低表示同一概念的關(guān)鍵詞的頻次,可能導(dǎo)致本該作為研究熱點(diǎn)被識(shí)別的主題最終未被識(shí)別。
4)Noises
Noises指干擾研究熱點(diǎn)識(shí)別結(jié)果的關(guān)鍵詞。主要包括:①子網(wǎng)絡(luò)(Subnetwork)。構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)時(shí)可能會(huì)出現(xiàn)多個(gè)子網(wǎng)絡(luò)。受聚類算法所限,每次只能選取規(guī)模最大的子網(wǎng)絡(luò)進(jìn)行聚類[9]。其它子網(wǎng)絡(luò)所包含的關(guān)鍵詞則被視為干擾關(guān)鍵詞。②低頻關(guān)鍵詞。高于某一閾值的關(guān)鍵詞將作為研究熱點(diǎn)被識(shí)別,低于該閾值的關(guān)鍵詞則被視為干擾關(guān)鍵詞。Noises可分散研究人員注意力,可能干擾核心關(guān)鍵詞的歸納和整合。
1.2 實(shí)現(xiàn)方案
針對(duì)“DEAN”流程的基本環(huán)節(jié),擬定各環(huán)節(jié)的實(shí)現(xiàn)方案,各環(huán)節(jié)需要運(yùn)用的軟件及其功能如表1所示。
2 數(shù)據(jù)來(lái)源與方法
2.1 數(shù)據(jù)檢索與清洗
選擇CNKI和萬(wàn)方期刊數(shù)據(jù)庫(kù)作為數(shù)據(jù)來(lái)源,通過(guò)專家咨詢制定相應(yīng)的檢索策略。CNKI期刊數(shù)據(jù)庫(kù)的檢索策略為:((關(guān)鍵詞=健康信息)(模糊))OR((題名=健康信息)(精確)),期刊來(lái)源類別選擇“核心期刊”和“CSSCI”,檢索時(shí)間截至2017年11月,共檢索文獻(xiàn)173篇。萬(wàn)方期刊數(shù)據(jù)庫(kù)的檢索策略為:題名或關(guān)鍵詞為“健康信息”,檢索時(shí)間截至2017年11月,以“北大核心”為限定條件,共檢索文獻(xiàn)200篇,以CSSCI為限定條件,共檢索文獻(xiàn)73篇。將檢索出的446文獻(xiàn)以Refworks格式導(dǎo)出,作為原始研究的原始數(shù)據(jù)。按照表1的數(shù)據(jù)清洗方案對(duì)原始數(shù)據(jù)進(jìn)行清洗,得到研究所需的樣本數(shù)據(jù),供進(jìn)一步分析使用。
2.2 方法與工具
運(yùn)用關(guān)鍵詞共現(xiàn)方法識(shí)別健康信息領(lǐng)域研究熱點(diǎn)。共同出現(xiàn)在一篇文獻(xiàn)中的兩個(gè)關(guān)鍵詞之間存在一定的內(nèi)在聯(lián)系,且共同出現(xiàn)的次數(shù)越多,則聯(lián)系越緊密。由于關(guān)鍵詞是對(duì)文獻(xiàn)內(nèi)容的濃縮和精煉,因此在對(duì)共現(xiàn)關(guān)鍵詞進(jìn)行聚類的基礎(chǔ)上,對(duì)核心關(guān)鍵詞之間的關(guān)系進(jìn)行梳理和整合,能夠識(shí)別出特定領(lǐng)域的研究熱點(diǎn)[10]。
Citespace Ⅴ軟件是陳超美博士開(kāi)發(fā)的文獻(xiàn)信息分析及可視化軟件,能夠?qū)崿F(xiàn)運(yùn)用關(guān)鍵詞共現(xiàn)方法識(shí)別特定領(lǐng)域的研究熱點(diǎn)[11]。具體步驟為:1)將清洗后得到的樣本數(shù)據(jù)導(dǎo)入Citespace Ⅴ軟件;2)“Time Slicing”設(shè)置為2004-2017年,“Years Per Slice”設(shè)置為1年,“Term Source”選擇Keywords Plus,“Node Types”選擇Keyword,“Selection Criteria”選擇“Top N Per Slice”,設(shè)置為200,“Pruning”選擇Pathfinder;3)運(yùn)行Citespace Ⅴ軟件,得到可視化圖譜;4)選擇“聚類”功能,得到研究熱點(diǎn)圖譜。
3 結(jié) 果
3.1 數(shù)據(jù)清洗結(jié)果
依據(jù)“DEAN”流程數(shù)據(jù)清洗方案對(duì)原始數(shù)據(jù)進(jìn)行清洗的結(jié)果如表2所示。
3.2 研究熱點(diǎn)識(shí)別結(jié)果
得到健康信息領(lǐng)域研究熱點(diǎn)圖譜,如圖2所示。在圖2中,相互獨(dú)立的幾何圖形為應(yīng)用聚類算法得到的不同類團(tuán),可以表示健康信息研究領(lǐng)域的不同子領(lǐng)域。節(jié)點(diǎn)和標(biāo)簽字體的大小與關(guān)鍵詞的頻次成正比,且只顯示頻次≥4的關(guān)鍵詞的標(biāo)簽。
由圖2可知,健康信息領(lǐng)域的研究熱點(diǎn)包括以下幾個(gè)方面:第一,健康信息素養(yǎng)研究,主要包括健康信息素養(yǎng)的影響因素,老年人、糖尿病患者健康信息素養(yǎng)狀況,圖書館在提升公共健康信息素養(yǎng)中的功能和作用,健康信息素養(yǎng)現(xiàn)狀下的信息服務(wù)等研究。第二,健康信息搜尋研究,主要包括網(wǎng)絡(luò)健康信息搜尋行為研究,用戶個(gè)性化健康信息搜尋等研究。第三,新媒體環(huán)境下的健康信息傳播研究,主要包括新媒體環(huán)境下健康信息的獲取、利用及效果評(píng)價(jià)等研究。第四,健康信息管理研究,包括運(yùn)用信息系統(tǒng)及現(xiàn)代信息技術(shù)對(duì)用戶健康信息進(jìn)行存儲(chǔ)、分析及利用等研究。第五,大數(shù)據(jù)環(huán)境下的健康信息分析與應(yīng)用,包括互聯(lián)網(wǎng)、社交媒體健康信息分析與應(yīng)用,健康信息隱私管理等研究。第六,健康教育研究,主要包括農(nóng)村居民、孕產(chǎn)婦等群體的健康信息需求調(diào)查基礎(chǔ)上的健康教育策略研究。
4 討 論
本研究運(yùn)用Citespace Ⅴ軟件,對(duì)未使用“DEAN”數(shù)據(jù)清洗流程情況下的健康信息領(lǐng)域研究熱點(diǎn)進(jìn)行識(shí)別,如圖3所示,所有參數(shù)與使用“DEAN”流程時(shí)保持一致。
對(duì)比研究熱點(diǎn)的識(shí)別效果可知,圖2比圖3的優(yōu)勢(shì)體現(xiàn)在以下4個(gè)方面:
1)研究熱點(diǎn)地位更加均衡
圖3中代表“健康信息”的節(jié)點(diǎn)和標(biāo)簽地位過(guò)于突出,而圖2中代表各研究熱點(diǎn)的節(jié)點(diǎn)和文字標(biāo)簽總體上看較為均衡,究其原因在于原始數(shù)據(jù)中過(guò)多的重復(fù)記錄造成了頻次靠前研究熱點(diǎn)的放大效應(yīng),以“健康信息”為例,在原始數(shù)據(jù)中其頻次達(dá)到了140次,而經(jīng)過(guò)Remove Duplicates環(huán)節(jié)后,其頻次降到了83次。因此“去重”可以有效地降低偏倚,改善識(shí)別效果。
2)研究熱點(diǎn)識(shí)別結(jié)果更加準(zhǔn)確
圖3顯示了“山東省”、“優(yōu)秀期刊”和“綜合質(zhì)量”這3個(gè)研究熱點(diǎn),明顯與健康信息研究領(lǐng)域相關(guān)性較低,究其原因在于原始數(shù)據(jù)內(nèi)有一條以“綜合質(zhì)量、優(yōu)秀期刊、山東省、健康信息”等為關(guān)鍵詞的某期刊獲獎(jiǎng)通知文獻(xiàn)記錄,且該通知在該期刊的不同期次重復(fù)刊登,使得“山東省”、“優(yōu)秀期刊”和“綜合質(zhì)量”這3個(gè)關(guān)鍵詞累積頻次達(dá)到23次、23次和22次,從而被識(shí)別為研究熱點(diǎn),而經(jīng)過(guò)Erase Errors環(huán)節(jié)后,上述記錄被作為錯(cuò)誤記錄予以刪除,在圖2中不再被展示出來(lái)。因此“勘誤”能夠去除錯(cuò)誤研究熱點(diǎn),改善識(shí)別效果。
3)新研究熱點(diǎn)的涌現(xiàn)
圖2中涌現(xiàn)了“新媒體”、“用戶”和“公共”等新研究熱點(diǎn),究其原因在于對(duì)原始數(shù)據(jù)中不一致的關(guān)鍵詞進(jìn)行了合并。經(jīng)過(guò)“Merge Alias”環(huán)節(jié)后,一方面增加了新的關(guān)鍵詞,如將“QQ”、“微信”和“朋友圈”整合為“新媒體”等;另一方面某些關(guān)鍵詞的頻次得到了增加,如通過(guò)將“在線健康信息”整合為“網(wǎng)絡(luò)健康信息”使后者的頻次從5次增加到8次。因此“合并”可以發(fā)掘潛在的研究熱點(diǎn),改善識(shí)別效果。
4)研究熱點(diǎn)識(shí)別結(jié)果更加清晰
與圖3相比,圖2展示的研究熱點(diǎn)結(jié)果更加清晰,究其原因在于對(duì)原始數(shù)據(jù)進(jìn)行了降噪處理。經(jīng)過(guò)“Reduce Noises”環(huán)節(jié),對(duì)關(guān)鍵詞頻次小于4次的關(guān)鍵詞標(biāo)簽進(jìn)行了隱藏。因此“降噪”能夠去除造成干擾的噪聲關(guān)鍵詞,改善識(shí)別效果。
5 結(jié) 論
目前,共詞分析方法已廣泛應(yīng)用于領(lǐng)域研究熱點(diǎn)的識(shí)別研究,但是對(duì)運(yùn)用該方法所識(shí)別的研究熱點(diǎn)的準(zhǔn)確性和有效性進(jìn)行驗(yàn)證方面存在著明顯的薄弱[12]。本研究提出的“DEAN”數(shù)據(jù)清洗流程能夠提升研究熱點(diǎn)識(shí)別的準(zhǔn)確性和有效性,具體體現(xiàn)在研究熱點(diǎn)地位更加均衡;研究熱點(diǎn)識(shí)別結(jié)果更加準(zhǔn)確;新研究熱點(diǎn)的涌現(xiàn);研究熱點(diǎn)識(shí)別結(jié)果更加清晰4個(gè)方面。在運(yùn)用“DEAN”數(shù)據(jù)清洗流程的基礎(chǔ)上,識(shí)別出健康信息領(lǐng)域的6大研究熱點(diǎn),包括:健康信息素養(yǎng)研究;健康信息搜尋研究;新媒體環(huán)境下的健康信息傳播研究;健康信息管理研究;大數(shù)據(jù)環(huán)境下的健康信息分析與應(yīng)用;健康教育研究。
參考文獻(xiàn)
[1]National Network of Libraries of Medicine.Consumer Health Information:A Workshop for Librarians Providing Health Information to the Public[EB/OL].http://nnlm.gov/priorities/topics/consumer-health,2017-12-30.
[2]Rose I D,F(xiàn)riedman D B.We Need Health Information Too:A Systematic Review of Studies Examining the Health Information Seeking and Communication Practices of Sexual Minority Youth[J].Health Education Journal,2013,72(4):417-430.
[3]Tan S L,Goonawardene N.Internet Health Information Seeking and the Patient-Physician Relationship:A Systematic Review[J].Journal of Medical Internet Research,2017,19(1):e9.
[4]科普中國(guó).中國(guó)網(wǎng)民科普需求搜索行為報(bào)告(2016年第二季度)[EB/OL].http:/ /www.kepuchina.cn /notice /201611 /t20161103_43467.shtml,2016-11-03.
[5]付少雄,胡媛.大學(xué)生健康信息行為對(duì)實(shí)際健康水平的影響研究——基于健康素養(yǎng)與健康信息搜尋視角[J].現(xiàn)代情報(bào),2018,38(2):84-90.
[6]吳浩,涂嘉玲,趙文龍.網(wǎng)絡(luò)健康信息研究熱點(diǎn)分析[J].現(xiàn)代預(yù)防醫(yī)學(xué),2015,42(5):847-851.
[7]陳娟,石習(xí)敏,楊均雪,等.國(guó)內(nèi)外健康信息領(lǐng)域演進(jìn)路徑、熱點(diǎn)前沿比較研究——基于科學(xué)知識(shí)圖譜的可視化分析[J].現(xiàn)代預(yù)防醫(yī)學(xué),2017,44(1):110-115.
[8]Wang Y,Zheng J,Zhang A,et al.Visualization Maps for the Evolution of Research Hotspots in the Field of Regional Health Information Networks[J].Inform Health Soc Care,2017,43(56):1-21.
[9]Barirani A,Agard B,Beaudry C.Competence Maps Using Agglomerative Hierarchical Clustering[J].Journal of Intelligent Manufacturing,2013,24(2):373-384.
[10]邱均平,溫芳芳.近五年來(lái)圖書情報(bào)學(xué)研究熱點(diǎn)與前沿的可視化分析——基于13種高影響力外文源刊的計(jì)量研究[J].中國(guó)圖書館學(xué)報(bào),2011,37(2):51-60.
[11]Chen C.CiteSpace Ⅱ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the Association for Information Science & Technology,2009,57(3):359-377.
[12]楊麗,張彤彤,周文杰.共詞分析識(shí)別研究熱點(diǎn)的效標(biāo)關(guān)聯(lián)效度研究:基于自然語(yǔ)言處理[J].圖書與情報(bào),2018,(1):15-19.
(責(zé)任編輯:陳 媛)