陳梁華++劉宇平++楊偉紅+張新鳳
[摘要] 呼吸系統(tǒng)疾病現(xiàn)已成為全球所有年齡組中死亡和傷殘的重要原因之一,霧霾是繼吸煙之后導致肺癌的又一大危險因素,認識呼吸疾病,對于了解人體疾病治療發(fā)展趨勢有著重要意義。本文通過SCI文獻數(shù)據(jù)庫收集呼吸系統(tǒng)領域的疾病數(shù)據(jù),包括作者關鍵詞數(shù)據(jù)、文章分類關鍵詞、文章研究分類、重要研究型期刊影響因子等指標內(nèi)容,運用詞云分析技術及相關統(tǒng)計手段對現(xiàn)有數(shù)據(jù)進行歸類及排序,從整體上對現(xiàn)有研究熱點、趨勢進行直觀描繪,對臨床防治研究、優(yōu)化配置醫(yī)療資源具有積極的理論指導意義。根據(jù)分析數(shù)據(jù)表明,“肺”是研究最多的器官,而生物作用機制中的如何“表達”是研究者最熱衷的內(nèi)容,說明現(xiàn)有的研究主要集中在闡明疾病的發(fā)生原因、藥物或治療手段的作用機制。
[關鍵詞] 呼吸系統(tǒng)疾?。辉~云;文獻分析
[中圖分類號] G350 [文獻標識碼] A [文章編號] 1673-7210(2017)02(c)-0168-05
呼吸系統(tǒng)疾病是一種常見病,隨著科學技術的不斷發(fā)展,其不同時期研究熱點也呈現(xiàn)差異,為更好地把握區(qū)域發(fā)展趨勢,抓住研究重點方向,有必要通過有效的統(tǒng)計方法對其當前研究現(xiàn)狀開展分析,通過熱點分析研究,可以找出能產(chǎn)生重大影響的雜志以及研究內(nèi)容,對于把握正確研究方向、指導開展科研工作具有重要意義。研究表明,呼吸疾病的發(fā)病機制是目前該領域的研究熱點,其中對T淋巴細胞、細胞因子、嗜酸性細胞、肥大細胞、炎癥介質(zhì)、黏附因子等在炎癥中的作用機制研究較多。本文從雜志影響、SCI文章分類、作者關鍵詞、文章分類詞等方面開展聚類分析,以達到描述當前呼吸疾病發(fā)展趨勢的目的。
1 呼吸疾病研究對居民健康和社會發(fā)展的意義
呼吸系統(tǒng)疾病是我國的常見病、多發(fā)病,其中,慢性呼吸道疾病患病率高,致殘率和致死率高,隨著近期PM 2.5指數(shù)的惡化,空氣中攜帶的化合物也容易成為導致呼吸道疾病的背后推手。目前,中國慢性阻塞性肺疾?。–OPD)患者約3280萬例,40歲以上的患病率達8.2%;哮喘患者約1500萬例,發(fā)病率約為1.2%[1-2]。根據(jù)我國人口疾病死因最新調(diào)查顯示,呼吸疾病在農(nóng)村地區(qū)疾病死因中居首位(23.5%),在城市中居第4位(12.6%)。世界衛(wèi)生組織全球抗擊慢性呼吸疾病聯(lián)盟(GARD)的調(diào)查顯示,中國死亡總數(shù)的17%來自慢性呼吸疾病。近20年我國肺癌的發(fā)病率和死亡率均迅速增加,已居國內(nèi)城市惡性腫瘤的首位。目前我國肺癌患者約50萬人,居世界第一。呼吸疾病不僅成為嚴重的公共衛(wèi)生問題,也給家庭乃至社會帶來沉重的經(jīng)濟負擔。加快升級改造現(xiàn)有研究局面,有助于提升我國科學研究整體實力,改善居民衛(wèi)生健康環(huán)境,提高生活質(zhì)量,從而適應社會發(fā)展的需要。
2 根據(jù)聚類分析圖,直觀描述呼吸疾病領域概況
聚類分析是對一堆數(shù)據(jù)進行聚類[3-7],通過直觀圖表的數(shù)據(jù)點大小以及連接線的疏密情況來判斷數(shù)據(jù)的關聯(lián)程度,在現(xiàn)實生活中,能夠進行分類的情況很多,在不同的應用領域,很多聚類技術都得到了發(fā)展,這些技術方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中[8-10]。如根據(jù)經(jīng)濟發(fā)展水平把各個國家分成發(fā)達國家、中等發(fā)達國家、發(fā)展中國家,而按照消費者的特征也可以對消費者進行分類,按照產(chǎn)品特征可以對產(chǎn)品進行分類。分類前并不知道存在什么類別,而是直接根據(jù)數(shù)據(jù)的特征確定。聚類分析就是按照對象之間的“相似”程度把對象進行分類[11-13],便于研究者通過分類發(fā)現(xiàn)和總結(jié)規(guī)律。因此,目前分類問題的研究具有十分重要的意義和作用。
根據(jù)圖1所示的聚類分析圖(數(shù)據(jù)內(nèi)容源自湯姆森公司網(wǎng)站),排名第一的雜志為《LANCET RESP MED》,影響因子為15.328,排名第二的雜志為《AM J RESP CRIT CARE》,影響因子為13.118。
表1為呼吸疾病SCI雜志2015年度的影響排名數(shù)據(jù),從表中不但可以清楚地看到各種雜志的影響力,而且可以知道其2015年度的引用情況,其中“特征因子”由華盛頓大學和加州大學圣塔芭芭拉分校的West、Bergstrom等人組成的研究團體構(gòu)建和完善,其工作原理類似于Google的“網(wǎng)頁排名”(PageRank)。兩者都基于社會網(wǎng)絡理論,區(qū)別在于Google利用網(wǎng)頁鏈接,而“特征因子”則借助引文鏈接。它們都基于整個社會網(wǎng)絡結(jié)構(gòu)對每篇論文或每個網(wǎng)頁的重要性進行評價。與期刊影響因子不同的是,“特征因子”不僅考察了引文的數(shù)量,而且考慮了引用期刊的影響力,即:某期刊如果越多地被高影響力的期刊引用,則該期刊的影響力也越高。正如Google考慮超鏈接的來源,“特征因子”也充分考慮引文的來源,并在計算中賦予不同引用期刊的引文以不同的權重。
圖2為按研究類別聚類后的分析數(shù)據(jù),結(jié)果表明,排名第一的為“ECONOMICS(經(jīng)濟學相關)”,該類一共有345種雜志,排名第二的為“MATHEMATICS(數(shù)學或應用數(shù)學相關)”,該類一共有312種雜志,表明以經(jīng)濟和應用數(shù)學相關為主題的雜志占多數(shù),也為人們所熱衷和普遍容易接受。
但雜志數(shù)量的多少、排名并不能反映學科研究熱點及先進技術,而剔除雜志數(shù)量改按影響因子排名后發(fā)現(xiàn),影響因子第一名為“CELL BIOLOGY(細胞生物學)”,影響因子為5.602;影響因子第二名為“CHEMISTRY,MULTIDISCIPLINARY(化學,多學科)”,影響因子為5.586;影響因子第三名為“ONCOLOGY(腫瘤學)”,影響因子為4.315;影響因子的大小也恰好反映研究的難易程度及技術含量。
3 運用詞云分析方法,簡明扼要描述學科發(fā)展趨勢
在當今大數(shù)據(jù)時代,主要矛盾為日益增長的龐大數(shù)據(jù)生產(chǎn)、存儲能力和媒體與數(shù)據(jù)分析、加工能力之間的矛盾。詞云,在數(shù)據(jù)分析中以一種通過大小的直觀可視化的分析來表達并渲染結(jié)果,對文本中出現(xiàn)頻率較高的“關鍵詞”予以視覺上的突出,形成“關鍵詞云層”或“關鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽者只要一眼掃過文本就可以領略文本的主旨。最常見的應用就是博客、演講內(nèi)容和CMS類站點中的標簽云[14-16]。使用詞云工具,可以對海量的文本數(shù)據(jù)進行分詞處理,按照某一個詞出現(xiàn)頻率的高低進行排序并區(qū)分顯示,經(jīng)過大數(shù)據(jù)文本處理技術、排序算法后,能獲得對內(nèi)容關鍵信息的快速、精準、深度洞察。詞云,實際上是將文檔包含的詞匯頻率表進行了可視化。這些詞匯的重要程度主要通過改變字體大小或顏色來表現(xiàn)。
通過攫取呼吸系統(tǒng)疾病類SCI文章的分類關鍵詞,通過R STUDIO軟件生成詞云圖,見圖3。
根據(jù)圖3顯示結(jié)果,詞頻最高的為“EXPRESSION”,其中文意譯“表達”,跟表達相關的有基因表達(基因中的DNA序列生產(chǎn)出蛋白質(zhì)的過程),其影響包括分子遺傳學、細胞分化與發(fā)育、基因表達與調(diào)控等多學科,說明SCI研究類文章目前多數(shù)注重深層次的追根溯源研究。通過CNKI搜索引擎,也可以找到相關結(jié)果1 604 280條。各種生物疾病都跟基因表達有一定的關系,包括目前方興未艾的人類基因組計劃(HGP)和人類基因組單體型圖計劃(HapMap)這兩個超級研究項目的開展[17-18]。人類展開了針對由30億個堿基對、大約數(shù)萬個基因組成的基因組的研究,用盡一切辦法尋找可能的致病因素。
而有關表達的研究有代表性的為EGFR,即Epidermal Growth Factor Receptor,上皮生長因子(EGF)細胞增殖和信號傳導的受體。研究表明,在許多實體腫瘤中存在EGFR的高表達或異常表達[19-20]?,F(xiàn)開展的研究有EGFR及其突變小分子抑制劑的篩選及生物學作用研究、EGFR及其突變體的生物化學與細胞生物學功能體系的構(gòu)建等。應用蛋白相似性建立不同EGFR基因型的突變體的蛋白三維度空間模型,進行小分子抑制劑的設計,對具有較好開發(fā)前景的小分子抑制劑在多種動物模型上驗證其體內(nèi)抗腫瘤活性。
緊緊圍繞并跟隨首位關鍵詞排名的是“obstructive”,意譯為“阻塞性,梗阻性,妨礙的”,具有代表性的為慢性阻塞性肺疾病,簡稱慢阻肺(COPD),是一種破壞性的肺部疾病,是以不完全可逆的氣流受限為特征的疾病,氣流受限通常呈進行性發(fā)展并與肺對有害顆粒或氣體的異常炎性反應有關。COPD也是一種高發(fā)病率、高致殘率和高病死率的呼吸系統(tǒng)疾病,發(fā)病時不僅氣流受限,還可以伴有其他肺外系統(tǒng)的異常表現(xiàn),即COPD全身效應,較常見的有營養(yǎng)不良和體重減輕、神經(jīng)異常癥狀、骨骼肌功能障礙、血液系統(tǒng)、心血管并發(fā)癥及骨質(zhì)疏松等,這些肺外效應常常導致患者癥狀的反復出現(xiàn)及降低生活質(zhì)量。據(jù)世界衛(wèi)生組織的最新數(shù)據(jù)顯示:由于吸煙、空氣污染等原因,目前全球已有6億人患有COPD,預計患病率還會繼續(xù)上升,到2020年將成為全球第三大致死疾病,在中國約有超過3800萬例患者。更為可怕的是,如此高的致死率并沒有引起人們對該病的重視。
COPD的危害主要表現(xiàn)在呼吸衰竭、自發(fā)性氣胸、慢性肺源性心臟病和右心衰竭、睡眠呼吸障礙、胃潰瘍,同時可能出現(xiàn)肺動脈高壓和心律紊亂。吸煙是COPD的最主要發(fā)病原因之一,80%~90%以上的COPD患者源于吸煙。香煙及污染空氣中的有害物質(zhì)刺激易感人群氣道炎癥細胞等釋放大量促炎因子和蛋白酶類,導致肺內(nèi)氧化/抗氧化失衡、蛋白酶/抗蛋白酶失衡等一系列生理指征改變,最終導致肺氣腫和慢性支氣管炎。
隨著環(huán)境的惡化,PM2.5指數(shù)起到指示空氣質(zhì)量的作用,空氣中大量的粉塵攜帶化學物質(zhì),而人吸入這些復合物質(zhì)后會導致疾病的發(fā)生。近年來,地毯編織、生物燃料、面包烘烤是肺疾病的重要危險因素,氣體燃料、使用煤油、家禽飼料是相對危險因素。20世紀末,中國大氣污染特征發(fā)生重大轉(zhuǎn)折,SO2、PM10、NO2等一次污染下降,而O3污染和細顆粒物PM2.5導致的霧霾問題凸顯,二次污染日趨嚴重。
以作者關鍵詞為維度,從海量的數(shù)據(jù)中抽取后發(fā)現(xiàn),研究最多是“l(fā)ung”,其次為“cancer”,即肺為最多研究的對象,其次為呼吸相關的腫瘤,合并在一起,肺腫瘤為最多的研究對象,也是當今呼吸疾病研究的難點和重點。見圖4。肺包括肺動脈高壓、肺氣腫、COPD等疾病,肺功能水平也是呼吸系統(tǒng)疾病的重要監(jiān)測指標,肺功能檢查是呼吸系統(tǒng)疾病的必要檢查之一,對于早期檢出肺、氣道病變,評估疾病的病情嚴重程度及預后,評定藥物或其他治療方法的效果,鑒別呼吸困難的原因,診斷病變部位,評估肺功能對手術的耐受力或勞動強度耐受力及對危重患者的監(jiān)護等方面有重要的指導意義。而肺癌方面的研究則每年都在發(fā)展,2011年克唑替尼獲準用于治療ALK陽性的NSCLC患者。2013年美國預防服務工作組(USTSPF)推薦低劑量螺旋CT。2014年Ceritinib(色瑞替尼)獲批用于ALK陽性的肺癌患者。而2015年則是免疫治療占肺癌治療的半壁江山的一年,另針對不同靶點的藥物治療仍占據(jù)重要地位,包括二代ALK、三代表皮生長因子受體(EGFR)-酪氨酸激酶抑制劑(TKI)、MET抑制劑等。目前主要有兩大治療策略正在探索之中,被證明有一定療效,一是釋放身體的自然免疫反應以對抗癌癥,二是幫助免疫系統(tǒng)發(fā)現(xiàn)并摧毀癌癥細胞。
4 小結(jié)
了解呼吸疾病發(fā)展的趨勢,如發(fā)病機制、藥物的作用機制等對于人類衛(wèi)生健康事業(yè)具有重要意義。本文運用詞云分析技術及相關統(tǒng)計手段對現(xiàn)有數(shù)據(jù)進行歸類及排序,從整體上對現(xiàn)有研究熱點、趨勢進行直觀描繪,SCI文獻數(shù)據(jù)庫是一座知識寶庫,采用現(xiàn)代手段對數(shù)據(jù)處理加工后可以得到更直觀、簡潔的描述結(jié)果,便于研究者進行分析參考。
[參考文獻]
[1] 高靜.關注呼吸慢病 院士開講基層防治第一課[EB/OL]. [2015-10-20]. http://news.ifeng.com/a/20151020/45709386_0.shtml.
[2] 王瑤,潘旭東,王翎.國外老年COPD慢病管理的現(xiàn)狀及啟示[J].中國老年學雜志,2013,33(1):236-239.
[3] 李俊.大數(shù)據(jù)時代需要更多“詞云”鑰匙[J].中國記者,2013,72(4):2.
[4] 叢麗君.詞云在英語詞匯教學中的應用研究[J].南通航運職業(yè)技術學院學報,2016,15(3):121-124.
[5] 劉稼.聚類分析在中醫(yī)藥研究中的應用及意義[J].中醫(yī)藥學刊,2004,22(5):927-928.
[6] 楊天偉,張霽,李濤,等.基于主成分分析和聚類分析的不同產(chǎn)地絨柄牛肝菌紅外光譜鑒別研究[J].光譜學與光譜分析,2016,36(6):1726-1730.
[7] 張方圓,李崢.近5年護理研究熱點的共詞聚類分析[J].中華護理雜志,2016,51(2):248-252.
[8] 王光沛,潘景昌,衣振萍.基于線指數(shù)特征的海量恒星光譜聚類分析研究[J].光譜學與光譜分析,2016,36(8):2646-2650.
[9] 海容,姜安麗.基于內(nèi)容分析法的國際護理管理領域研究主題分析[J].護理研究:下旬版,2014,28(2):663-665.
[10] 李佳.共詞矩陣在聚類結(jié)果分析中的作用[J].中華醫(yī)學圖書情報雜志,2009(4):77-81.
[11] 任曉龍,朱燕燕,王思云,等.在線社交網(wǎng)絡結(jié)構(gòu)與區(qū)域經(jīng)濟關聯(lián)性研究[J].電子科技大學學報,2015,44(5):643-651.
[12] 朱建平,謝邦昌,駱翔宇,等.中國房地產(chǎn)網(wǎng)絡輿情分析[J].數(shù)理統(tǒng)計與管理,2016,35(4):722-741.
[13] 王謙,羅長坤,劉東海,等.人類基因組計劃推動下的美國生物醫(yī)藥技術發(fā)展及啟示[J].中國科學基金,2002, 16(2):88-91.
[14] 李晶鑫,張寰,許芳秀,等.非吸煙女性肺腺癌患者腫瘤組織EGFR基因突變、miR-25表達與生理生育特征的關系[J].山東醫(yī)藥,2016,56(35):1-4.
[15] Andenaes R. Psychological characteristics of patients with chronic obstructive pulmonary disease:a review [J]. J Psychosom Res,2005,59(6):427-428.
[16] 焦周光,付緒磊,溫占波,等.北京大氣PM2.5對A549細胞炎性因子及DNA損傷的毒性[J].中國環(huán)境科學,2016,36(5):1579-1588.
[17] 段爭,吳翠紅.細顆粒物PM2.5暴露加重博來霉素致大鼠肺纖維化[J].基礎醫(yī)學與臨床,2015,35(5):781-785.
[18] 木木-小新.ASCO2014:肺癌研究進展回顧[EB/OL]. [2014-06-01]. http://oncol.dxy.cn/specials/asco2014/article/77100.
[19] 許世廣. ASCO 2015肺癌領域研究薈萃[EB/OL]. [2015-12-01]. http://www.haodf.com/zhuanjiaguandian/xushiguangdr_3425994640.htm.
[20] 丁香園. ASCO年度報告:2016年免疫治療進展[EB/OL]. [2016-02-29]. http://oncol.dxy.cn/article/485450?keywords=ASCO2015.
(收稿日期:2016-10-24 本文編輯:程 銘)