,
SinoMed由中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所/圖書館開發(fā)的生物醫(yī)學(xué)領(lǐng)域重要的檢索工具,也是醫(yī)學(xué)信息檢索教學(xué)和醫(yī)藥衛(wèi)生查新中最常用的中文數(shù)據(jù)庫(kù)。它整合了包括中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(CBM)、西文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(WBM)、北京協(xié)和醫(yī)學(xué)院博碩士學(xué)位論文數(shù)據(jù)庫(kù)等8種資源,學(xué)科范圍廣泛、年代跨度大,更新及時(shí)。其中使用最廣泛的CBM收錄了1978年至今1 800余種中國(guó)生物醫(yī)學(xué)期刊以及匯編、會(huì)議論文,目前文獻(xiàn)題錄達(dá)820余萬篇[1]。
SinoMed平臺(tái)上的中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)是該平臺(tái)使用范圍最廣的二次檢索數(shù)據(jù)庫(kù),其檢索功能比較強(qiáng)大,除了常見的快速檢索、高級(jí)檢索和主題詞檢索外,還具有智能檢索、分類檢索和截詞檢索等功能。
截詞檢索,也稱詞干檢索或字符屏蔽檢索,是指用給定的詞干做檢索詞,查找含有該詞干的全部檢索詞的記錄,可以起到擴(kuò)大檢索范圍、提高查全率、減少檢索詞的輸入量、節(jié)省檢索時(shí)間等作用[2]。簡(jiǎn)單來講,截詞檢索是在檢索標(biāo)識(shí)中保留相同的部分,用截詞符代替可變化的部分,即通配符檢索[3]。檢索時(shí),系統(tǒng)會(huì)將所有含有相同部分標(biāo)識(shí)的記錄全部檢索出來。通配符可以置于檢索詞首、中間或詞尾,分別對(duì)應(yīng)后方一致檢索、前后方一致檢索和前方一致檢索。
與單字通配符“?”類似,任意通配符“%”在檢索中文單詞或短語(yǔ)時(shí)也常用于前后方一致檢索,如輸入“肝炎%疫苗”可以檢索出含有肝炎疫苗、肝炎病毒基因疫苗、肝炎減毒活疫苗、肝炎滅活疫苗等的文獻(xiàn)[1]?!?”置于中文檢索詞的詞首或詞尾進(jìn)行檢索,使用價(jià)值不大。“%”在檢索包含英文字母或阿拉伯?dāng)?shù)字的目標(biāo)詞時(shí),除了置于檢索詞中間,前置或后置可以擴(kuò)大檢索范圍。如輸入“CCL%”可以檢索出“CCL”后有任意多個(gè)英文字母、阿拉伯?dāng)?shù)字等的結(jié)果。
“包含檢索”,即直接用目標(biāo)詞的一部分作為檢索詞進(jìn)行檢索,是SinoMed支持的一種與截詞檢索類似的檢索功能。與截詞檢索相同的是在檢索標(biāo)識(shí)中保留相同的部分,唯一的區(qū)別是不使用通配符。
理論上認(rèn)為,從數(shù)據(jù)庫(kù)里檢索到一條與檢索提問式相匹配的記錄即為命中[2],這也是數(shù)據(jù)庫(kù)檢索最基本的原理。以前的CBM檢索中,對(duì)不加通配符的“任意字符串”(包括漢字單字或詞組、英文單詞或縮略語(yǔ)、西文字母加阿拉伯?dāng)?shù)字的組合形式等)檢索都采取了全字段全文本匹配檢索技術(shù)[4]。
在SinoMed中進(jìn)行中文字符串檢索時(shí),SinoMed默認(rèn)采用了任意通配符,只要出現(xiàn)中文檢索詞的文獻(xiàn)都會(huì)出現(xiàn)在檢索結(jié)果中。如輸入“噬細(xì)胞”,可以檢索出“噬細(xì)胞”、“巨噬細(xì)胞”、“吞噬細(xì)胞”、“自噬細(xì)胞”等檢索結(jié)果。
當(dāng)需要檢索中文字符串后連接英文字母、阿拉伯?dāng)?shù)字或特殊符號(hào)的目標(biāo)詞時(shí),省略通配符直接用相應(yīng)的中文字符串進(jìn)行檢索,亦不會(huì)造成漏檢。如輸入“白細(xì)胞介素”時(shí),“白細(xì)胞介素1”、“白細(xì)胞介素IL-1”、“白細(xì)胞介素-1”、“白細(xì)胞介素(IL)-1”等都會(huì)在檢索結(jié)果中出現(xiàn)(表1)。
表1 中文字符串后省略通配符的檢索結(jié)果
“包含檢索”功能用來檢索中文字符串時(shí),能夠出色地完成檢索要求,但對(duì)ASCII字符組成的字符串(英文字符串或由英文字母、阿拉伯?dāng)?shù)字、特殊符號(hào)組成的字符串)進(jìn)行檢索時(shí),經(jīng)常會(huì)出現(xiàn)漏檢的情況。
在SinoMed鏡像版中,省略通配符僅以英文字符串作為檢索詞進(jìn)行檢索,會(huì)漏檢英文字符串后連接數(shù)字的目標(biāo)詞[5],但不會(huì)漏檢英文字符串后連接“-”、“/”、“^”、“)”等特殊符號(hào)的目標(biāo)詞。例如,在SinoMed中輸入“MDR”,會(huì)漏檢“MDR1”,但可以檢索出“MDR-1”、“MDR-TB”、“MDR-PTB”、“MDR/P-gp”、“MDR/XDRAB”等英文字符串后連接特殊字符的檢索結(jié)果。網(wǎng)絡(luò)版SinoMed經(jīng)過升級(jí),已對(duì)這一問題進(jìn)行了完善。即在省略通配符的情況下,僅以英文字符串作為檢索詞進(jìn)行檢索,不會(huì)漏檢英文字符串前或后連接數(shù)字的目標(biāo)詞。
目前在SinoMed中,對(duì)英文字符串(英文單詞、英文縮略語(yǔ)等)進(jìn)行“包含”檢索,仍然會(huì)出現(xiàn)漏檢情況。若僅以英文字符串的一部分作為檢索詞,會(huì)漏檢檢索詞前或檢索詞后連接英文字符的目標(biāo)詞,但不會(huì)漏檢檢索詞前或檢索詞后連接特殊符號(hào)的目標(biāo)詞(表2)。
表2 英文字符串前或后省略通配符的檢索結(jié)果
總之,在SinoMed中,檢索中文字符串后連接英文字母、阿拉伯?dāng)?shù)字或特殊符號(hào)的目標(biāo)詞時(shí),省略通配符而僅用中文字符串進(jìn)行檢索,均不會(huì)造成漏檢;檢索英文字符串前或后連接特殊符號(hào)再連接字母或數(shù)字的目標(biāo)詞時(shí),亦不會(huì)造成漏檢。但對(duì)于由英文單詞或英文縮略語(yǔ)等組成的英文字符串目標(biāo)詞,直接用英文字符串的一部分作為檢索詞進(jìn)行檢索時(shí),則會(huì)造成漏檢??梢?,SinoMed系統(tǒng)對(duì)英文字符采取了精確匹配的索引技術(shù),省略通配符而直接用目標(biāo)詞的局部進(jìn)行檢索,會(huì)造成漏檢。但對(duì)于“-”等特殊符號(hào),SinoMed系統(tǒng)采取模糊匹配原則,省略通配符而直接用目標(biāo)詞的局部進(jìn)行檢索,不容易造成漏檢。
3.1.1 百分?jǐn)?shù)“數(shù)字+%+漢字”的檢索
CBM中使用“*”作為任意通配符,而SinoMed中用“%”取代“*”作為任意通配符。眾所周知,在檢索時(shí)作為通配符的符號(hào)無法直接被檢索出,而“%”在醫(yī)學(xué)文獻(xiàn)中經(jīng)常出現(xiàn),遇到特殊的情況需要檢索“數(shù)字+%”時(shí),SinoMed系統(tǒng)就可能會(huì)存在一定的不足。
例如,筆者在查新中遇到過檢索百分?jǐn)?shù)的情況,需要檢索“50%有效劑量”。如果直接用“50%有效劑量”進(jìn)行檢索,僅可以檢索出1篇包含“50有效劑量”的文獻(xiàn)(表3),而并非“50%有效劑量”。
表3 百分?jǐn)?shù)“數(shù)字+%+漢字”的檢索結(jié)果
從表3可見,“%”直接置于阿拉伯?dāng)?shù)字與漢字之間進(jìn)行“前后方一致”檢索,無法按正常步驟檢索出同時(shí)包含“%”前后內(nèi)容的文獻(xiàn)。如果在“%”后加一個(gè)空格,用“50% 有效劑量”進(jìn)行檢索,系統(tǒng)則會(huì)按“50%AND 有效劑量”進(jìn)行檢索。其中的“%”默認(rèn)為通配符,檢索結(jié)果為同時(shí)包含“50”和“有效劑量”,且二者之間間隔任意個(gè)(≥0)字符的文獻(xiàn),包括了“50”后直接連接“%”、“-”、“.”等特殊符號(hào)、英文字母、阿拉伯?dāng)?shù)字或漢字等各種字符的文獻(xiàn)。如果在“%”前面加一個(gè)空格,用“50%有效劑量”進(jìn)行檢索,系統(tǒng)會(huì)按“50 AND %有效劑量”進(jìn)行檢索,可以檢索出同時(shí)含有“50”和“有效劑量”的文獻(xiàn)。如前所述,通配符“%”置于漢字之前與省略通配符的檢索結(jié)果相同,因此這種檢索方法與使用“50有效劑量”的檢索結(jié)果完全相同?!?0有效劑量”與“50% 有效劑量”相比,前者50后面缺少了通配符“%”導(dǎo)致檢索結(jié)果較少,減少的結(jié)果主要是50后面連接小數(shù)點(diǎn)、英文字母和數(shù)字的文獻(xiàn),但“50 有效劑量”卻可以檢索出50后面連接其他特殊符號(hào)(如“%”、“-”、“)”、“、”“:”等)、空格、希臘字母和漢字等的結(jié)果。因此針對(duì)“50%有效劑量”的檢索要求,用“50有效劑量”檢索最為簡(jiǎn)潔和準(zhǔn)確。
以上結(jié)果說明,“%”作為通配符無法準(zhǔn)確地被系統(tǒng)檢索出,這直接導(dǎo)致系統(tǒng)對(duì)百分?jǐn)?shù)檢索的重大缺陷?!?”可以置于阿拉伯?dāng)?shù)字之后進(jìn)行“前方一致”檢索,但用于檢索百分?jǐn)?shù)時(shí)檢索結(jié)果噪聲較大,檢索結(jié)果包括檢索詞后連接特殊符號(hào)、英文字母、阿拉伯?dāng)?shù)字以及漢字等各種情況的文獻(xiàn)。
3.1.2 “數(shù)字+特殊符號(hào)+漢字”的檢索
由上述百分?jǐn)?shù)的檢索結(jié)果來看,通配符“%”無法準(zhǔn)確檢索出數(shù)字與漢字之間有百分號(hào)的檢索結(jié)果,那么“%”是否可以檢索出數(shù)字與漢字之間有特殊符號(hào)的檢索結(jié)果呢?
舉例來講,如果需要檢索2型糖尿病的各種表達(dá)方式,根據(jù)任意通配符“%”的檢索功能,理論上可以用“2%糖尿病”進(jìn)行檢索,但使用“2%糖尿病”的檢索結(jié)果為0,無法檢索出“2型糖尿病”、“2-糖尿病”、“2-型糖尿病”等目標(biāo)詞。
檢索白介素12時(shí),使用“白介素%12”作為檢索詞,可以檢索出“白介素12”,卻無法檢索出“白介素-12”等目標(biāo)詞;使用“鈷%60”檢索鈷60的相關(guān)文獻(xiàn)時(shí),可以檢索出“鈷60”、“鈷DT60”等結(jié)果,但無法檢索出“鈷-60” (表4)。
從以上檢索試驗(yàn)可以看出,通配符“%”用于數(shù)字和漢字之間,無法檢索出數(shù)字和漢字之間有特殊符號(hào)的目標(biāo)詞,這是通配符“%”存在的一個(gè)缺陷。
表4 “數(shù)字+特殊符號(hào)+漢字”的檢索結(jié)果
3.1.3 “英文字母+特殊符號(hào)+漢字”的檢索
由上述3.1.2的檢索情況,筆者不禁聯(lián)想到同屬于ASCII字符的英文字母與漢字中間有特殊符號(hào)的目標(biāo)詞。當(dāng)筆者使用通配符“%”檢索“英文字母+特殊符號(hào)+漢字”或“漢字+特殊符號(hào)+英文字母”形式的目標(biāo)詞時(shí),同樣出現(xiàn)了漏檢情況。例如,當(dāng)檢索K+通道的各種形式(檢索試驗(yàn)并未對(duì)“鉀離子通道”等中文表達(dá)方式進(jìn)行檢索)時(shí),用“K%通道”進(jìn)行檢索,可以檢索出KAPT通道、KV通道、KCa通道、K通道等結(jié)果,卻檢索不出K+通道和K離子通道(表5)。
表5 “英文字母+特殊符號(hào)+漢字”的檢索結(jié)果
同樣,檢索“漢字+特殊符號(hào)+英文字母”形式的目標(biāo)詞時(shí),將通配符“%”置于檢索詞中間進(jìn)行檢索,如使用“血管內(nèi)皮生長(zhǎng)因子%A”進(jìn)行檢索時(shí),可以檢索出“血管內(nèi)皮生長(zhǎng)因子A”,但卻無法檢索出"血管內(nèi)皮生長(zhǎng)因子-A"等目標(biāo)詞。
從以上的檢索情況可以看出,在Sinomed中,通配符“%”用于英文字母與漢字之間,無法檢索出英文字母與漢字之間有特殊符號(hào)的目標(biāo)詞,這是通配符“%”檢索存在的又一缺陷。
3.1.4 “英文字母+特殊符號(hào)+數(shù)字”的檢索
與上述特殊符號(hào)連接數(shù)字/英文和漢字形式的目標(biāo)詞的檢索結(jié)果情況類似,通配符“%”對(duì)英文字母與數(shù)字之間有特殊符號(hào)的目標(biāo)詞也存在漏檢情況。
例如,用“Co%60”作為檢索詞,可檢索出“Co+英文字母/阿拉伯?dāng)?shù)字+60”形式的結(jié)果以及“Co60”,卻無法檢索出Co^60和Co-60這類英文字母和阿拉伯?dāng)?shù)字中間有特殊符號(hào)的目標(biāo)詞。同樣的,“60%Co”可檢索出“60Co”,卻無法檢索出60^Co和60-Co(表6)。
表6 “英文字母+特殊符號(hào)+漢字”的檢索結(jié)果
通過以上的檢索試驗(yàn)可以看出,英文字母與阿拉伯?dāng)?shù)字組成的字符串,用通配符“%”進(jìn)行檢索時(shí),不會(huì)出現(xiàn)漏檢情況;但英文字母與阿拉伯?dāng)?shù)字之間有特殊符號(hào)的目標(biāo)詞,用通配符“%”進(jìn)行檢索,則會(huì)出現(xiàn)漏檢。
3.1.5 “英文字母+特殊符號(hào)+英文字母”的檢索
還有一種比較常見的組合是“英文字母+特殊符號(hào)+英文字母”的形式,通配符“%”對(duì)特殊符號(hào)前后連接英文字母的目標(biāo)詞進(jìn)行檢索時(shí),也常會(huì)出現(xiàn)漏檢。
以“RT%PCR”為例進(jìn)行檢索,可檢索出“RT+英文字母+PCR”以及“RTPCR”的結(jié)果,但卻檢索不出“RT-PCR”等英文字母之間有特殊符號(hào)的結(jié)果,情況與上述ASCII字符之間有特殊符號(hào)的檢索情況類似。
綜上所述,通配符“%”用于同類字符中間進(jìn)行前后方一致檢索,一般不會(huì)造成漏檢。例如,漢字與漢字之間、英文字母與英文字母之間及英文字母與阿拉伯?dāng)?shù)字之間。但通配符“%”在檢索百分?jǐn)?shù)時(shí)具有先天的缺陷,并且用于不同類型字符中間進(jìn)行前后方一致檢索時(shí),會(huì)造成漏檢,如“數(shù)字、特殊符號(hào)、漢字”的組合、“英文字母、特殊符號(hào)、漢字”的組合、“英文字母、特殊符號(hào)、數(shù)字”的組合以及“英文字母、特殊符號(hào)、英文字母”的組合等。
SinoMed數(shù)據(jù)庫(kù)中,單字通配符“?”在檢索中可替代任意一個(gè)字符。但筆者在檢索時(shí)發(fā)現(xiàn),單字通配符“?”在檢索包含特殊符號(hào)的目標(biāo)詞時(shí),也常常出現(xiàn)漏檢,情況與任意通配符“%”的漏檢情況類似。
由此可見,單字通配符“?”通常替代一個(gè)同類字符,因此與任意通配符“%”相比,在檢索中出現(xiàn)漏檢的情況更多,用于檢索目標(biāo)詞為英文字母(或數(shù)字)、特殊符號(hào)和漢字等非同類字符的組合字符串時(shí),均會(huì)造成漏檢。
SinoMed是生物醫(yī)學(xué)領(lǐng)域非常重要的檢索工具,其收錄資源豐富,檢索功能強(qiáng)大。對(duì)于專業(yè)檢索人員而言,截詞檢索不僅可以簡(jiǎn)化檢索策略式,又可以提高檢索效率。SinoMed提供的截詞檢索功能比較全面,對(duì)于常規(guī)的檢索任務(wù)表現(xiàn)出色,但依然存在很多有待完善之處。例如,使用通配符“%”和“?”檢索由英文字符(數(shù)字)、特殊符號(hào)及漢字組成的混合字符串時(shí),經(jīng)常出現(xiàn)漏檢情況,這是SinoMed檢索系統(tǒng)亟待完善的重要問題。截詞檢索并不是萬能的,專業(yè)檢索人員在檢索SinoMed時(shí),應(yīng)根據(jù)檢索目的和SinoMed的具體功能合理制定檢索策略,不可僅根據(jù)基本的檢索理論一概而論。