嚴(yán)華
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心,北京 100160)
國(guó)家知識(shí)產(chǎn)權(quán)局檢索系統(tǒng)的全面升級(jí)中上線了智能檢索系統(tǒng)。借助智能化技術(shù),智能檢索系統(tǒng)引入語(yǔ)義檢索引擎,對(duì)數(shù)據(jù)進(jìn)行了多維度整合,實(shí)現(xiàn)了外文文獻(xiàn)中文檢索。但實(shí)踐中語(yǔ)義檢索和語(yǔ)義分詞調(diào)整等檢索方式仍然存在局限性[1],其根本原因在于“語(yǔ)義智能”不能代替“人”準(zhǔn)確地提煉出檢索對(duì)象的核心檢索要素,導(dǎo)致推薦文獻(xiàn)準(zhǔn)確度不高、噪音大等缺陷。另外,智能檢索系統(tǒng)中的多種檢索方式(如語(yǔ)義檢索、布爾檢索等)及其優(yōu)缺點(diǎn),也在一定程度上讓檢索人員存在不知首選何種檢索方式、何時(shí)停止檢索等困惑。
專利檢索不僅要求全面、準(zhǔn)確,而且還需要檢索人員檢索快、效能高。然而,智能檢索系統(tǒng)關(guān)鍵不僅在于立足其自身語(yǔ)義的優(yōu)勢(shì)基礎(chǔ),還需借助“人”這一角色對(duì)檢索對(duì)象的準(zhǔn)確把握,并快速提取出所需核心檢索要素,構(gòu)建高效檢索表達(dá)式,從而避免“語(yǔ)義智能”自身不足,這種檢索方式被稱為布爾檢索+語(yǔ)義排序,即“人工智慧+機(jī)器智能”檢索?!安紶枡z索+語(yǔ)義排序”檢索方式的重點(diǎn)在于提取、表達(dá)布爾檢索中的檢索要素,以及構(gòu)建檢索式。其中,既要體現(xiàn)檢索對(duì)象的結(jié)果,又要契合被檢索對(duì)象的目的,使得檢索工作回歸到檢索對(duì)象和被檢索對(duì)象(文獻(xiàn))本質(zhì)的理解。
筆者認(rèn)為,文獻(xiàn)的本質(zhì)是作者運(yùn)用某種技術(shù)手段去解決某種技術(shù)問(wèn)題,最終達(dá)到某種效果意思的表達(dá)。因此,文獻(xiàn)實(shí)質(zhì)上是一群涉及技術(shù)手段、技術(shù)問(wèn)題、技術(shù)效果等詞語(yǔ)集合且之間又緊密聯(lián)系的特征組合。這個(gè)“特征組合”就是基本檢索要素池,而這基本檢索要素池中必然存在些文獻(xiàn)著重圍繞其展開(kāi)的詞語(yǔ),即“核心檢索要素”,并通常具有如下特點(diǎn):文獻(xiàn)中出現(xiàn)的次數(shù)多且之間的距離近,常常在同句/同段中出現(xiàn)。構(gòu)建一種能夠準(zhǔn)確體現(xiàn)文獻(xiàn)本意的檢索式,無(wú)疑是要體現(xiàn)出核心檢索要素在文獻(xiàn)中展現(xiàn)的特點(diǎn)及其之間的緊密關(guān)系。
筆者前期研究中發(fā)現(xiàn)[2],S 系統(tǒng)中檢索表達(dá)式(K1/frec>n1)nd(K2/frec>n2)可有效緊密結(jié)合鄰近運(yùn)算符nd 和frec 的優(yōu)點(diǎn),不僅表達(dá)了檢索要素出現(xiàn)的頻率,還展示了檢索要素之間緊密聯(lián)系,能夠較好地體現(xiàn)發(fā)明構(gòu)思在文獻(xiàn)中展現(xiàn)的特征。同時(shí),詞頻(frec)和詞距(nd)逐漸被得到運(yùn)用[1]。
基于前期基礎(chǔ),本文進(jìn)一步探索檢索表達(dá)式(K1/frec>n1) “鄰近/同在算符”(K2/frec>n2)在智能化檢索系統(tǒng)中結(jié)合語(yǔ)義排序是否能有助于在農(nóng)藥等化學(xué)領(lǐng)域高效應(yīng)用,其中鄰近/同在算符選自P、S、nD;為了確定檢索式能否廣泛適用于化學(xué)領(lǐng)域?qū)@暾?qǐng),本文選出農(nóng)藥及合金領(lǐng)域典型案例,基于語(yǔ)義檢索、語(yǔ)義分詞調(diào)整等方式,從多方位、多角度對(duì)比分析以明確其普適性。
化學(xué)領(lǐng)域涵蓋了有機(jī)、農(nóng)藥、冶金、高分子等多個(gè)技術(shù)領(lǐng)域,且申請(qǐng)涉及的技術(shù)主題也較為廣泛,包括產(chǎn)品(化合物、藥物組合物等)、方法(如制備方法、分離方法、用途等)。由于各個(gè)技術(shù)領(lǐng)域和技術(shù)主題的申請(qǐng)存在自身的特點(diǎn),檢索要素的獨(dú)立性不同,通常這些申請(qǐng)?jiān)跇?gòu)建檢索表達(dá)式以及檢索難度也存在較大的差異。下面分別從化合物、制備方法以及組合物方面考察檢索表達(dá)式(K1/frec>n1)“鄰近/同在算符”(K2/frec>n2)的適用性。
基于撰寫(xiě)方式,化合物申請(qǐng)可分為馬庫(kù)什化合物申請(qǐng)和具體化合物申請(qǐng),其檢索最大特點(diǎn):?jiǎn)蝹€(gè)核心關(guān)鍵詞難以有效、準(zhǔn)確地表達(dá)出化合物結(jié)構(gòu),即檢索要素與檢索單元之間依賴性太強(qiáng),故常借助STN 等平臺(tái)進(jìn)行結(jié)構(gòu)等檢索,在傳統(tǒng)內(nèi)網(wǎng)檢索平臺(tái)上難以構(gòu)建出有效檢索式。
前期研究[3]中發(fā)現(xiàn),S 系統(tǒng)中運(yùn)算符nd 和frec能夠有效地將核心關(guān)鍵詞緊密結(jié)合在一起,準(zhǔn)確地表達(dá)出化合物共有結(jié)構(gòu)的構(gòu)成要素,而且形成的檢索式“(K1/frec>n1) 10d(K2/frec>n2)”能夠有效地運(yùn)用于化合物申請(qǐng)。在此基礎(chǔ)上,本文考察該檢索方式結(jié)合智能檢索系統(tǒng)的語(yǔ)義排序,評(píng)估化合物申請(qǐng)的檢索效果。
1.1.1 案例1:CN2006101294671
一種具有除草活性的三氟甲基苯基噠嗪類衍生物[3],其特征在于該類衍生物可用通式(I)或(II)表示:
檢索對(duì)象解析:涉及一類含有由三氟甲基苯與噠嗪相連接構(gòu)成母核的化合物,且能用于除草。那么,期望獲得能報(bào)道包含三氟甲基苯與噠嗪構(gòu)成母核化合物的文獻(xiàn),且最好還能用于除草。
基本檢索要素:三氟甲基苯;噠嗪;除草。
核心關(guān)鍵詞:三氟甲基苯;噠嗪。
檢索式:PD<20161121 and(三氟甲基苯/frec>1 A 噠嗪/frec>1)。
檢索結(jié)果見(jiàn)表1。
表1 案例1 檢索結(jié)果
對(duì)于農(nóng)藥領(lǐng)域化合物申請(qǐng)而言,直接語(yǔ)義檢索以及語(yǔ)義分詞調(diào)整檢索均存在漏檢風(fēng)險(xiǎn),而依據(jù)檢索對(duì)象的解析以及基本檢索要素池的共性,準(zhǔn)確地建立核心檢索要素池并運(yùn)用鄰近/同在運(yùn)算符和frec 能夠構(gòu)建出體現(xiàn)母體結(jié)構(gòu)(即共有特征)的檢索式,即“(三氟甲基苯/frec>1 A 噠嗪/frec>1)”,并利用語(yǔ)義排序(申請(qǐng)?zhí)柕?能高效、快速獲取對(duì)比文件。
組合物申請(qǐng)包括2 個(gè)以上組分及其相應(yīng)含量,相應(yīng)的檢索要素存在2 個(gè)以上(依據(jù)描述同樣分為核心要素和非核心要素),且每個(gè)檢索要素又存在多種不同的表達(dá)方式,如Zn,俗稱鋅等,這方面申請(qǐng)尤以合金領(lǐng)域典型。下面結(jié)合合金領(lǐng)域的具體案例來(lái)探索本文檢索式在智能檢索系統(tǒng)中的應(yīng)用。
1.2.1 案例2:CN201911406874
權(quán)利要求1[1]:Al-Zn-Mg-Cu 合金,其特征包括以下質(zhì)量百分比計(jì)的制備原料:Zn:6.7%~7.2%,Mg:1.7%~2.2%,Cu:0.20%~0.45%,Mn:0.15%~0.30%,Zr:0.05%~0.20%,余量為Al;所述Al-Zn-Mg-Cu合金中,Zn 和Mg 的質(zhì)量比Zn/Mg 為3.0~4.0,Zn和Mg 的元素總量≤9.2%。
檢索對(duì)象解析:涉及一種包含Al、Zn、Mg、Cu 以及Zr 并以特定含量存在的合金。由此,審查員無(wú)疑期望獲得能報(bào)道一種包含Al、 Zn、Mg、Cu以及Zr 合金的文獻(xiàn)。
基本檢索要素:合金;Al;Zn;M;Cu;Zr;各成分的含量。
核心關(guān)鍵詞:Al;Zn;Mg;Cu;Zr;合金。
檢索式:pd<20191231 and((Zn or 鋅)/frec>1 A(鎂or mg)/frec>1A(銅or Cu)/frec>1A(Mn or 錳)/frec>1 A (Zr or 鋯)/frec>1 A (Al or 鋁)/frec>1 A 合金/frec>8)。
檢索結(jié)果見(jiàn)表2。
表2 案例2 檢索結(jié)果
在組合物申請(qǐng)方面,尤其對(duì)于多組分的申請(qǐng),直接進(jìn)行語(yǔ)義檢索或全要素檢索檢索,噪聲特別大,難以篩選出對(duì)比文件,且也存在漏檢的可能。而基于基本檢索要素的核心關(guān)鍵詞,協(xié)同使用鄰近/同在算符和詞頻算符(frec)構(gòu)建的檢索式(即本文檢索式)能夠提高檢索效率。
制備方法方面的申請(qǐng)涵蓋的要素特別多,包括原料、產(chǎn)物、具體步驟、工藝條件等,且發(fā)明點(diǎn)涉及的基本檢索要素非常多,直接造成檢索表達(dá)方式也是多種多樣,且采用常規(guī)的語(yǔ)義檢索和布爾檢索難以獲取到有效對(duì)比文件,其根本原因在于檢索式無(wú)法體現(xiàn)出核心檢索要素在文獻(xiàn)的特點(diǎn)。下面結(jié)合制備方法領(lǐng)域的具體案例來(lái)探索本文檢索式的高效應(yīng)用。
1.3.1 案例3:CN2016108852333
權(quán)利要求1:一種酸酐與碳酸二甲酯反應(yīng)合成羧酸甲酯的方法,其特征是步驟:⑴配料:取原料酸酐、碳酸二甲酯和催化劑,酸酐與碳酸二甲酯的摩爾比為1∶1~1∶100,催化劑用量為酸酐質(zhì)量分?jǐn)?shù)1%~20%;所述酸酐是脂肪族酸酐或芳香族酸酐;所述催化劑是Lewis 酸或質(zhì)子酸;⑵反應(yīng):在高壓反應(yīng)容器中,依次加入酸酐、碳酸二甲酯和催化劑,升溫至80~350 ℃,在壓力0.1~10.0 MPa、溫度80~350 ℃下反應(yīng)1~8 h,停止加熱,降溫至室溫,放去氣體,取出反應(yīng)后物料;⑶后處理:將反應(yīng)后物料倒入1~5 倍體積量的飽和碳酸氫鈉水溶液中,用乙酸乙酯或二氯甲烷萃取3 次,合并萃取液、并用無(wú)水硫酸鎂或無(wú)水硫酸鈉干燥2~3 h 后,過(guò)濾,濾液經(jīng)蒸餾或減壓蒸餾除去溶劑,余下物即為制得的羧酸甲酯。
檢索對(duì)象解析:涉及一種碳酸二甲酯對(duì)脂肪族酸酐或芳香族酸酐在Lewis 酸或質(zhì)子酸進(jìn)行甲基化制備羧酸甲酯的方法,并限定了相應(yīng)工藝步驟。由此,審查員無(wú)疑期望獲得能報(bào)道脂肪族酸酐或芳香族酸酐中的任意酸酐與碳酸二甲酯反應(yīng)制備羧酸甲酯的文獻(xiàn)。
基本檢索要素:脂肪族酸酐;芳香族酸酐;碳酸二甲酯;Lewis 酸;質(zhì)子酸。
核心關(guān)鍵詞:酸酐;碳酸二甲酯。
檢索式:pd<20161011 and(酸酐/frec>1 A 碳酸二甲酯/frec>1)。
檢索結(jié)果見(jiàn)表3。
表3 案例3 檢索結(jié)果
對(duì)于該申請(qǐng),通常審查員會(huì)結(jié)合說(shuō)明書(shū)中具體實(shí)施例以及從屬權(quán)利要求的附加技術(shù)特征對(duì)基本檢索要素“脂肪族酸酐或芳香族酸酐”進(jìn)一步擴(kuò)展為“乙酸酐、丁酸酐、苯甲酸酐”等,采用常規(guī)的語(yǔ)義檢索或布爾算符“and”進(jìn)行檢索,這往往會(huì)因擴(kuò)展不全面而導(dǎo)致漏檢或者噪聲過(guò)大等現(xiàn)象。但是,如果審查員能夠依據(jù)權(quán)利要求的解析、期望文獻(xiàn)以及基本檢索要素之間共有特征“酸酐”和“碳酸二甲酯”,并巧妙利用頻率算符frec 和鄰近/同在運(yùn)算符構(gòu)建出體現(xiàn)“酸酐”和“碳酸二甲酯”重要性的檢索表達(dá)式,能夠快速獲取到相關(guān)文獻(xiàn)。
本文以頻率算符為基礎(chǔ),聯(lián)合其他布爾運(yùn)算符能夠快速降噪,在智能語(yǔ)義排序的加持作用下,實(shí)現(xiàn)了“人工智慧+機(jī)器智能”協(xié)同作用。在檢索實(shí)踐中,檢索人員基于檢索對(duì)象的解析,確定期望獲取的文獻(xiàn),明確檢索對(duì)象-期望文獻(xiàn)-基本檢索要素之間的共有特征,表達(dá)為核心關(guān)鍵詞的組合,進(jìn)而使用詞頻和詞距運(yùn)算符來(lái)協(xié)同構(gòu)建能夠體現(xiàn)這些要素關(guān)系的檢索表達(dá)式。筆者通過(guò)多個(gè)案例證實(shí),該方法聚焦檢索對(duì)象-期望文獻(xiàn)-基本檢索要素之間的共性,具有農(nóng)藥等化學(xué)領(lǐng)域普適性、檢索要素及關(guān)鍵詞使用少、文獻(xiàn)瀏覽量少等優(yōu)點(diǎn),有助于在農(nóng)藥等化學(xué)領(lǐng)域中提高檢索效能。