李子陽
摘? 要:文章主要結(jié)合現(xiàn)階段的專利工作狀態(tài)和人工智能發(fā)展水平,以及現(xiàn)有的人工智能專利系統(tǒng)的特點(diǎn),簡(jiǎn)要剖析人工智能對(duì)專利工作帶來的影響,同時(shí)對(duì)于其中的不足進(jìn)行探討。
關(guān)鍵詞:人工智能;專利從業(yè);深度學(xué)習(xí);語義分析
中圖分類號(hào):TP391.3? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2095-2945(2019)26-0014-02
Abstract: According to the current state of patent work and the development level of artificial intelligence (AI), as well as the characteristics of the existing artificial intelligence patent system, this paper briefly analyzes the impact of artificial intelligence on patent work, and discusses the shortcomings of artificial intelligence.
Keywords: artificial intelligence (AI); patent practice; deep learning; semantic analysis
序言
新一代基于人工智能的專利分析系統(tǒng),能夠解決傳統(tǒng)人工專利分析高成本、低頻次問題,徹底告別檢索式,可以高效、自動(dòng)、智能地進(jìn)行專利導(dǎo)航、預(yù)警布局等專利分析工作,類似的宣傳開始不斷涌現(xiàn),標(biāo)志著專利工作也搭上了人工智能的快車。那么人工智能對(duì)專利相關(guān)工作到底產(chǎn)生了哪些影響?本文試著從現(xiàn)階段的人工智能和專利從業(yè)各自的特點(diǎn)以及現(xiàn)有的人工智能專利系統(tǒng)現(xiàn)狀,進(jìn)行簡(jiǎn)要剖析。
1 人工智能與專利從業(yè)
專利從業(yè):專利是知識(shí)產(chǎn)權(quán)中的一種工業(yè)產(chǎn)權(quán),是一項(xiàng)發(fā)明創(chuàng)造的首創(chuàng)者所擁有的受保護(hù)的獨(dú)享權(quán)益。自1980年1月14日中國(guó)專利局的成立以及1985年4月1日《中華人民共和國(guó)專利法》正式實(shí)施以來,從第一件中國(guó)專利申請(qǐng)到2018年底已經(jīng)達(dá)到了2766萬件,并且圍繞著這些專利逐漸形成了,專利代理、專利受理、專利分類、專利審查、專利復(fù)審、專利分析以及專利訴訟等多個(gè)專利從業(yè)領(lǐng)域。而圍繞著《專利法》和《實(shí)施細(xì)則》,這些領(lǐng)域的工作者逐漸形成專業(yè)而熟練的工作方法和技能。如專利代理可以全權(quán)負(fù)責(zé)申請(qǐng)人專利的撰寫、格式編輯、申請(qǐng)前資料的收集、申請(qǐng)和答復(fù)等。專利審查方向主要包括實(shí)用新型的初審和發(fā)明的初審、實(shí)審,其中實(shí)審主要對(duì)發(fā)明專利的新穎性、創(chuàng)造性和實(shí)用性等進(jìn)行審查,同時(shí)還要負(fù)責(zé)專利通知書撰寫等工作。專利分析可以圍繞著專利著錄項(xiàng)信息、法律狀態(tài)和權(quán)利要求等經(jīng)濟(jì)、法律、技術(shù)、著錄和戰(zhàn)略信息[1]對(duì)政府、企業(yè)、個(gè)人等進(jìn)行專利運(yùn)營(yíng)、專利布局、專利導(dǎo)航、專利預(yù)警、專利挖掘、專利監(jiān)控和專利價(jià)值評(píng)估等工作。
人工智能:人工智能可以說是近幾年最火爆的詞條,其最早出現(xiàn)在1956年的Dartmouth學(xué)會(huì)上,而最新一次掀起人工智能浪潮、重新令世人所關(guān)注的當(dāng)屬Google的圍棋人工智能系統(tǒng)AlphaGo以4:1的總分戰(zhàn)勝圍棋世界冠軍、職業(yè)九段選手李世石,但對(duì)于人工智能不同的機(jī)構(gòu)或?qū)W者均有不同的定義?;谶@些定義逐漸拓展出機(jī)器學(xué)習(xí)、自然語言處理、自動(dòng)推理、人工意識(shí)、規(guī)劃能力、語音識(shí)別、計(jì)算機(jī)視覺、社交能力和運(yùn)動(dòng)控制等領(lǐng)域?qū)W科。由于專利工作主要涉及對(duì)專利數(shù)據(jù)庫(kù)中文本和圖像的檢索與分析,因此本文主要討論機(jī)器學(xué)習(xí)、自然語言處理、自動(dòng)推理和圖像識(shí)別等人工智能技術(shù)對(duì)專利工作所帶來的積極的影響和不足。
2 AI真的理解語義么
現(xiàn)階段的針對(duì)文本的自然語言處理主要可以實(shí)現(xiàn)對(duì)文本的詞性分析、情感分析、文本相似度判斷、翻譯以及新聞?wù)珜懀部梢赃M(jìn)行小說或詩(shī)歌的創(chuàng)作。圖1為2016年,上海玻森數(shù)據(jù)推出了智能作詩(shī)機(jī)器人“編詩(shī)姬“3秒內(nèi)創(chuàng)作的五言絕句,其主要是對(duì)唐詩(shī)數(shù)據(jù)庫(kù)中的素材進(jìn)行訓(xùn)練、整理形成的詩(shī)作,但這種作品有詩(shī)感而無詩(shī)意,并不是真正的理解語義;而由斯坦福大學(xué)發(fā)起的認(rèn)知智能行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域頂級(jí)水平測(cè)試SQuAD2.0(Stanford Question Answering Dataset 2.0),吸引了眾多國(guó)內(nèi)外知名研究機(jī)構(gòu)和高校參與,參賽者提交的模型對(duì)十萬多問題進(jìn)行機(jī)器閱讀理解,并回答一定的問題然后與人工標(biāo)注的答案進(jìn)行精確(EM)和模糊(F1)對(duì)比,由科大哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)提交的“BERT+DAE+AoA“模型不僅使其再一次榮登榜首,而且也是測(cè)試以來首次成為兩項(xiàng)指標(biāo)均超過了人類的水平的參賽者(見圖2),這種閱讀理解是真的理解語義了么?
圖片領(lǐng)域的人工智能主要可以通過機(jī)器批量訓(xùn)練實(shí)現(xiàn)對(duì)動(dòng)物、植物和其他物體識(shí)別包括對(duì)物種和數(shù)量的識(shí)別,ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC),2017年,38個(gè)競(jìng)爭(zhēng)團(tuán)隊(duì)中有29個(gè)錯(cuò)誤率低于5%;車牌識(shí)別包括對(duì)運(yùn)行中的車輛牌照的漢字、數(shù)字、字母和顏色等字符的識(shí)別,由于車輛存在高速行駛、顛簸、惡略天氣和泥漬造成的模糊以及存在角度偏差造成的字符不完整等問題是快速準(zhǔn)確識(shí)別車牌的難點(diǎn),現(xiàn)階段對(duì)于數(shù)字和字母的的識(shí)別率高達(dá)99.7%,漢字的識(shí)別率可達(dá)到99%。圖片文字識(shí)別包括對(duì)機(jī)器文本、手寫文本等字體以及書寫工整潦草、簡(jiǎn)寫、錯(cuò)別字的識(shí)別,比較常見的如驗(yàn)證碼的識(shí)別;圖片相似度計(jì)算更多的應(yīng)用在論文、商標(biāo)和外觀專利等查重。
3 現(xiàn)階段的人工智能專利系統(tǒng)
無論是審查員使用的S系統(tǒng)還是行業(yè)內(nèi)較流行的Patentics、Incopat和Total Patent檢索分析系統(tǒng)都主打語義分析。由于Patentics在國(guó)內(nèi)各專利審查中心都有部署,同時(shí)開放試用版,在CNKI中的相關(guān)文獻(xiàn)較多,因此主要討論P(yáng)atentics,其主要利用TF-IDF原理對(duì)數(shù)據(jù)庫(kù)每篇文獻(xiàn)提取關(guān)鍵詞形成語義索引。在檢索時(shí),Patentics從輸入的文本或?qū)@?hào)對(duì)應(yīng)文本中提取關(guān)鍵詞構(gòu)建新的文檔向量,與數(shù)據(jù)庫(kù)中其他海量文檔向量進(jìn)行運(yùn)算匹配,計(jì)算向量之間的夾角余弦值并以百分比的形式表示文檔之間的語義相關(guān)度,對(duì)于完全相同或部分相似的專利會(huì)以相似度由大到小排序顯示。2014年孫志飛提出通過引入用戶的相關(guān)度評(píng)價(jià)反饋機(jī)制,來提高語義檢索系統(tǒng)中檢索模型的合理性[2]。不過沒有利益驅(qū)動(dòng),此種機(jī)制的運(yùn)行還是存在困難的。而采用對(duì)除專利數(shù)據(jù)庫(kù)外,對(duì)檢索報(bào)告中對(duì)比文件和審查意見通知書的學(xué)習(xí)訓(xùn)練,升級(jí)語義模型可以增加目標(biāo)文獻(xiàn)的相關(guān)度值。2017年郭嘉通過實(shí)踐提出Patentics在語義分析時(shí)理論上能夠避免技術(shù)用語不規(guī)范所帶來的干擾[3],但在實(shí)踐中對(duì)于模糊用語以及故意避開規(guī)范用語的詞匯,仍需要轉(zhuǎn)換為同義規(guī)范用語的人工干預(yù)關(guān)鍵詞與語義分析系統(tǒng)相配合的方式,對(duì)此由于非規(guī)范化詞匯的干擾帶來的語義不精準(zhǔn)問題,可以通過檢索報(bào)告檢索式中使用的檢索詞進(jìn)行學(xué)習(xí)拓展。
圖片檢索方面,谷歌圖片搜索,提供單純圖片或圖片+關(guān)鍵詞的方式進(jìn)行圖片檢索;智慧芽用于商標(biāo)、外觀專利檢索的以圖搜圖功能,對(duì)于申請(qǐng)和審查的效率大大提升,也避免漏檢帶來的侵權(quán)糾紛。而發(fā)明或?qū)嵱眯滦蛯@綀D的分析主要涉及到對(duì)圖像中文字(漢字、字母和數(shù)字等字符的識(shí)別);圖片相似度計(jì)算(以機(jī)械結(jié)構(gòu)圖為例,對(duì)于圖片內(nèi)容的翻轉(zhuǎn)、尺寸、清晰度、底紋;機(jī)械制圖與手工繪圖;局部零件的增加與刪除;示意圖、三維視圖、剖視圖、不規(guī)范繪圖等是圖片語義檢索的難點(diǎn));而對(duì)于部分未在權(quán)利要求或說明書中出現(xiàn)的圖片中隱含信息的理解則是更大的難點(diǎn)。
對(duì)于專利代理,可以利用Patentics等專利系統(tǒng)語義分析功能進(jìn)行申請(qǐng)前的排查,可以更有效的避免對(duì)于已公開的技術(shù)進(jìn)行專利重復(fù)申請(qǐng)?jiān)斐傻拇沓杀纠速M(fèi)和審查負(fù)擔(dān)的增加;在專利審查方面,人工智能的語義分析適用于非正常及惡意申請(qǐng)的排查,以及常規(guī)檢索前的預(yù)檢索[4],同時(shí)可以利用其在海量文獻(xiàn)中進(jìn)行分類號(hào)及關(guān)鍵詞的拓展,對(duì)于專利授權(quán)前的補(bǔ)充檢索同樣是非常可靠的工具。
專利分析涉及非常多的方向,人工智能專利分析系統(tǒng)主打一鍵出報(bào)告功能,主要是對(duì)大量的專利分析報(bào)告進(jìn)行學(xué)習(xí),形成特定的模板,根據(jù)不同客戶需求生成相應(yīng)分析報(bào)告,但實(shí)際操作中仍然需要人工對(duì)相關(guān)技術(shù)檢索詞拓、分類號(hào)的限定展以及重點(diǎn)申請(qǐng)人的指定,且生成的分析報(bào)告主要是對(duì)專利發(fā)展趨勢(shì)、申請(qǐng)人類型、專利類型、法律狀態(tài)和地域分布等宏觀數(shù)據(jù)的展示。并不能做到根據(jù)企業(yè)或區(qū)域自身特點(diǎn)以及周邊特點(diǎn)進(jìn)行因地因時(shí)因政的具有靶向針對(duì)性的專利導(dǎo)航、布局;對(duì)于預(yù)警而言,可以對(duì)固定申請(qǐng)人專利數(shù)量和研發(fā)方向的監(jiān)控。但受限于語義分析的發(fā)展現(xiàn)狀,不實(shí)現(xiàn)對(duì)技術(shù)的理解、不能做到全面的排查。同時(shí)對(duì)于通過模糊專業(yè)詞匯或他人代申請(qǐng)的方式均可避開現(xiàn)階段的人工智能監(jiān)控。高價(jià)值專利、核心專利的挖掘和專利價(jià)值評(píng)估具有同樣的問題,其中常見的Innography、合享IncoPat以及智慧芽的PatSnap主要通過對(duì)專利權(quán)利要求數(shù)量、法律狀態(tài)、引用/被引用情況以及轉(zhuǎn)讓/許可情況等多個(gè)維度的指標(biāo)或因子通過特定的模型,計(jì)算出專利的價(jià)值或價(jià)值度,評(píng)估值進(jìn)行相關(guān)性計(jì)算,但這些指標(biāo)中均未涉及對(duì)權(quán)利要求所保護(hù)技術(shù)的水平,因此僅可作為實(shí)際專利交易、抵押或投融資的參考指標(biāo)。
4 結(jié)論
趨勢(shì)不可阻擋:人工智能為專利工作開辟了一個(gè)嶄新的思路,不可否認(rèn),其實(shí)現(xiàn)了人工無法完成的任務(wù),同時(shí)大大提升了專利工作的效率和質(zhì)量,并降低成本和資源的浪費(fèi),人工智能可以作為專利工作助手、工具。
瓶頸依然存在:受限于語義的發(fā)展,對(duì)于專業(yè)性、欠規(guī)范性的專利文本和附圖,對(duì)于全面性、準(zhǔn)確性要求較高的領(lǐng)域仍然不能做到100%的替代,同時(shí)對(duì)于待分析對(duì)象的復(fù)雜性,人工智能還無法靈活地給出完全滿足需求的、衡量定制的、專業(yè)化的分析報(bào)告,不過通過不斷地語義模型訓(xùn)練和驗(yàn)證,瓶頸點(diǎn)正在逐個(gè)擊破。
選擇保持謹(jǐn)慎:乘著人工智能的東風(fēng),眾多專利系統(tǒng)貼上了人工智能的標(biāo)簽。但由于系統(tǒng)的非公開性,使用系統(tǒng)時(shí)需要結(jié)合數(shù)據(jù)庫(kù)的收錄情況、實(shí)際使用效果以及專業(yè)人員的驗(yàn)證對(duì)其進(jìn)行甄選,防止因?yàn)槁┒丛斐芍卮髶p失。
參考文獻(xiàn):
[1]楊馥瑜.利用專利信息分析做好企業(yè)專利預(yù)警的若干思考[J].科技資訊,2017(13):106-107.
[2]孫志飛.語義檢索在專利文獻(xiàn)檢索中的應(yīng)用及改進(jìn)[J].信息技術(shù),2014(05):127-129.
[3]郭嘉,等.淺析在PATENTICS檢索系統(tǒng)中的專利檢索應(yīng)用[J].中國(guó)發(fā)明與專利,2017(8):123-127.
[4]洪兵,等.專利智能檢索的有效性分析[J].中國(guó)發(fā)明與專利,2015(8):53-56.