于 雷,夏 鵬
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局 專利審查協(xié)作北京中心,北京 100190)
隨著科技的發(fā)展,世界范圍內(nèi)的技術(shù)競(jìng)爭(zhēng)愈發(fā)激烈,專利作為最主要的科技文獻(xiàn),在技術(shù)競(jìng)爭(zhēng)中扮演的角色越來越重,因此專利戰(zhàn)略研究顯得尤為重要。有研究表明一個(gè)優(yōu)質(zhì)的專利分析可以減少近60%的研發(fā)(R&D)時(shí)間,同時(shí)節(jié)約近40%的研發(fā)成本[1]。然而,專利數(shù)量浩如煙海,因此如何從如此海量的文獻(xiàn)中提取信息,完成可視化的專利分析,就變得尤為重要。本文將從實(shí)際應(yīng)用的角度,來討論視頻編解碼領(lǐng)域的專利數(shù)據(jù)的概念提取、分類,以及挖掘模型建立、評(píng)估,以期能對(duì)相關(guān)領(lǐng)域研究人員有所幫助。
本文中的概念提取主要采用高級(jí)語義技術(shù)以及自然語言處理技術(shù)(NLP)[2]。高級(jí)語義學(xué)實(shí)際上是由本生詞典、近義詞、庫(kù)以及模板構(gòu)成的,其最為核心的一點(diǎn)在于其本生詞等構(gòu)成的詞典,詞典中反映的信息越多,那么由其構(gòu)成的概念提取模板質(zhì)量也就越高,如圖1所示,為視頻編解碼領(lǐng)域構(gòu)建的本生詞典、近義詞、庫(kù)以及模板[3]。
概念提取模版構(gòu)建完成后即可進(jìn)行概念提取,同時(shí)對(duì)概念進(jìn)行分類,此處的分類可以使一個(gè)標(biāo)識(shí)關(guān)鍵主題、關(guān)鍵知識(shí)點(diǎn)等需要提取的分類,實(shí)際上可以由概念、類型以及規(guī)則構(gòu)成,如圖2所示,為視頻編解碼領(lǐng)域的部分概念提取以及分類,需要注意的是這個(gè)過程是一個(gè)交互的過程,以保證概念提取和分類的準(zhǔn)確性和適用性。
反復(fù)調(diào)整概念、分類以后,即可生成概念提取模型以及分類模型,評(píng)估流程如圖3所示,其中由于本次選取的專利樣本為6000份,為了節(jié)省時(shí)間,從中隨即抽樣50%作為模型生成樣本,將沒有使用概念提取以及分類的模型以及使用概念提取以及分類的模型,同樣進(jìn)行C5.0決策樹分析,比對(duì)分析結(jié)果如圖4所示。
可見,使用概念提取的模型(線a)要比不使用概念提取的模型(線b)的準(zhǔn)確率有較大的提高。如果需要定量分析,可以通過同一輸入字段進(jìn)行分析的方式,比較兩者之間的正確率以及一致性,來得到定量結(jié)果。
當(dāng)模型通過評(píng)估后,即可用于對(duì)6000篇視頻編解碼專利文獻(xiàn)樣本進(jìn)行概念提取和分類挖掘(見圖5),并以廣電網(wǎng)、電信網(wǎng)、計(jì)算機(jī)網(wǎng)三網(wǎng)應(yīng)用的角度,觀察視頻編解碼技術(shù)在上述三方面的應(yīng)用,同時(shí)考慮上述專利在國(guó)家中的分布情況。如圖6所示,可以發(fā)現(xiàn),在三網(wǎng)應(yīng)用中視頻編解碼技術(shù)分布最多的是電視網(wǎng),位于800的數(shù)量級(jí),而電信網(wǎng)和計(jì)算機(jī)網(wǎng)則像差不大,基本位于200這一個(gè)數(shù)量級(jí)。
令人意外的是,這一領(lǐng)域(在電視網(wǎng)中應(yīng)用視頻編解碼技術(shù))最熱門的專利布局國(guó)家是印度(國(guó)家代碼:IN),大約有600篇相關(guān)專利文獻(xiàn)進(jìn)入印度布局,占整個(gè)專利樣本的1/10,其次是美國(guó)(國(guó)家代碼:US),大約位于400這一數(shù)量級(jí),中國(guó)、日本、韓國(guó)大概位于200這一數(shù)量級(jí)(國(guó)家代碼:CN,JP,KR)。
進(jìn)一步觀察視頻編解碼在電視網(wǎng)中應(yīng)用的兩大專利布局國(guó)家——印度與美國(guó)(見圖7),可以發(fā)現(xiàn)在這方面,同時(shí)進(jìn)入美國(guó)與印度的專利文獻(xiàn)有200~300篇,這實(shí)際上給出了從中挖掘重要專利的一個(gè)思路。而在整個(gè)三網(wǎng)領(lǐng)域視頻編碼技術(shù)綜合布局熱門前三位分別是印度、美國(guó)、日本,比利時(shí)位于第四位,同時(shí)可以看到在美、日、歐三方面均有400和200篇不等量的專利同時(shí)布局在了印度(如圖8所示)。
此外,從能耗、價(jià)格、解碼質(zhì)量的角度考慮,可以發(fā)現(xiàn),能耗因素實(shí)際上已經(jīng)遠(yuǎn)遠(yuǎn)超過了價(jià)格因素,是最為熱門的研發(fā)方向(見圖9)。特別是在移動(dòng)網(wǎng)絡(luò)領(lǐng)域中,降低視頻編解碼的能耗是重中之重,其次是電視網(wǎng)絡(luò)領(lǐng)域,最后是計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。此外,有近20篇左右的專利文獻(xiàn)可以在降低能耗的同時(shí)兼顧價(jià)格,因此其中可能存在價(jià)值比較高的專利。
可以初步得出一些定性的結(jié)論:印度作為一個(gè)人口眾多、影視產(chǎn)業(yè)發(fā)達(dá)、國(guó)家發(fā)展速度快的新興國(guó)家,其在視頻編解碼領(lǐng)域的市場(chǎng)被大多數(shù)國(guó)際以及公司所看好,是產(chǎn)業(yè)布局應(yīng)該首要考慮的國(guó)家,特別是中國(guó)公司,在印度的布局?jǐn)?shù)量還是比較少的;能耗因素是視頻編解碼產(chǎn)業(yè)的研發(fā)重點(diǎn),產(chǎn)品價(jià)格并不是研發(fā)應(yīng)該考慮的首要因素,特別是在移動(dòng)視頻編解碼領(lǐng)域,研發(fā)節(jié)能環(huán)保的新技術(shù)將是絕對(duì)值得投資的一個(gè)方向。
[1]XU Yuanhao.Apply text mining in analysis of patent document[C]//Proc.IEEE 10th International Conference on CAID&CD.[S.l.]:IEEE Press,2009:2350-2352.
[2]AKAM N,AL-DABASS D.Semantic mining for language text analysis[C]//Second Asia International Conference on AICMS.[S.l.]:IEEE Press,2008:415-420.
[3]KNIME-Professional Open-Source Software[EB/OL].[2012-05-01].http://www.knime.org.