劉佳 魏佳奇 劉玉琴 時歌歌 郭靜
(1. 媒體融合與傳播國家重點實驗室(中國傳媒大學),北京 100024;2. 燕山大學經(jīng)濟管理學院,秦皇島 066000;3. 北京印刷學院新聞出版學院,北京 102600)
基因編輯技術是實現(xiàn)基因定點修飾和調(diào)控的重要手段之一,與傳統(tǒng)的基因打靶技術相比,它的成本更低,并且擁有更高的效率和可靠性[1]。作為改變生物基因型和表型的“手術刀”,基因編輯技術在治療遺傳疾病和難以治愈的疾病等方面的遠大前景也吸引了各種生物學研究人員的高度重視[2-3]。到目前為止,主要發(fā)展了3代基因編輯技術,前兩代基因編輯技術鋅指核酸內(nèi)切酶(ZFN)和類轉錄激活因子效應物核酸酶(TALEN)都是由DNA結合蛋白和核酸內(nèi)切酶Fok I融合而成,而第3代基因編輯技術CRISPR-Cas9核酸酶則是基于細菌的一種免疫系統(tǒng)改造而成[4]。
近年來,國內(nèi)外學者已經(jīng)利用文獻計量分析和專利分析等方法研究了基因編輯技術的發(fā)展。Ledley等[5]利用文獻計量學和技術生命周期方法探討了基因療法的商業(yè)化前景和其技術成熟度水平之間的關系。Magee等[6]通過基因工程相關專利的引文網(wǎng)絡確定了基因編輯技術的主要知識軌跡,從而得出了CRISPR會在未來很長一段時間內(nèi)得到有效發(fā)展的結論。而Li的團隊又利用社會網(wǎng)絡分析對2000-2019年基因編輯領域內(nèi)作者和發(fā)明人網(wǎng)絡進行了探索,得出了一些作者在知識轉移過程中發(fā)揮的重要作用[7]。同樣,我國學者曹學偉等[8]運用文獻計量學方法對基因編輯領域的論文數(shù)據(jù)進行了研究,從而為掌握該技術的整體發(fā)展現(xiàn)狀做出了貢獻。王友華和范月蕾等[9-10]從全球的角度對CRISPR技術的發(fā)展進行了分析與展望。而汪慶等[11]則將研究重點聚焦于基因編輯技術在國際上的競爭態(tài)勢,并利用專利分析為我國提升相關領域專利質(zhì)量和創(chuàng)新突破口提供了寶貴建議。
盡管已有一些學者對基因編輯技術的發(fā)展現(xiàn)狀進行了探索,但關于該技術的整體發(fā)展趨勢研究和演化研究明顯跟進不足,這不利于學者把握研究重點和基因編輯技術的進一步發(fā)展。為了更好的反映基因編輯技術的發(fā)展趨勢和未來的發(fā)展方向,幫助相關人員準確把握技術主題、創(chuàng)新研究方法、提高技術競爭力,本文結合專利分析和社會網(wǎng)絡分析,對基因編輯專利的申請態(tài)勢、國家地區(qū)分布、主要專利權人和核心技術主題進行了深入研究。
本文選取了德溫特創(chuàng)新平臺DII(Derwent innovations index)數(shù)據(jù)庫,對其中收錄的基因編輯專利進行檢索,檢索式為(TS=(gene editing OR genome editing OR genome engineering OR gene edited OR genome edited OR gene edit OR genome edit)),檢索時間范圍在2020年之前的所有專利,共檢索到1981-2019年5 723項專利,并將檢索到的專利數(shù)據(jù)全紀錄保存為純文本格式,借助ITGInsight[12]文本挖掘與可視化工具進行輔助分析。
基因編輯專利數(shù)量變化趨勢如圖1所示,基因編輯技術最早出現(xiàn)在1981年,但是在1981-1998年之間申請專利數(shù)量寥寥無幾,基因編輯技術發(fā)展緩慢。自1999年開始,專利數(shù)量突然出現(xiàn)猛增,并于2002年到達第一個峰值,在短短4年內(nèi),公布的專利申請數(shù)量就達到了595項,是1999年之前專利總數(shù)的4倍以上。之后,公布的專利數(shù)量呈現(xiàn)出下降趨勢,并在未來幾年中處于小幅度波動狀態(tài),專利數(shù)量普遍不高。直到2013年,公布的專利數(shù)量出現(xiàn)反彈,并一直保持著強勁的增長態(tài)勢,僅2019年可檢索到的專利數(shù)量就達到了1 420項,占專利總數(shù)的25%左右??梢姡壳盎蚓庉嫾夹g正處于高速發(fā)展階段。
圖1 每年公布的專利數(shù)量趨勢圖Fig.1 Trend chart of the number of patents published each year
技術生命周期(TLC)在調(diào)查專利活動和支持研發(fā)策略制定方面非常有效[13]。為了對基因編輯技術的演化過程進行更詳盡的分析,利用技術生命周期劃分方法[14],按照曲線的轉折點將產(chǎn)品的技術生命周期劃分為不同的研究階段,并對每一個研究階段中的專利數(shù)據(jù)做進一步分析,劃分依據(jù)如圖2所示。結合圖1的分析結果,將基因編輯技術的發(fā)展過程劃分為4個階段,即1981-1998年、1999-2002年、2003-2012年和2013-2019年。
圖2 技術生命周期圖Fig.2 Technology life cycle diagram
對于高價值的專利來說,為了獲得更大范圍的技術保護,通常會選擇在多個國家或地區(qū)進行申請,對檢索到的5 723項專利數(shù)據(jù)進行分析,選取了專利申請數(shù)量排名前20的地區(qū),繪制了如圖3所示的國家/地區(qū)分布圖。
圖3 基因編輯專利申請國家/地區(qū)分布Fig.3 Country/Region distribution of gene editing patent applications
圖3顯示,世界知識產(chǎn)權組織、中國和美國是受理基因編輯專利申請數(shù)量排名前三的地區(qū),在受理的專利申請數(shù)量超過1 000的地區(qū)中,歐洲專利局、澳大利亞和日本分別位列第4-6名。從地區(qū)分布來看,在這20個地區(qū)中,亞洲、歐洲和北美洲的一些地區(qū)最為突出。其中亞洲占據(jù)了8個地區(qū),除了中國大陸和日本外,其余6個地區(qū)受理的專利申請數(shù)量相對較少。在北美洲主要以美國和加拿大兩個地區(qū)為主。在歐洲,除了世界知識產(chǎn)權組織和歐洲專利局以外,德國和俄羅斯也是受理基因編輯專利申請的兩個主要國家。另外,進一步分析同時在兩個國家/地區(qū)申請的專利數(shù)量,發(fā)現(xiàn)同時在美國和世界知識產(chǎn)權組織申請、以及同時在美國和歐洲專利局申請的專利數(shù)量最多,分別為1 837和1 376項。澳大利亞緊隨其后,同時在澳大利亞和上述兩個機構申請的專利數(shù)量分別為1 277和1 009項。而同時在美國和澳大利亞申請的專利數(shù)量也達到了992項,遠高于其他地區(qū)。雖然中國擁有的專利數(shù)量排名較高,但同時在中國和其他地區(qū)申請的專利數(shù)量卻并不突出。由此可見,美國市場和澳大利亞市場受到了更多的關注,并且更容易吸引高價值專利。
為了分析不同發(fā)展階段下各地區(qū)市場的受重視程度,根據(jù)每年各地區(qū)受理的專利申請數(shù)量繪制了技術演化圖,圖中氣泡大小與專利數(shù)量成正比。具體結果如圖4所示。
由圖4可知,世界知識產(chǎn)權組織、美國、歐洲專利局、日本在基因編輯的整個演化過程中都扮演著比較重要的角色,幾乎每年都會有較多的專利在上述4個地區(qū)申請。在1981-1998年間,基因編輯技術處于起步階段,僅有少數(shù)發(fā)達地區(qū)的市場受到重視。從1999年開始,高價值專利為了獲得更大的市場保護,開始在越來越多的國家或地區(qū)進行申請,但主要以世界知識產(chǎn)權組織、美國、歐洲專利局、澳大利亞和日本5個地區(qū)為主,中國市場逐漸參與進來。之后,中國市場的作用開始凸顯出來,并在2013-2019年間迅速成為擁有受保護專利數(shù)量最多的國家之一,與此同時,加拿大、韓國、印度、巴西等地區(qū)對高價值基因編輯專利的保護作用也得到了專利權人的廣泛認可。
圖4 基因編輯地區(qū)發(fā)展演化圖Fig.4 Evolution map of gene editing areas
對發(fā)明人或專利權人的合作網(wǎng)絡進行分析可以有效揭示技術研發(fā)合作機制及其動態(tài)演化特征[15-16]。本文篩選專利申請數(shù)量排名前20專利權人繪制了專利權人合作網(wǎng)絡,并依據(jù)主題相似性進行了聚類,以期從主要專利權人的社會關系結構及其屬性方面挖掘基因編輯演化的相關信息。如圖5所示,圖中節(jié)點大小與專利申請數(shù)量成正比,連線粗細與合作次數(shù)成正比。
圖5 主要專利權人合作網(wǎng)絡圖Fig.5 Network diagram of major patentees’cooperation
20個專利權人中,主要以中國機構和美國機構為主,美國機構的合作程度較高,形成了一個較大的合作網(wǎng)絡,而中國機構更傾向于單獨申請專利。由聚類的結果可知,具有相似研究主題的專利權人形成了兩個子網(wǎng)絡(圖中橢圓位置),其中以麻省理工學院為主的子網(wǎng)絡聚焦于CRISPR-Cas9系統(tǒng)和真核細胞育種等主題的研究,以加州大學為主的子網(wǎng)絡主要研究ZFN和融合蛋白等相關主題。
表1為主要專利權人的具體信息。其中加州大學的專利總數(shù)雖然不是最高的,但它的度中心性和中介中心性都高于其他專利權人,說明加州大學在合作網(wǎng)絡中的位置很重要,是促成多個專利權人合作的橋梁。美國衛(wèi)生與公眾服務部的專利數(shù)量排名較低,但它在以麻省理工為主的子網(wǎng)絡中,擁有較高的度中心性和中介中心性。荷蘭的GEN HOSPITAL CORP公司在網(wǎng)絡中也擁有不錯的中心性數(shù)值,同時它還是連接Broad研究所和加州大學、麻省理工學院和加州大學重要的橋梁之一。
從專利申請的年份來看,美國的機構開始時間較早,大部分都是在1981-1998年末段開始申請,并一直延續(xù)到2019年。從第3個發(fā)展階段開始,中國的專利權人開始凸顯出來,上海交通大學和浙江大學是申請專利較早的兩個專利權人。2006年之后,江南大學在基因編輯方面的研究進展明顯,并迅速成為國內(nèi)申請相關專利最多的機構。從近3年的專利占比來看,除了Cellectis公司、Sangamo公司和美國衛(wèi)生與公眾服務部在各發(fā)展周期的專利申請數(shù)量較均衡外,其余專利權人都是在2012年后開始涌現(xiàn)出大量研究成果,在表1的20個主要專利權人中,國內(nèi)機構近3年專利占比幾乎都超過了50%,其中蕪湖英特菲爾生物制品產(chǎn)業(yè)研究院的所有專利均是在2017-2018年申請受理的。可以說,2012-2019年是基因編輯發(fā)展最輝煌的窗口期。
表1 主要專利權人信息Table 1 Main patentee information
以專利分類號劃分的技術主題很難滿足分析需求,因此挖掘專利內(nèi)容的主題和核心對于相關人員了解該技術領域的研究內(nèi)容、熱點及趨勢具有重要意義[17]。ITGInsight使用語言學規(guī)則和改進的C-value值對主題詞的術語度進行判斷,可以過濾掉大部分無效術語,保留所需的技術主題術語。本文使用ITGInsight提取主題詞并構建共現(xiàn)網(wǎng)絡,利用IDF(inverse document frequency)因子對主題詞賦權,以區(qū)分基本詞匯和具有代表性的主題詞[18]。之后,使用重力模型計算主題詞共現(xiàn)網(wǎng)絡中連桿的權重,構建加權鄰接矩陣,通過社會網(wǎng)絡分析法計算這些主題詞在整個語料庫中的重要程度[19]。計算過程見下式:
其中N為語料庫中所有的文檔數(shù),ni為包含主題詞i的文檔數(shù),γ是兩個主題詞之間的距離,由于在鄰接矩陣中,主題詞直接相連時距離為1,沒有直接鄰接時距離為無窮大,因此簡化后的計算公式為 :ωij=IDFi×IDFj。
使用ITGInsight提取了候選主題詞列表,篩選出排名前20的技術主題詞繪制主題詞共現(xiàn)網(wǎng)絡圖(圖6),圖中節(jié)點標簽代表主題詞,括號中的數(shù)字代表共現(xiàn)次數(shù),節(jié)點大小與共現(xiàn)次數(shù)成正比。通過構建的加權鄰接矩陣得到了主題詞的各項指標計算結果,具體結果如表2所示。
圖6 1981-1998年主題詞共現(xiàn)網(wǎng)絡圖Fig.6 Co-occurrence network diagram of subject terms in 1981-1998
結合圖6和表2的結果可知,在萌芽初期,由于對技術認識不足,各主題間沒有形成良好的知識傳遞,網(wǎng)絡中存在許多孤立的節(jié)點,網(wǎng)絡密度只 有 0.094 7。 在 圖 6中,“host cell”,“nucleotide sequence”是共現(xiàn)頻次最高的兩個詞,但是在度中心度的排名中,它們的重要程度并不高,說明這兩個詞是基本詞匯,基因編輯技術也是在這兩個主題的基礎上進行的。而“natural cell strain”,“type B hepatitis”,“HBs antibody”和“HBs antigen”是度中心度最高的4個主題詞,并且在圖6中形成了一個子網(wǎng)絡,說明基因工程在建立初期就以治療各種疾病為目標,并將研制乙肝抗體疫苗作為當時的第一個任務。另外,植物細胞和轉基因植物兩個主題詞的度中心度排名也處于中上水平,說明通過基因編輯來獲得轉基因植物已經(jīng)引起了當時相關研究人員的重視。
表2 1981-1998主題詞指標計算(按度中心度降序)Table 2 Subject index calculation in 1981-1998(in descen-ding order of degree centrality)
對1999-2002年的595項專利進行分析,結果顯示各主題詞之間聯(lián)系程度和共現(xiàn)次數(shù)明顯增加,共現(xiàn)網(wǎng)絡更加復雜(圖7)。該時期網(wǎng)絡密度達到了0.647 4(表3),顯著高于前一階段,說明在此期間學者們對基因編輯技術的研究范圍更加廣泛,并注重各個領域及學科之間的聯(lián)系,從而增加了主題之間的知識傳遞,形成了更加系統(tǒng)的研究體系。
表3 1999-2002年主題詞指標計算(按度中心度降序)Table 3 Subject index calculation in 1999-2002 (in descending order of degree centrality)
圖7 1999-2002年主題詞共現(xiàn)網(wǎng)絡圖Fig.7 Co-occurrence network diagram of subject terms in 1999-2002
在表3中排名前20的主題詞中出現(xiàn)了新舊主題詞更替現(xiàn)象,其中度中心度數(shù)值排在前7位的主題詞均為新的技術主題詞。前3個主題詞表明基因編輯修飾的對象是生物樣本的核苷酸,而“mature form”“test compound”“gene product”“fusion protein”則說明了這一時期的基因編輯技術已經(jīng)被用于生物實驗中以獲得所需的產(chǎn)物,而通過測試化合物和成熟形式可以為基因編輯技術走出實驗室提供保障。另外,“hybridization complex”和“isolated polypeptide”也是度中心度排名較高的兩個新出現(xiàn)的技術主題詞,其中雜交復合體多用于轉基因植物中,而多肽是醫(yī)藥開發(fā)工程中的關鍵產(chǎn)物,說明在1999-2002年間,除了繼續(xù)研究轉基因植物以外,研制基因編輯藥物也被提上了日程。
圖8為2003-2012年間的主題詞共現(xiàn)網(wǎng)絡圖,表4為主題詞評價指標計算結果。
圖8 2003-2012年主題詞共現(xiàn)網(wǎng)絡圖Fig.8 Co-occurrence network diagram of subject terms in 2003-2012
表4結果顯示主題詞網(wǎng)絡密度為0.568 4,略低于上一時期,說明雖然該階段累計專利數(shù)量較多,但研究比較分散,導致基因編輯技術的發(fā)展也較為緩慢。從主題詞的更替情況來看,“nucleic acid”是度中心度最高的主題詞,而“zinc finger nuclease”和“homologous recombination”雖然是新出現(xiàn)的技術主題詞,但它們的重要度排名卻分別處于第二和第三的位置,這說明在2003-2012年間,ZFN(zinc finger nuclease)是較廣泛的基因編輯技術,而同源重組則是當時最主要的研究內(nèi)容。主題詞“pharmaceutical composition”的出現(xiàn)也表明在此窗口期基因編輯技術在藥物工程中的作用開始凸顯。
表4 2003-2012年主題詞指標計算(按度中心度降序)Table 4 Subject index calculation in 2003-2012 (in descending order of degree centrality)
為了進一步解釋專利申請數(shù)量下降的原因,文獻調(diào)研結果發(fā)現(xiàn)同源重組被廣泛用于發(fā)酵工程的微生物育種中,在防止副產(chǎn)物形成方面卓有成效[20]。這促進了基因編輯技術在實際生產(chǎn)中的應用,然而當涉及到藥物工程時人們對基因編輯的安全性、編輯效率和可靠性提出了更高的要求,當時ZFN技術在細胞毒性和價格方面的問題一直沒有得到有效解決,這也使得該技術在這一時期的發(fā)展受到了阻礙[21]。
2013-2019年共產(chǎn)生了4 019件專利,在對這些數(shù)據(jù)進行分析后,得到了如圖9所示的網(wǎng)絡圖。從圖9中可以直觀的看出網(wǎng)絡密度明顯增加,主題詞的共現(xiàn)次數(shù)也遠遠高于以往任何時候。從表5的主題詞指標計算結果中我們發(fā)現(xiàn),網(wǎng)絡密度高達0.9632,說明網(wǎng)絡中幾乎所有的主題詞都存在直接聯(lián)系。
圖9 2013-2019年主題詞共現(xiàn)網(wǎng)絡圖Fig.9 Co-occurrence network diagram of subject terms in 2013-2019
表5 2013-2019年主題詞指標計算(按度中心度降序)Table 5 Subject index calculation in 2013-2019 (in descending order of degree centrality)
觀察該時期出現(xiàn)的主題詞后發(fā)現(xiàn),除了“transgenic plant”“nucleic acid”“fusion protein”“plant cell”等常見主題詞外,又出現(xiàn)了一些新的主題詞,其中“Cas9 endonuclease protein”雖然出現(xiàn)次數(shù)不多,但它在網(wǎng)絡中的重要程度卻遠遠高于其他主題。參考相關文獻后我們了解到,自2012年CRISPR-Cas9系統(tǒng)出現(xiàn)以來,基因編輯技術就進入了一個新時代,通過RNA引導融合蛋白進行的基因調(diào)控為基因編輯技術提供了新的強大工具,這也使得基因治療從理想變成了現(xiàn)實[22]。而與該技術相關的主題詞如“recombinant vector”“guide RNA”“short palindromic repeat”也隨之出現(xiàn)在了這20個主題詞中。除此之外,“expression cassette”的度中心度排名比上一發(fā)展階段略有提高,而表達盒與基因表達水平密切相關,說明此時研究人員已經(jīng)開始注重對編輯方法和工具的優(yōu)化,以期得到更高的基因表達水平。從高速增長的專利數(shù)量中也不難推測出,CRISPR-Cas9技術還存在很大的應用范圍和改進空間,因此今后的研究方向應繼續(xù)聚焦于技術優(yōu)化中,以使其更好的造福人類和社會。
為了反映基因編輯技術主題的整體演化過程,本文對上述所有主題出現(xiàn)的年份進行了統(tǒng)計,繪制了如圖10所示的主題詞演化圖。根據(jù)每個發(fā)展階段的主題詞特征總結了當時基因編輯研究的主要任務,1981-1998年屬于技術探索階段,1999-2002年屬于技術實驗階段,之后的兩個時間段分別對應著生產(chǎn)應用與藥物開發(fā)階段和基因治療與技術優(yōu)化階段。從圖10可以直觀的看出,在每個發(fā)展階段都會存在一些主題詞的出現(xiàn)與消亡,這些變化導致基因編輯技術的研究重點也隨之改變。另外,除了一些基本主題詞如轉基因植物、宿主細胞、植物細胞等一直貫穿基因編輯技術的整個演化過程外,其余具有代表性的主題詞出現(xiàn)時間和分布密度與前文的分析結果基本一致,尤其是當CRISPR-Cas9系統(tǒng)出現(xiàn)后,基因編輯技術的發(fā)展趨勢和研究重點變得更加清晰。
圖10 基因編輯技術整體演化圖Fig.10 Overall evolution of gene editing technology
本文結合專利分析和社會網(wǎng)絡分析法對2020年之前的基因編輯專利數(shù)據(jù)進行了分析,通過對專利申請態(tài)勢、國家地區(qū)分布、主要專利權人和核心技術主題的分析揭示了基因編輯技術的演化過程,為相關決策者制定技術戰(zhàn)略提供了科學可靠的依據(jù),并得到了一些有意義的結論和建議。
(1)從專利申請的變化趨勢來看,目前基因編輯技術正處于高速發(fā)展階段,除了繼續(xù)擴大其應用范圍外,研究人員還應重視引起專利申請量下降的因素,尤其是在技術監(jiān)管和倫理規(guī)范還不健全的情況下,避免技術濫用和生物風險是保證基因編輯健康發(fā)展的重要前提。
(2)基因編輯專利分布已經(jīng)從少數(shù)發(fā)達地區(qū)逐漸向其他地區(qū)擴散,覆蓋范圍更加均衡。其中中國市場前景明朗,在保護知識產(chǎn)權方面作用明顯,吸引了眾多國內(nèi)外企業(yè)的投資,因此相關人員應把握當前的國際趨勢和中國良好的知識產(chǎn)權制度,加強高價值專利的保護范圍,占據(jù)基因編輯市場的主動地位。
(3)從主要專利權人演化結果來看,國內(nèi)一些高校進步明顯,單個專利權人具備一定的科研實力。但與國外相比仍有一定差距,除了專利數(shù)量上的差距以外,還體現(xiàn)在國內(nèi)專利權人以高校為主,缺乏與企業(yè)的直接聯(lián)系,不利于基因編輯的成果轉化和商業(yè)化進程。因此國內(nèi)研究人員應積極建立“產(chǎn)學研”合作網(wǎng)絡,推動基因編輯源頭創(chuàng)新和成果轉化。
(4)基因編輯的發(fā)展方向主要受到各個階段的不同需求的影響,而新技術的出現(xiàn)則會加速這一演化過程的轉變,因此領域學者在警惕新技術產(chǎn)生的同時,還應順應社會實際需求,繼續(xù)把技術優(yōu)化作為今后研究的目標之一,降低潛在風險,促進基因編輯技術進一步發(fā)展。