基于专利分析和社会网络分析的基因编辑技术演化研究

2021-02-10 07:37刘佳魏佳奇刘玉琴时歌歌郭静
生物技术通报 2021年12期
关键词:专利权人主题词专利申请

刘佳 魏佳奇 刘玉琴 时歌歌 郭静

(1. 媒体融合与传播国家重点实验室(中国传媒大学),北京 100024;2. 燕山大学经济管理学院,秦皇岛 066000;3. 北京印刷学院新闻出版学院,北京 102600)

基因编辑技术是实现基因定点修饰和调控的重要手段之一,与传统的基因打靶技术相比,它的成本更低,并且拥有更高的效率和可靠性[1]。作为改变生物基因型和表型的“手术刀”,基因编辑技术在治疗遗传疾病和难以治愈的疾病等方面的远大前景也吸引了各种生物学研究人员的高度重视[2-3]。到目前为止,主要发展了3代基因编辑技术,前两代基因编辑技术锌指核酸内切酶(ZFN)和类转录激活因子效应物核酸酶(TALEN)都是由DNA结合蛋白和核酸内切酶Fok I融合而成,而第3代基因编辑技术CRISPR-Cas9核酸酶则是基于细菌的一种免疫系统改造而成[4]。

近年来,国内外学者已经利用文献计量分析和专利分析等方法研究了基因编辑技术的发展。Ledley等[5]利用文献计量学和技术生命周期方法探讨了基因疗法的商业化前景和其技术成熟度水平之间的关系。Magee等[6]通过基因工程相关专利的引文网络确定了基因编辑技术的主要知识轨迹,从而得出了CRISPR会在未来很长一段时间内得到有效发展的结论。而Li的团队又利用社会网络分析对2000-2019年基因编辑领域内作者和发明人网络进行了探索,得出了一些作者在知识转移过程中发挥的重要作用[7]。同样,我国学者曹学伟等[8]运用文献计量学方法对基因编辑领域的论文数据进行了研究,从而为掌握该技术的整体发展现状做出了贡献。王友华和范月蕾等[9-10]从全球的角度对CRISPR技术的发展进行了分析与展望。而汪庆等[11]则将研究重点聚焦于基因编辑技术在国际上的竞争态势,并利用专利分析为我国提升相关领域专利质量和创新突破口提供了宝贵建议。

尽管已有一些学者对基因编辑技术的发展现状进行了探索,但关于该技术的整体发展趋势研究和演化研究明显跟进不足,这不利于学者把握研究重点和基因编辑技术的进一步发展。为了更好的反映基因编辑技术的发展趋势和未来的发展方向,帮助相关人员准确把握技术主题、创新研究方法、提高技术竞争力,本文结合专利分析和社会网络分析,对基因编辑专利的申请态势、国家地区分布、主要专利权人和核心技术主题进行了深入研究。

1 数据来源

本文选取了德温特创新平台DII(Derwent innovations index)数据库,对其中收录的基因编辑专利进行检索,检索式为(TS=(gene editing OR genome editing OR genome engineering OR gene edited OR genome edited OR gene edit OR genome edit)),检索时间范围在2020年之前的所有专利,共检索到1981-2019年5 723项专利,并将检索到的专利数据全纪录保存为纯文本格式,借助ITGInsight[12]文本挖掘与可视化工具进行辅助分析。

2 专利申请态势分析

基因编辑专利数量变化趋势如图1所示,基因编辑技术最早出现在1981年,但是在1981-1998年之间申请专利数量寥寥无几,基因编辑技术发展缓慢。自1999年开始,专利数量突然出现猛增,并于2002年到达第一个峰值,在短短4年内,公布的专利申请数量就达到了595项,是1999年之前专利总数的4倍以上。之后,公布的专利数量呈现出下降趋势,并在未来几年中处于小幅度波动状态,专利数量普遍不高。直到2013年,公布的专利数量出现反弹,并一直保持着强劲的增长态势,仅2019年可检索到的专利数量就达到了1 420项,占专利总数的25%左右。可见,目前基因编辑技术正处于高速发展阶段。

图1 每年公布的专利数量趋势图Fig.1 Trend chart of the number of patents published each year

技术生命周期(TLC)在调查专利活动和支持研发策略制定方面非常有效[13]。为了对基因编辑技术的演化过程进行更详尽的分析,利用技术生命周期划分方法[14],按照曲线的转折点将产品的技术生命周期划分为不同的研究阶段,并对每一个研究阶段中的专利数据做进一步分析,划分依据如图2所示。结合图1的分析结果,将基因编辑技术的发展过程划分为4个阶段,即1981-1998年、1999-2002年、2003-2012年和2013-2019年。

图2 技术生命周期图Fig.2 Technology life cycle diagram

3 国家地区分布分析

对于高价值的专利来说,为了获得更大范围的技术保护,通常会选择在多个国家或地区进行申请,对检索到的5 723项专利数据进行分析,选取了专利申请数量排名前20的地区,绘制了如图3所示的国家/地区分布图。

图3 基因编辑专利申请国家/地区分布Fig.3 Country/Region distribution of gene editing patent applications

图3显示,世界知识产权组织、中国和美国是受理基因编辑专利申请数量排名前三的地区,在受理的专利申请数量超过1 000的地区中,欧洲专利局、澳大利亚和日本分别位列第4-6名。从地区分布来看,在这20个地区中,亚洲、欧洲和北美洲的一些地区最为突出。其中亚洲占据了8个地区,除了中国大陆和日本外,其余6个地区受理的专利申请数量相对较少。在北美洲主要以美国和加拿大两个地区为主。在欧洲,除了世界知识产权组织和欧洲专利局以外,德国和俄罗斯也是受理基因编辑专利申请的两个主要国家。另外,进一步分析同时在两个国家/地区申请的专利数量,发现同时在美国和世界知识产权组织申请、以及同时在美国和欧洲专利局申请的专利数量最多,分别为1 837和1 376项。澳大利亚紧随其后,同时在澳大利亚和上述两个机构申请的专利数量分别为1 277和1 009项。而同时在美国和澳大利亚申请的专利数量也达到了992项,远高于其他地区。虽然中国拥有的专利数量排名较高,但同时在中国和其他地区申请的专利数量却并不突出。由此可见,美国市场和澳大利亚市场受到了更多的关注,并且更容易吸引高价值专利。

为了分析不同发展阶段下各地区市场的受重视程度,根据每年各地区受理的专利申请数量绘制了技术演化图,图中气泡大小与专利数量成正比。具体结果如图4所示。

由图4可知,世界知识产权组织、美国、欧洲专利局、日本在基因编辑的整个演化过程中都扮演着比较重要的角色,几乎每年都会有较多的专利在上述4个地区申请。在1981-1998年间,基因编辑技术处于起步阶段,仅有少数发达地区的市场受到重视。从1999年开始,高价值专利为了获得更大的市场保护,开始在越来越多的国家或地区进行申请,但主要以世界知识产权组织、美国、欧洲专利局、澳大利亚和日本5个地区为主,中国市场逐渐参与进来。之后,中国市场的作用开始凸显出来,并在2013-2019年间迅速成为拥有受保护专利数量最多的国家之一,与此同时,加拿大、韩国、印度、巴西等地区对高价值基因编辑专利的保护作用也得到了专利权人的广泛认可。

图4 基因编辑地区发展演化图Fig.4 Evolution map of gene editing areas

4 主要专利权人分析

对发明人或专利权人的合作网络进行分析可以有效揭示技术研发合作机制及其动态演化特征[15-16]。本文筛选专利申请数量排名前20专利权人绘制了专利权人合作网络,并依据主题相似性进行了聚类,以期从主要专利权人的社会关系结构及其属性方面挖掘基因编辑演化的相关信息。如图5所示,图中节点大小与专利申请数量成正比,连线粗细与合作次数成正比。

图5 主要专利权人合作网络图Fig.5 Network diagram of major patentees’cooperation

20个专利权人中,主要以中国机构和美国机构为主,美国机构的合作程度较高,形成了一个较大的合作网络,而中国机构更倾向于单独申请专利。由聚类的结果可知,具有相似研究主题的专利权人形成了两个子网络(图中椭圆位置),其中以麻省理工学院为主的子网络聚焦于CRISPR-Cas9系统和真核细胞育种等主题的研究,以加州大学为主的子网络主要研究ZFN和融合蛋白等相关主题。

表1为主要专利权人的具体信息。其中加州大学的专利总数虽然不是最高的,但它的度中心性和中介中心性都高于其他专利权人,说明加州大学在合作网络中的位置很重要,是促成多个专利权人合作的桥梁。美国卫生与公众服务部的专利数量排名较低,但它在以麻省理工为主的子网络中,拥有较高的度中心性和中介中心性。荷兰的GEN HOSPITAL CORP公司在网络中也拥有不错的中心性数值,同时它还是连接Broad研究所和加州大学、麻省理工学院和加州大学重要的桥梁之一。

从专利申请的年份来看,美国的机构开始时间较早,大部分都是在1981-1998年末段开始申请,并一直延续到2019年。从第3个发展阶段开始,中国的专利权人开始凸显出来,上海交通大学和浙江大学是申请专利较早的两个专利权人。2006年之后,江南大学在基因编辑方面的研究进展明显,并迅速成为国内申请相关专利最多的机构。从近3年的专利占比来看,除了Cellectis公司、Sangamo公司和美国卫生与公众服务部在各发展周期的专利申请数量较均衡外,其余专利权人都是在2012年后开始涌现出大量研究成果,在表1的20个主要专利权人中,国内机构近3年专利占比几乎都超过了50%,其中芜湖英特菲尔生物制品产业研究院的所有专利均是在2017-2018年申请受理的。可以说,2012-2019年是基因编辑发展最辉煌的窗口期。

表1 主要专利权人信息Table 1 Main patentee information

5 核心技术主题分析

以专利分类号划分的技术主题很难满足分析需求,因此挖掘专利内容的主题和核心对于相关人员了解该技术领域的研究内容、热点及趋势具有重要意义[17]。ITGInsight使用语言学规则和改进的C-value值对主题词的术语度进行判断,可以过滤掉大部分无效术语,保留所需的技术主题术语。本文使用ITGInsight提取主题词并构建共现网络,利用IDF(inverse document frequency)因子对主题词赋权,以区分基本词汇和具有代表性的主题词[18]。之后,使用重力模型计算主题词共现网络中连杆的权重,构建加权邻接矩阵,通过社会网络分析法计算这些主题词在整个语料库中的重要程度[19]。计算过程见下式:

其中N为语料库中所有的文档数,ni为包含主题词i的文档数,γ是两个主题词之间的距离,由于在邻接矩阵中,主题词直接相连时距离为1,没有直接邻接时距离为无穷大,因此简化后的计算公式为 :ωij=IDFi×IDFj。

5.1 1981-1998年基因编辑技术主题分析

使用ITGInsight提取了候选主题词列表,筛选出排名前20的技术主题词绘制主题词共现网络图(图6),图中节点标签代表主题词,括号中的数字代表共现次数,节点大小与共现次数成正比。通过构建的加权邻接矩阵得到了主题词的各项指标计算结果,具体结果如表2所示。

图6 1981-1998年主题词共现网络图Fig.6 Co-occurrence network diagram of subject terms in 1981-1998

结合图6和表2的结果可知,在萌芽初期,由于对技术认识不足,各主题间没有形成良好的知识传递,网络中存在许多孤立的节点,网络密度只 有 0.094 7。 在 图 6中,“host cell”,“nucleotide sequence”是共现频次最高的两个词,但是在度中心度的排名中,它们的重要程度并不高,说明这两个词是基本词汇,基因编辑技术也是在这两个主题的基础上进行的。而“natural cell strain”,“type B hepatitis”,“HBs antibody”和“HBs antigen”是度中心度最高的4个主题词,并且在图6中形成了一个子网络,说明基因工程在建立初期就以治疗各种疾病为目标,并将研制乙肝抗体疫苗作为当时的第一个任务。另外,植物细胞和转基因植物两个主题词的度中心度排名也处于中上水平,说明通过基因编辑来获得转基因植物已经引起了当时相关研究人员的重视。

表2 1981-1998主题词指标计算(按度中心度降序)Table 2 Subject index calculation in 1981-1998(in descen-ding order of degree centrality)

5.2 1999-2002年基因编辑技术主题分析

对1999-2002年的595项专利进行分析,结果显示各主题词之间联系程度和共现次数明显增加,共现网络更加复杂(图7)。该时期网络密度达到了0.647 4(表3),显著高于前一阶段,说明在此期间学者们对基因编辑技术的研究范围更加广泛,并注重各个领域及学科之间的联系,从而增加了主题之间的知识传递,形成了更加系统的研究体系。

表3 1999-2002年主题词指标计算(按度中心度降序)Table 3 Subject index calculation in 1999-2002 (in descending order of degree centrality)

图7 1999-2002年主题词共现网络图Fig.7 Co-occurrence network diagram of subject terms in 1999-2002

在表3中排名前20的主题词中出现了新旧主题词更替现象,其中度中心度数值排在前7位的主题词均为新的技术主题词。前3个主题词表明基因编辑修饰的对象是生物样本的核苷酸,而“mature form”“test compound”“gene product”“fusion protein”则说明了这一时期的基因编辑技术已经被用于生物实验中以获得所需的产物,而通过测试化合物和成熟形式可以为基因编辑技术走出实验室提供保障。另外,“hybridization complex”和“isolated polypeptide”也是度中心度排名较高的两个新出现的技术主题词,其中杂交复合体多用于转基因植物中,而多肽是医药开发工程中的关键产物,说明在1999-2002年间,除了继续研究转基因植物以外,研制基因编辑药物也被提上了日程。

5.3 2003-2012年基因编辑技术主题分析

图8为2003-2012年间的主题词共现网络图,表4为主题词评价指标计算结果。

图8 2003-2012年主题词共现网络图Fig.8 Co-occurrence network diagram of subject terms in 2003-2012

表4结果显示主题词网络密度为0.568 4,略低于上一时期,说明虽然该阶段累计专利数量较多,但研究比较分散,导致基因编辑技术的发展也较为缓慢。从主题词的更替情况来看,“nucleic acid”是度中心度最高的主题词,而“zinc finger nuclease”和“homologous recombination”虽然是新出现的技术主题词,但它们的重要度排名却分别处于第二和第三的位置,这说明在2003-2012年间,ZFN(zinc finger nuclease)是较广泛的基因编辑技术,而同源重组则是当时最主要的研究内容。主题词“pharmaceutical composition”的出现也表明在此窗口期基因编辑技术在药物工程中的作用开始凸显。

表4 2003-2012年主题词指标计算(按度中心度降序)Table 4 Subject index calculation in 2003-2012 (in descending order of degree centrality)

为了进一步解释专利申请数量下降的原因,文献调研结果发现同源重组被广泛用于发酵工程的微生物育种中,在防止副产物形成方面卓有成效[20]。这促进了基因编辑技术在实际生产中的应用,然而当涉及到药物工程时人们对基因编辑的安全性、编辑效率和可靠性提出了更高的要求,当时ZFN技术在细胞毒性和价格方面的问题一直没有得到有效解决,这也使得该技术在这一时期的发展受到了阻碍[21]。

5.4 2013-2019年基因编辑技术主题分析

2013-2019年共产生了4 019件专利,在对这些数据进行分析后,得到了如图9所示的网络图。从图9中可以直观的看出网络密度明显增加,主题词的共现次数也远远高于以往任何时候。从表5的主题词指标计算结果中我们发现,网络密度高达0.9632,说明网络中几乎所有的主题词都存在直接联系。

图9 2013-2019年主题词共现网络图Fig.9 Co-occurrence network diagram of subject terms in 2013-2019

表5 2013-2019年主题词指标计算(按度中心度降序)Table 5 Subject index calculation in 2013-2019 (in descending order of degree centrality)

观察该时期出现的主题词后发现,除了“transgenic plant”“nucleic acid”“fusion protein”“plant cell”等常见主题词外,又出现了一些新的主题词,其中“Cas9 endonuclease protein”虽然出现次数不多,但它在网络中的重要程度却远远高于其他主题。参考相关文献后我们了解到,自2012年CRISPR-Cas9系统出现以来,基因编辑技术就进入了一个新时代,通过RNA引导融合蛋白进行的基因调控为基因编辑技术提供了新的强大工具,这也使得基因治疗从理想变成了现实[22]。而与该技术相关的主题词如“recombinant vector”“guide RNA”“short palindromic repeat”也随之出现在了这20个主题词中。除此之外,“expression cassette”的度中心度排名比上一发展阶段略有提高,而表达盒与基因表达水平密切相关,说明此时研究人员已经开始注重对编辑方法和工具的优化,以期得到更高的基因表达水平。从高速增长的专利数量中也不难推测出,CRISPR-Cas9技术还存在很大的应用范围和改进空间,因此今后的研究方向应继续聚焦于技术优化中,以使其更好的造福人类和社会。

5.5 基因编辑技术主题整体演化分析

为了反映基因编辑技术主题的整体演化过程,本文对上述所有主题出现的年份进行了统计,绘制了如图10所示的主题词演化图。根据每个发展阶段的主题词特征总结了当时基因编辑研究的主要任务,1981-1998年属于技术探索阶段,1999-2002年属于技术实验阶段,之后的两个时间段分别对应着生产应用与药物开发阶段和基因治疗与技术优化阶段。从图10可以直观的看出,在每个发展阶段都会存在一些主题词的出现与消亡,这些变化导致基因编辑技术的研究重点也随之改变。另外,除了一些基本主题词如转基因植物、宿主细胞、植物细胞等一直贯穿基因编辑技术的整个演化过程外,其余具有代表性的主题词出现时间和分布密度与前文的分析结果基本一致,尤其是当CRISPR-Cas9系统出现后,基因编辑技术的发展趋势和研究重点变得更加清晰。

图10 基因编辑技术整体演化图Fig.10 Overall evolution of gene editing technology

6 结论与建议

本文结合专利分析和社会网络分析法对2020年之前的基因编辑专利数据进行了分析,通过对专利申请态势、国家地区分布、主要专利权人和核心技术主题的分析揭示了基因编辑技术的演化过程,为相关决策者制定技术战略提供了科学可靠的依据,并得到了一些有意义的结论和建议。

(1)从专利申请的变化趋势来看,目前基因编辑技术正处于高速发展阶段,除了继续扩大其应用范围外,研究人员还应重视引起专利申请量下降的因素,尤其是在技术监管和伦理规范还不健全的情况下,避免技术滥用和生物风险是保证基因编辑健康发展的重要前提。

(2)基因编辑专利分布已经从少数发达地区逐渐向其他地区扩散,覆盖范围更加均衡。其中中国市场前景明朗,在保护知识产权方面作用明显,吸引了众多国内外企业的投资,因此相关人员应把握当前的国际趋势和中国良好的知识产权制度,加强高价值专利的保护范围,占据基因编辑市场的主动地位。

(3)从主要专利权人演化结果来看,国内一些高校进步明显,单个专利权人具备一定的科研实力。但与国外相比仍有一定差距,除了专利数量上的差距以外,还体现在国内专利权人以高校为主,缺乏与企业的直接联系,不利于基因编辑的成果转化和商业化进程。因此国内研究人员应积极建立“产学研”合作网络,推动基因编辑源头创新和成果转化。

(4)基因编辑的发展方向主要受到各个阶段的不同需求的影响,而新技术的出现则会加速这一演化过程的转变,因此领域学者在警惕新技术产生的同时,还应顺应社会实际需求,继续把技术优化作为今后研究的目标之一,降低潜在风险,促进基因编辑技术进一步发展。

猜你喜欢
专利权人主题词专利申请
从一件无效宣告请求案谈专利申请过程中的几点启示和建议
关键词的提取与确定
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
唑啉草酯中国专利申请分析
新能源电动汽车专利信息分析研究
专利申请三步曲
浅谈专利授权使用中的法律风险及防范措施
《中国骨与关节杂志》2016 年第五卷英文主题词索引
药品专利申请和保护策略简介
世界百强企业h指数探析