基于创新网络社区主题发现和S 曲线的技术预测

2021-05-08 11:09宋俭宁宋天华
农业图书情报学刊 2021年4期
关键词:杂交专利曲线

李 蕾,宋俭宁,宋天华*

(1.哈尔滨工业大学图书馆,哈尔滨 150090;2.东北农业大学,哈尔滨 150038)

1 引言

技术预测对于企业、行业和国家调整技术方向,瞄准技术竞争制高点,以及制定技术战略和技术规划具有重要意义。国内外对技术预测的研究,应用的方法主要有德尔菲法、专家咨询法、头脑风暴法、需求分析法、关键技术选择法、趋势外推法、文本挖掘法、层次分析法、专利分析法、STEEP(社会、技术、经济、环境、政治)分析法、SWOT(优势、劣势、机会、挑战)分析法、决策树法、实地考察法、技术路线图等[1]。日本在第八次产业技术预测中,出现了引文预测法,它利用科技论文的引文数据,通过统计方法处理后进行预测[2]。同样,对技术预测的分类也有很多种,如MARIANO 把技术预测方法分为探索性方法和规范性方法[3],探索性方法是根据目前的情况推断未来发展,而规范性方法是依据未来的光景反推目前的做法。PORTER 等在1991 年把技术预测方法分为直接法、相关法和结构法[4],但是流传比较广,比较被认可的是还是PORTER 等[5]根据第一届塞维利亚技术未来分析研讨会[6]提出“九类-51 种方法体系”基础上,提出的“13 大类-48 种未来技术分析方法”,如表1所示。

综观各类学者的观点,多是根据各自需要执其一种方法或多种方法展开技术预测研究。自从2000 年之后,多方法融合以及大数据已经成为技术预测研究的主流。

专利是描述与刻画技术创新的一个成熟和客观的指标。专利的专利引文是对其技术的发展和应用,引文越多,则表明该专利的影响力越大,技术扩散的越好[7]。最早提出专利引证概念的是在1949 年[8,9],但是直到2000 年之后,随着专利电子数据库的陆续建立,专利引文的研究才逐渐发展起来。DAIM 等用专利计量方法设计了预测技术创新的方法[10]。LAI 等用专利共引方法建立了一个新的专利分类系统,便于进行研发规划、技术定位、专利战略的决策和技术预测[11]。YOUTIE 等利用专利与专利引文探索纳米技术的技术性质,以界定其是否为通用目的技术General Purpose Technology(GPT),以了解技术的长期远景[12]。一些学者研究了如何通过专利地图为技术创新寻求机会以制订新的技术创新战略[13,14]。另外还有运用专利分析方法预测技术发展路径[15]。李婧等对PEM 燃料电池专利引用情况进行实证分析,从核心技术、技术趋势、竞争对手、专利引证率方面阐述了专利引文在技术竞争力研究中的重要作用[16]。康宇航等初步研究了技术跟踪的结构和过程,设计了基于专利引文的技术跟踪工具,为技术的发展战略提供决策支持[17]。

表1 PORTER 等13 大类—48 种技术未来分析方法Table 1 Future analysis methods of 13 categories including PORTER-48 kinds of technology

CHANG 等利用专利引文网络的分析方法探索了商业分类方法的扩散规律。他们认为在众多技术预测指标中,专利和专利引用是重要的指标[7]。WARTBURG利用多级专利引文分析,测量创新的过程,指出单级专利引文分析不足以揭示技术发展具体路径,应该依据文献耦合、共引、直接引用和间接引文等方法进行技术路径分析[18]。HUANG 等利用专利及专利引文研究了2003 年纳米技术的最新发展,从国家、机构和技术领域的角度展示了纳米技术的最新进展,用引文网络揭示了技术扩散[19]。MINA 等通过专利引文网络和纵向路径方法研究了药品技术创新知识的涌现、成长和转变[20]。

王宏起运用专利共现网络和Katz 链路预测方法,对未来技术融合方向进行预测[21]。史璇等综合了文本挖掘、网络分析、文献计量和专利分析方法,提出一套预测燃料电池技术机会的预测方法,预测技术领域创新机会、识别可能应用的行业和商业领域的发展趋势[22]。覃兴等结合专利网络及专利地图方法,提出专利地图分析技术预测分析框架,对电力电缆的技术发展路线做出预测[23]。吴颖文等基于专利共现网络和回归分析,对未来可能涌现的共性技术进行了预测[24]。CIGDEM 通过语义网络预测技术创新的发展阶段,揭示创新的动态演化[25]。

对专利网络开展预测研究比较多的是创新路径的预测研究,如VERSPAGEN 研究了燃料电池与数据通信标准技术演化,绘制出完整的技术路径与专利引文网络图谱,认为它们的技术弹道具有选择性的和累积性的特质,在不同聚集水平上是非线性发展,并揭示了网络中的重要技术(节点)和技术演化路径[26,27]。结合传统技术预测方法和语义挖掘技术,研究与评价技术的创新路径[28]、技术主路径的演化与预测[29]、技术研究方向的识别[30]、技术涌现的早期识别[31]和对技术创新路径的揭示[32]。还有用技术演化路径预测纳米制药技术的发展[33],预测太阳能电池技术路径的发展[34],激光加工技术的发展[35],3D 打印技术的发展和演变等[36]。杨中楷等探索了不同技术领域间的专利知识流动的宏观网络特征,并揭示技术的演进路径[37,38]。蔡力伟等一些学者运用专利文献和复杂网络方法,对技术机会开展了链接预测[39-41]。

应用专利网络对技术发展趋势预测一直是研究热点。HEON 等利用社会网络分析方法预测了制药设备的核心技术[42]。李佳佳等比较了局部离群因子算法和社会网络分析方法,在中国风能领域做了技术预测,结论基本是一致的[43]。YOU 等基于专利引文网络,对相干光发生器的技术发展趋势进行了预测[44]。周源等综合了文献计量、主题模型、社会网络分析等方法,研究技术的演进趋势[45]。廖岭等运用文本挖掘和主路径分析方法,开展了技术发展趋势的实证研究[46]。高建等综合TRIZ 理论与逻辑曲线方法,预测了破胎器新技术可能出现的时机和发展趋势[47]。一些学者,如文雄辉[48]和钱娇等[49]基于SAO 链文本结构模式揭示专利的文本语义,对比专利间技术相似度,构建专利网络,分析技术创新的演化路径,并结合TRIZ 理论预测技术的未来发展趋势。张振刚等[50]基于聚类方法建立知识网络,用以预测未来热点技术和技术的发展趋势。WEN 结合专利网络地图和SAO 语义分析方法,对产业机器人的技术演化和发展趋势进行了预测[51]。尹忠博等[52]全面总结了基于数据的技术预测现状和发展趋势。

上述研究表明,利用专利或专利引文的研究方法,能揭示技术的涌现、成长、转变、扩散和演化,也可以跟踪技术发展和技术预测。

虽然国内外对于技术未来和技术预测的研究有很多,基于专利引文研究技术演化脉络以及技术未来发展趋势的研究也不少。但是,这些研究或者是针对特定技术领域的微观分析,如路径识别、链路预测和机会识别等;或者是对特定技术的宏观研究,如技术演进图、未来技术机会和空白技术等,但很少有中观视角对技术预测的研究。本文则是从中观技术创新社区视角展开技术预测研究,综合运用专利引文网络、网络社区发现、文本主题分类和S-曲线等方法,提出从中观视角研究技术未来发展的一套方法。

2 研究方法与数据

本文综合运用专利引文理论、网络拓扑和动态演化理论、网络社区侦测方法、语义主题分类和S-logistic曲线预测模型,对专利与专利之间通过引用关系形成的、以专利技术为节点、它们之间的引用关系为边的技术创新网络的技术创新进行数据挖掘和发展预测,以把握技术的发展进程和方向。

本文实证数据为杂交水稻育种的专利及其引文数据,数据来源于德温特专利数据库。数据获取方法是,确定“hybrid rice”为检索词,选取的检索项是主题途径,它包括专利题名与专利文摘,时间跨度是55 年,既从1963—2018 年。最后共得到922 件杂交水稻专利,专利引文565 件。从整体发展曲线(图1)和专利主题分析,杂交水稻技术的发展经历了3 个阶段。第一个阶段,1963—2001 年前后,在这个阶段,杂交水稻从萌芽、起步、迅速发展,逐渐发展成为相对完整的水稻培育技术领域,专利文献主题比较多样。第二阶段,2002—2014 年前后,这个阶段杂交水稻可能开始向一些特殊品性方向迅猛发展,专利主题中的如超高产量、高品质、高抗病性等频次增加较快。第三阶段,2014 年到现在,杂交水稻进入技术相对成熟阶段,一些具备特殊品性的杂交水稻育种技术开始接近成熟。

图1 杂交水稻技术发展Fig.1 Growth of hybrid rice

2.1 最大分割主题分类法

网络社区(Network Community)主要是指网络中的子网络,子网络中的节点相互连接比较紧密,而子网络中的节点与外面的节点连接比较少或者没有连接[53]。网络社区的侦测主要是基于网络中节点的连接性进行聚类分区的方法。具体地说,就是要抽取网络中的重要模块。网络社区的发现对于预测网络成长过程中涌现的重要的、关键的性质具有重大意义。一些社区发现的算法已经发展起来,如主要应用于大规模物理网络的层次的GN 算法(Girvan and Newman's Divisive Algorithm)[54]、K-近邻算法(Kernighan-Lin)[55]、用于社区图划分的谱方法(Spectral Methods)[56,57]、贪婪算法(Newman's Greedy Optimization of Modularity)[58]和应用于多水平网络划分的马尔可夫聚类算法(Markov Clustering)[59,60]等。

本文采用的数据为文本数据,数据有约1 500 个样本量,对数据的语义理解比较容易处理。网络中还存在一些孤立点也可能对技术的发展具有作用,而且这些创新的孤立,有可能是数据系统规范要求造成的,如中国专利不要求必须标注引文。因此,忽略了孤立点,也可能造成数据不完整。但上述提到的那些算法都不适合这些孤立点的社区划分。为避免了上述情况发生,有必要采用新的方法,本文主要是基于独立创新的技术主题,比较它们与网络中有连接的技术创新社区的主题,按照匹配原则归属它们的社区划分。

本文设计的社区发现方法命名为最大分割主题分类法,分为网络社区发现与主题分类两个步骤。

(1)网络社区发现。对数据集生成的技术创新网络直接进行分割,规则是最大化节点的链接,其定义为:如果在子网络中,节点之间存在连接,而这些节点与子网络外的节点不存在连接,则该子网络为网络中的一个网络社区Ni。

(2)文本挖掘与主题分类。首先对网络社区(N1,N2,…,Ni)进行文本挖掘与语义分析,利用词频分析和Wordnet 专业词典提取反映每个社区创新技术主题的高频核心关键词Kn,建立每个网络创新社区的主题关键词集{Knj}。然后,抽取并建立反映每个孤立点主题的高频核心关键词集{Kiso},比较每个孤立点的关键词集{Kiso}与每个创新社区的关键词集{Knj}的匹配度Mi,如果Mi≥60%,则孤立点i 归入网络创新社区Ni,如果Mi=0,则孤立点i 不属于任何网络社区。这样就保证了再网络社区数据尽可能完备的情况下,对技术创新的发展趋势进行预测。

2.2 成长曲线预测模型

S-logistic 曲线模型也叫S-曲线模型,是生物学家VERHULST 在1845 年研究人口增长时建立和发展起来的[61]。S-曲线模型广泛应用在经济、政治、人口统计、化学、植物增长动态、昆虫生态和森林增长等领域。S-曲线模型如下:

其中,Yt和t 分别代表S-曲线发展变量和时间变量,a 和b 是模型参数,决定着曲线的形状与位置,而k 是一个代表当t 达到极限时Yt极限固定值。每个S-曲线都有3 个阶段:萌芽期、成长期和成熟期,如图2所示。

I、II 和III 分别代表萌芽期,成长期和成熟期。也有的S-曲线模型分为4 个阶段,在成熟期之后,还有衰退期。本文的研究重点是探讨技术的前3 个成长阶段,而对技术衰退期不做深入探讨。

图2 S-曲线模型Fig.2 S-curve model

技术生命周期理论已经被广泛的接受和采用,它反映了技术成长最主要的特征,比较符合技术的成长演化形态。一般地情况下,技术周期分为4 个阶段,初始阶段、发展阶段、成熟阶段和成熟后阶段。而体现技术生命周期的技术成长曲线与S 曲线比较相似,因此用S-曲线模型预测技术的发展趋势是可行的,也是适合的。当然存在着技术突变和其它变化,可能会产生一个升级的S-曲线或其他成长曲线模型,那么,可以先拟合出最优符合成长曲线,然后运用该曲线模型进行预测。本文对于技术发展趋势的研究正是基于技术周期理论的前提条件,对代表技术创新的专利历史数据进行分析,最后选用了最符合杂交水稻社区成长的S-曲线模型外推出技术的发展趋势。整个预测过程如图3 所示。

图3 技术创新发展趋势预测过程Fig.3 Forecasting process of developing trend for technology innovation

3 实证研究

3.1 专利引文技术创新网络的社区侦测

接下来,利用杂交水稻专利及其引文数据,通过引用关系生成杂交水稻专利引文技术创新网络。然后利用本文设计的社区分割分类方法对网络进行社区发现与划分,划分出杂交水稻的技术创新社区。

3.1.1 专利引文技术创新网络的社区分割

首先通过专利、专利引文以及它们之间的引用关系,生成包含922 杂交水稻专利和565 件专利引文的杂交水稻技术创新网络。然后用前面设计的最大分割主题分类法对该网络进行社区探测。约简去比较小的创新网络社区之后,得到3 个创新社区的网络图,如图4 所示。最早形成的也是最大的社区是第一个创新社区(图中左边红色圆点形状节点的子网络),该社区由654 件专利互相连接而成,通过文本挖掘与人工判别,其主要研究方向是具有“高产量高抵抗力”特点的杂交水稻技术。图中右上(绿色方块形状节点的子网络)的是第二个创新社区,该社区有300 件连接的专利,同样的文本挖掘与识别方法,判定该创新社区的特点是培育具有“高品质高抵抗力”种子的杂交水稻技术。最下方的(兰色三角形节点的子网络)是第三个创新社区,该社区的主要创新特点是,估测与区别与杂交水稻有很大关系的能育性基因的技术。第三个创新社区的规模和发展速度上都比较低,数据量满足不了预测的规模要求,而且从2005 年之后,数据出现了中断,无法进行预测。因此,我们主要对第一和第二技术创新社区进行实证研究。

3.1.2 专利引文技术创新网络社区的主题分类

对孤立专利的社区划分要通过前面设计的最大分割主题分类法的第二步——主题分类分析来完成。具体是通过对专利数据的文本分析,主要包括专利名称与专利摘要的文本主题分析与词频分析,运用成熟的词频分析软件“英语词频分析器”和Wordnet 语义词典,经过分析、清洗、分类等提取出代表各技术创新社区的高频主题关键词,形成社区主题词集。第一创新社区主要的研究方向是培育具有“高产量高抗性”的杂交水稻种子技术,其汉英对照的主题词集合如表2所示。

第二创新社区主要的研究方向是培育具有“高品质高抗性”的杂交水稻种子技术。它汉英对照的主题词集合如表3 所示。

图4 杂交水稻主要的技术创新社区Fig.4 The main innovation communities of hybrid rice

表2 杂交水稻第一创新社区主题词集Table 2 Subject words set of the first innovation community for hybrid rice

表3 杂交水稻第二创新社区主题词集Table 3 Subject words set of the second innovation community for hybrid rice

孤立创新的主题分析与匹配,首先对每个孤立专利(主要是题名与文摘)进行文本语义分析和词频分析,提取出每件专利的主题词集,这些主题词汇也是由代表每件专利主题的高频关键词组成。之后,把每件孤立专利的主题词集与每个创新社区的主题词集进行语义分析与匹配,根据每件专利主题与每个创新社区主题的相似度确定每件孤立专利的所属创新社区。如果{主题词集}孤立x 与{主题词集}第n 社区的匹配度达到60%以上,则孤立点x 归入第n 创新社区,否则,不归入任何创新社区。主题分析与匹配的结果是,235 件孤立专利归属到第一创新社区,49 件孤立专利归属到第二创新社区,还有28 件孤立专利没有归属到任何创新社区。下面将是根据杂交水稻创新社区的时间序列发展来预测创新的发展趋势。

3.1.3 技术创新发展趋势预测

首先,根据杂交水稻创新社区,对创新社区的专利数据进行最优模型拟合,然后按最优模型外推,进而预测技术创新社区的未来发展趋势。由于第三个创新社区样本量比较小,而且在2005 年之后,数据出现中断,因此不能产生预测结果。所以本文只对杂交水稻第一和第二个创新社区发展趋势进行分析与预测。

采用的数据是每个杂交水稻技术创新社区的年代累积专利数,确定拟合的最优模型是S-曲线模型,因此采用该模型进行预测。S 曲线外推预测首先要拟合创新社区的成长模型,确定社区成长曲线的饱和点(Saturation)、反曲时间点(Midpoint)和成长时间(Growthtime)3 项参数。之后,把累积专利数据输入,按照确定的预测模型参数,推测出创新社区的发展趋势。预测模型的3 项参数的意义如下。

(1)饱和点(Saturation):指在杂交水稻技术创新主题社区中产生的最大专利数,也是技术发展到成熟阶段专利累积数量的极值点。

(2)反曲时间点(Midpoint):是S-曲线二次微分值为0 的点,曲线形状在反曲时间点由上凸转变为下凸,专利累积增长速率由正数转为负数,由增加转为减少。

(3)成长时间(Growthtime):指专利累积成长从饱和值的10%数量开始,至饱和值的90%数量为止所需的时间。

首先,对每个创新社区的专利年代累积数据进行曲线拟合。杂交水稻第一技术创新社区最优的拟合曲线符合S-曲线分布。杂交水稻第一创新社区的累积成长曲线(图中方块连线)与最优拟合曲线(图中红线)如图5 所示。

图5 杂交水稻第一创新社区成长曲线Fig.5 Growth curve of the first innovation community for hybrid rice

第一创新社区成长的最优拟合曲线模型为Slogistic分布,模型具体形式如方程(2):

由拟合模型得出累积专利数的饱和值为1 863,根据这个计算出来的最优饱和值,输入第一创新社区年代累积专利数据,调节S-曲线至收敛到最大置信区间,最后得出预测曲线(图6)。

图6 杂交水稻育种技术第一创新社区发展趋势Fig.6 Developing trend of the first innovation community for hybrid rice

预测的S-曲线如图6 所示,由预测曲线可知,杂交水稻第一主题创新社区成长的反曲时间点(图中三角块形状点)大约为2021.2 年,估算的10%~90%的成长时间1973—2043 年共70 年,而接近90%成长饱和点即接近技术成熟(图中平行四边形点)的时间约为2047—2050 年左右,饱和点专利累积件数就是前面拟合模型给出的饱和点数值,为1 863 件。

之后对杂交水稻第二技术创新社区发展进行预测。首先依据杂交水稻第二创新社区的累积增长数据拟合出最优曲线,其数据线与拟合曲线如图7 所示。

图中黑色方块形状连线为数据线,红色实线为拟合曲线。杂交水稻第二技术创新社区很好地符合S 曲线分布,具体拟合曲线模型如方程(3):

图7 杂交水稻第二创新社区成长曲线Fig.7 Growth curve of the second innovation community for hybrid rice

从模型中得出饱和点为294。根据饱和点数值294,调节S-曲线模型曲线,使置信区间最大,非置信区间最小(原方差最小),从而得到最优化的预测拟合曲线,结果如图8 所示。

图8 杂交水稻第二创新社区发展趋势Fig.8 Development trend of the second innovation community for hybrid rice

由图8 的最优S-曲线可知,杂交水稻第二主题创新社区成长的反曲时间点(图中红色圆点)约为2008.2 年,估算的10%~90%的成长时间(1996—2016年)为20 年,而接近90%成长饱和点即接近技术成熟(图中红色方块点)的时间约为2022—2024 年左右,饱和点专利累积件数就是前面拟合模型给出的饱和点数值,为294 件。

4 讨论与结论

4.1 对技术创新研究的启示

技术创新是比较难度量与刻画的。由于专利及其引文能很好地度量与刻画技术创新,自从电子专利数据库的大量出现之后,基于专利及其引文研究技术创新成为一个主要的技术创新研究流派。又由于专利制度在世界各国的普及发展,专利化的技术创新就已经占据技术创新主要的地位。因此,用专利及其引文刻画与度量技术创新是合适的。

本文提出了从专利引文技术创新网络社区中观视角,预测技术发展趋势的方法。技术创新是一个系统,只有包含专利引文和网络中孤立创新点的专利网路,才是更完整的,预测的结果才能贴近实际。本文从理论上完善了用专利文献数据预测技术创新的方法,提出了从复杂系统角度预测中观技术发展趋势的专利文献数据预测方法,使得其他学者或者任何人都可以在此理论方法的指导下,对其他的技术创新领域进行发展趋势预测。

本文发展了一个社区侦测方法。主要是融合了网络连接、模块社区划分等传统社区侦测理论与文本主题挖掘理论,建立了新的社区侦测方法。社区划分最合理的方法是从节点与网络模块的语义主题给予划分。但是,这种方法同时带来了计算上的复杂,在计算多数大型复杂网络的时候会使计算成本高到无法承担的地步。所以,在低成本语义挖掘方法出现之前,这种方法无法利用,更无法普及。另一方面,传统通过网络连接性和模块性划分社区的方法却遗漏了网络中的孤立点,而这些孤立点有可能是下次链接发生的起点,也可能由于数据结构规范引发的。因此,本文考虑了社区侦测方法的两难限制,融合了传统社区划分与主题语义分析方法,在尽量不增加计算成本的前提下,提高社区侦测的准确性,并包含对孤立点的划分。这种社区侦测方法是融合两种思想的初步尝试,为进一步的研究探索指明了方向。

本文超越了整体宏观预测技术发展趋势的限制,从中观的技术创新社区角度,建立了预测技术创新中观社区发展趋势的方法。充分地利用复杂网络的拓扑特征——主要是社区拓扑结构特性进行技术发展预测,使得预测的视角更加细微、更加具体,但又不失系统性。对于今后利用专利法预测技术中观发展趋势,提供了一定的借鉴。

4.2 对实证技术领域的建议

目前,高抗性高产量的杂交水稻育种技术处于快速成长的转折阶段,在现有技术条件下,下一阶段的发展速度将逐渐减低,大约将在2047—2050 年左右发展成熟;而高品质高抗性的杂交水稻育种技术目前处于成长阶段的后期,接近技术成熟的阶段,大约将在2022—2024 年间技术发展成熟。

从本文预测的结果看,现有技术条件下,杂交水稻第一创新社区处于快速发展的中期,也是发展的转折阶段。在此阶段,该领域杂交水稻育种技术的研究者,应该从两个方面加强研究行为。第一,对现有育种技术的集成和改进完善。因为该技术创新社区处于技术发展中期阶段,因此还会有近20 年左右的快速发展时期。在此阶段,该领域的研究者应该不断地加强研究,对现有技术不断地完善,不断地综合集成现有各种技术,使高产量高抗性的杂交水稻育种技术发展完善,尽可能抢占技术竞争的制高点。第二,瞄准未来杂交水稻育种高地,研发与储备下一代杂交水稻育种技术。由于技术周期规律的作用,如果没有突破性技术的产生,只对现有技术修补与集成的话,那么20年之后技术发展成熟的时候,也会遇到技术发展瓶颈。而按照技术生命周期理论,突破性技术的更新换代能改变技术生命周期曲线和发展周期,从而使技术创新进入更高层次的技术成长周期曲线上,使得技术在更高层次上发展。由于育种技术的周期比较长,以及未来技术突破过程中可能遇到各种技术难题,因此,应该尽早开始新一代高产量高抗性杂交水稻育种技术的研发。

从本文的预测结果看,杂交水稻第二创新社区已经处于技术发展的后期,接近技术发展顶峰。在该阶段,该领域的研究者没有太多选择,除了用很少的一部分精力完善现有技术,保持该技术创新领域的领先外,应该转变研究方向争取取得突破性技术创新。只有这样,才可能在未来的杂交水稻育种技术的竞争中占有一席之地。

猜你喜欢
杂交专利曲线
未来访谈:出版的第二增长曲线在哪里?
杂交水稻“泰丰A”高产又好吃
山西落叶松杂交良种逾10万亩
袁隆平:杂交水稻之父
幸福曲线
梦寐以求的S曲线
杂交牛
曲线的华丽赞美诗
2007年上半年专利授权状况统计