基于专利文本的手机企业创新能力评价研究*

2021-09-16 08:00李世纪沈有为罗时锴尹若云
科技创新与应用 2021年25期
关键词:专利创新能力评估

李世纪,沈有为,罗时锴,尹若云,岳 丽

(1.合肥工业大学 管理学院,安徽 合肥230009;2.合肥工业大学 软件学院,安徽 合肥230009)

创新能力作为一个企业评估创造核心竞争力、占领市场、获得经济利润的重要衡量标准,在知识经济时代,逐渐成为技术交易市场的核心问题,成为众多学者研究分析的对象。而专利对于技术创新能力的评价是一项重要指标,其对于企业进行有针对性的技术创新战略选择和合理分配研发资源具有重要的理论和现实意义。

手机行业作为进入21世纪发展最为迅速的产业之一,行业整体呈现高活跃、快迭代的趋势。

目前,国内手机市场主要被华为、小米、OPPO、ViVo四家企业占据,竞争十分激烈。各厂手机相关技术不断地被研发出来,各自旗舰机型的差距也在逐步逼近,在某项领域的突破创新和企业自身创新能力对标同等级其他产品进行市场竞争已经成为主流方式。

本文以国内四家主流手机厂商为例,通过专利计量与专利文本的结合,运用LDA主题模型和基于熵值法的权重计算,建立一套客观公正、清晰明了的企业创新能力评估方法体系,为手机市场和相关领域研究提供准确客观的企业创新能力评估方法支持。

1 研究现状

1.1 相关研究

针对本项目所研究的手机行业创新能力的评估,在主流资源平台十分少见,已有的研究主要分为对手机行业整体能力的评估、创新能力评估的方法和专利评估领域三个方面。

对于手机行业的评估,主要是基于波特五力模型和SCP模型等进行综合分析评估。

对于创新能力的评估,国内一些学者对区域层面的科技创新评估进行了大量研究,崔俊富等针对科技领域创造力的评估主要集中在科技创新能力评估[1]。一些学者还针对具体领域的科学创新评估进行了研究。余本功等基于主题模型(LDA)和专利数据对汽车领域建立技术创新能力评价的方法体系[2];周剑等提出一套覆盖制造业企业全局的量化融合评估体系和评价方法[3]。

在专利评估领域,国内主要集中于对专利价值影响因素做总体分析。而对于技术创新能力评价方面,国内外许多学者从不同的维度构建了企业技术创新评价体系。

1.2 LDA主题模型的发展

统计主题模型自提出以来,在文本挖掘技术中得到了广泛应用。它经历了漫长的发展过程,已成功应用于许多重要领域。其中,LDA模型是主题模型的主要代表。

随着互联网技术的发展,互联网上的数据呈指数式增长,研究人员如何从这些海量文献中全面、快速、准确地识别出研究主题,并探索其演化趋势,一直以来都是情报学的研究重点[4]。而文本挖掘技术是帮助科研人员从海量非结构化文献中发现新兴主题结构的途径之一,LDA模型作为一种对文本信息进行语义抽取的主题模型,为科研人员进行文本主题挖掘提供了一种新方法。LDA模型广泛应用于文本信息检索、主题发现和演化、图像处理、聚类、推荐系统、过滤系统、预测系统、资源标识等诸多领域。国内学者对LDA模型进行了比较深入的研究,已取得了较为丰富的研究成果。

1.3 LDA主题模型理论

LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。其理论基础为:每一篇文章都是由一定概率的主题构成,而这些主题又由一定概率的词构成。基于这一理论,通过LDA主题模型可以得到文档-主题以及主题-词这两个多项式分布。如图1所示,其中M代表文档的数目,K代表主题数目,Nm代表文本的长度,即文本中所包含的词语数量。

图1

通过LDA主题模型,可以快速准确地对文本进行主题提取,故选用LDA主题模型来进行专利文本数据的分析。

2 数据来源及研究方法

2.1 数据来源

本研究以中国手机行业为实验对象,根据国际数据公司(IDC)2015-2019年间的中国智能手机市场报告,选取这五年中国市场占有量最高的四家国产智能手机厂商——华为技术有限公司(华为)、OPPO广东移动通信有限公司(OPPO)、维沃移动通信有限公司(ViVo)、小米科技有限责任公司(小米)为中国手机行业代表,专利数据来源为佰腾网。

根据IDC的报告显示,2019年华为、OPPO、ViVo、小米的国内市场总占有率达到了自2015年以来最高的84.4%,故以2019年为截止点,选取2015-2019这五年的专利数据。由于专利的数量指标更偏重于已被授权的专利,故选取四家企业公开日在这五年的专利;而专利的内容指标更偏重于近期企业的研究方向,故选取申请日在这五年的专利。通过佰腾网,共检索到这四家企业公开日在这五年间的发明公开、发明授权以及实用新型专利119061条,共获得这四家企业申请日在这五年间的发明专利以及实用新型专利文本摘要71695条。

2.2 研究方法

如图2所示,本研究旨在从专利计量和专利内容两个维度去评价手机企业的创新能力,其中专利的计量指标包括企业的发明公开数量、发明授权数量、实用新型数量、年申请量变化量、专利技术分布五项,专利的内容指标包括企业的创新关键词数和企业的创新核心值。

图2

专利的内容指标不同于专利的计量指标,后者可以通过专利的数据检索直接获得,而前者需要对专利的文本数据进行挖掘分析,其主要研究流程如图3所示。首先获得这四家企业五年间的中国专利数量以及专利摘要,对每家企业以及全行业的专利摘要进行数据处理。接着在Python环境下对每家企业以及全行业的专利摘要分别进行LDA主题提取,得到每家企业以及全行业的主题-词分布。最后通过筛选全行业的主题-词分布得出手机领域创新关键词集合,计算每个创新关键词的重要值,取每家企业的主题-词分布与领域创新关键词的交集,计算得到每家企业的创新核心值。

图3

如图4所示,在获取到每家企业的专利计量指标和内容指标后,对各项指标进行标准化处理,计算出每家企业的各项指标比重,运用比重计算出各项指标的熵值,通过熵值得出各项指标的权重,最后计算得出每家企业的技术创新能力评价值。

图4

3 实证研究

3.1 数据获取及预处理

通过佰腾网,可以检索到华为、OPPO、ViVo、小米这四家企业的专利计量指标。其中专利数量选择的是这四家企业公开日期为2015.1.1-2019.12.31的中国发明专利数、实用新型专利数和授权发明专利数;专利的变化趋势选择的是这四家企业申请日期为2015.1.1-2019.12.31的中国专利年申请量变化量均值;技术分布趋势均值选择的是这四家企业申请日期为2015.1.1-2019.12.31的中国专利中,B部、G部和H部专利所占比例的平均值。统计结果见表1所列。

表1

对于专利内容指标所需的数据,可以通过佰腾网,下载这四家企业申请日在这五年间国内发明公开、发明授权、实用新型专利摘要,并且过滤掉少于100字的摘要,共获得83626条有效数据。在获得这些有效摘要后,引入手机行业的专业术语表,并且建立停用词表(其中主要包含一些无用词汇),在Python环境下使用“JIEBA分词”模块,对摘要文本进行分词处理。

3.2 LDA主题模型

在进行LDA主题模型聚类前,我们需要计算得到困惑度最低时的主题数。困惑度用来度量一个概率分布或概率模型预测样本的好坏程度,在LDA主题模型中,困惑度最低时聚类的效果更好。在Python环境下,生成主题数-困惑度的函数图。如图5所示,整个手机行业的专利文本在主题数为16时,可使困惑度达到最小。

图5

在获得整个手机行业的主题数后,在Python环境下对所有的专利文本进行LDA主题聚类,每个主题保留出现频率最高的前10个词,共得到160个词。其中,去除掉区域、位置、空间等单独出现没有意义的词,去除掉硬件、终端等无法确定具体指向的词,合并数据传输、传输数据等表意相同的词,最后得到了28个手机领域创新关键词。其中,有关于拍照的:图像、像素、摄像头;有关于充电的:电流、功率、电压、电量、电池;有关于显示的:显示屏、触控、亮度等。利用公式(1),分别计算得出每个手机领域创新关键词Tj的重要值 (IT)j:

其中,K为对手机领域进行LDA主题聚类时的主题数目,即为16;P(iT)j为第j个关键词在主题i中的概率;Ni为第i个主题中所包含的创新关键词数量。

在获得手机领域创新关键词后,分别对这四家企业的专利文本进行困惑度计算,经过比对后,取主题数为26可使四家企业的平均困惑度达到最小。分别对四家企业的专利文本进行LDA主题聚类,选取主题数为26,每个主题数下保留前10个概率最高的词,得到四家企业的LDA主题聚类结果。将每家企业的聚类结果与手机领域的创新关键词比对,可以得到每家企业所包含的创新关键词,根据公式(2)计算得出企业t在手机领域的创新核心值Ct:

其中,n表示手机领域的创新关键词数,即为28;k为对每家公司进行LDA主题聚类时的主题数,即为26;h表示对每家企业进行LDA主题聚类时每个主题下词的数目,即为10;R(iT)j表示手机领域创新关键词Tj在主题i下,词概率由高到低的排序。

计算结束后,可以得到每家企业的专利内容指标,其中包含创新关键词数以及创新核心值,见表2所列。

表2

3.3 基于熵值法的权重计算

在得到企业的专利计量指标以及内容指标后,对所有的指标数据进行0-1标准化处理,见表3所列。

表3

利用公式(3)计算出指标j在公司i下所占据的比重:

其中Xij为表3中指标j在公司i的数值,其中m=4,n=7。各项指标在每家企业所占据的比重见表4。

表4

在得到各项指标在每家公司所占据的比重后,利用公式(4)计算指标j的熵值:

其中m=4,n=7。

在得到各项指标的熵值后,利用公式(5)计算指标j的权重:

其中n=7。

经过计算,各项指标的熵值ej与权重aj见表5所列。

表5

得到各项指标的熵值与权重后,根据公式(6)计算企业i的技术创新能力评价值。

四家企业的技术创新能力评价值见表6所列。

表6

4 结论

根据最后的企业技术创新能力评价值,我们可以发现维沃移动通信有限公司(ViVo)这几年间的专利数量虽然少于小米科技有限责任公司(小米),但其技术创新评价值高于小米。

对比中国人民大学企业创新课题组发布的《2019中国企业创新能力百强排行榜》[5],其中华为技术有限公司(华为)、OPPO广东移动通信有限公司(OPPO)、维沃移动通信有限公司(ViVo)、小米科技有限责任公司(小米)分别位列第一、第三、第六、第十,这与我们的研究结果非常相似,唯一的偏差在于华为与OPPO的排名。根据佰腾网的检索显示,华为公开日在2015-2019年间的世界发明专利有41835条,而其中中国发明专利为27603条,由于华为拥有很大一部分国外的专利,而我们只针对了中国发明专利进行研究,所以导致了实验的误差。

我们可以发现,评价一家企业的创新能力不仅仅要从企业的专利数量出发,而应该结合专利的内容,从专利计量和专利内容两个维度去评价。专利的内容从一定层面上可以反映出企业的研究方向是否与整个行业一致,只有在对的方向上做更多的事,才能更加有效而持续地创新。

猜你喜欢
专利创新能力评估
不同评估方法在T2DM心血管病风险评估中的应用
拓展探究实验 培养创新能力
高中数学课堂教学中创新能力的培养
第四代评估理论对我国学科评估的启示
如何在语文教学中培养学生的创新能力
推进软件产业创新能力提升
立法后评估:且行且尽善
资产评估法:能否终结“多龙治水”
2007年上半年专利授权状况统计