基于高质量专利的企业画像构建研究

2021-07-09 04:31刘春江李娜许海云方曙
情报工程 2021年3期
关键词:画像标签专利

刘春江 李娜 许海云 方曙

1.中国科学院成都文献情报中心 成都 610041;2.中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190;3.山东理工大学管理学院 淄博 255049;4.中国科学技术信息研究所 北京 100038

引言

当前,我国经济正逐渐进入高质量发展阶段,需要构建支撑高质量发展的现代产业体系[1],其中的关键点是构建一批与高质量发展相适应的产业主体。这就面临如何推进产业主体的培育,如何增强产业主体的自主创新能力,如何引导产业主体的精准支持等具体问题。专利与技术创新密切相关[2],专利是保护创新成果的重要载体[3]、衡量创新发展的重要指标[4]和构建创新指数的重要数据来源[5]等。近年来随着全国各省市专利申请的井喷现象出现,专利质量参差不齐,导致影响长期以来基于专利申请和授权等简单分析来对企业等创新主体做研究的模式以支撑区域创新发展的作用。高质量技术创新的重要成果之一便是高质量专利,以高质量专利为代表的技术创新水平很大程度上反映了技术创新能力的强弱。因此本文面向企业这个产业主体,从高质量专利的角度出发,开展基于专利信息的深度挖掘,利用企业画像技术,帮助深入揭示领域创新前沿知识,刻画企业的创新技术背景,拓展面向企业的精准服务。本研究对提升企业的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。

1 相关研究现状

1.1 高质量专利识别

1.1.1 高质量专利的概念

目前,国内外关于高质量专利并没有统一定义。相关定义主要是从专利自身的评价指标进行,例如宋河发等[6]从技术、法律、经济三个角度出发,认为高质量专利是指技术水平高、文本撰写质量高、市场价值大,并且能经得起诉讼的专利;徐明等[7]认为满足技术进步性、法律审查通过性、经济效益性的特定标准的专利就是高质量专利。除此之外,也有定义从专利权人的角度出发,例如朱雪忠等[8]认为高质量专利是指有助于专利权人形成竞争优势的专利。在相近概念的区分上面,高质量专利不同于高价值专利,这是因为专利价值产生于包括技术研发、申请确权、技术扩散、技术渗透等各个环节[9],高价值专利比高质量专利的包含范围更小;高质量专利与核心专利也有所区别,通常认为核心专利是具有原创性并且蕴含巨大经济效益和战略意义的专利或专利组合。因此高质量专利与核心专利二者存在交叉,但不可完全替代。

1.1.2 专利质量的研究现状

专利质量的研究主要集中于专利质量的影响因素及其评价方法。专利质量的影响因素主要是从不同角度出发,苑泽明等[10]研究了媒体关注对企业专利质量的影响,蒋仁爱等[11]研究了专利发明人合作对中国专利质量的影响;刘雪凤等[12]研究了专利资助政策对于中国专利质量的影响。专利质量的评价方法主要是从单维或多维指标出发,Lanjouw等[13]采用权利要求数量、专利的前后向引用数量和专利族的规模等指标建立专利质量综合指数;胡谍等[14]选择专利新颖性、创造性和实用性等指标,通过主成分分析法确定指标权重构建企业专利质量综合指数。

1.1.3 高质量专利识别的研究现状

高质量专利评估指标体系一般包含法律、经济与技术三个维度。其中法律维度主要包括表征专利权利稳定性和保护范围等特征的指标;经济维度主要包括表征专利经济效益和市场前景等特征的指标;技术维度主要是包括表征专利技术创造性、先进性与实用性等特征的指标。除上述三个维度外,不同学者还对高质量专利评估指标体系的维度进行了补充。例如许鑫等[15]基于原有的法律、经济与技术维度的专利评价指标体系,补充了包含防御能力、进攻能力与影响力的战略维度,对上海市高质量专利及其对应的产业分布现状进行了实证分析。本文认为高质量专利识别重点从法律、经济与技术三个维度考虑即可,过多维度或指标的加入将会遇到识别的数据的完整性和可获取性等问题。

1.2 企业画像

1.2.1 企业画像的概念

自从交互设计领域大师Alan Cooper[16]提出用户画像的概念之后,基于用户画像的研究和应用如雨后春笋般出现在各行各业。目前用户画像技术已经应用于电子商务、内容推荐、社交网络、业务决策和智库研究等领域。例如Netflix[17]根据用户点击行为所做的视频推荐;ResearchGate[18]根据科研用户的关注、推荐和论文引用等行为所做的论文或项目推荐;赵曙光等[19]对一些高转化率的社交媒体的用户行为细分进行画像,进一步分析社交媒体的用户类型等;高扬等[20]在智能制造领域进行了杰出人才精准画像,可为相关部门的人才引进和相关领域的产业布局提供决策支持;胡媛等[21]基于用户画像进行数字图书馆社区用户需求描述;易观智库基于用户画像的行为特征、人群画像、地理位置、场景偏好、设备画像和行为标签等六大维度进行大数据下的用户分析[22]等。随着用户画像技术的发展,用户画像在的对象也不再局限于个体,而扩大至企业、行业和城市等,企业画像相关的研究逐渐引起了学者的广泛关注。

从概念上来说,企业画像缺乏权威定义,在已有研究中,王镂[23]认为企业画像指的是企业信息标签化,基于真实的企业数据建立标签模型体系,并对企业的属性进行归类处理,以此形成多元化的企业标签;田娟等[24]认为企业画像就是把企业信息标签化,在一系列真实数据的基础上为企业建立标签模型体系,将企业的具体行为属性进行归类,最终形成一个多元化的企业标签对象;刘阳[25]认为从企业的真实数据出发,在这些真实企业信息中运用数据挖掘技术标签化企业信息,建立标签模型体系,最后得到一个多维度、全方面的企业标签画像。由此可见,企业画像展现出描述标签的异质性、企业数据的多源性和技术手段的先进性等特点。

1.2.2 企业画像的流程

企业画像的核心是建立企业画像模型,围绕企业画像模型。首先需要进行数据收集、数据存储和数据处理,然后需要进行数据分析、数据可视化和数据解读,因此我们把企业画像流程设计如图1所示。

图1 企业画像流程

1.2.3 企业画像的应用

当前,虽然企业画像在企业内外部都具有广泛应用,面向企业内部,企业画像可以清楚展现企业特点,包括企业财务水平、经营环境、创新和管理能力等,助力企业发展。面向企业外部,企业画像有助于了解行业发展水平,促进信息公开和企业监管,提高相关部门的决策水平。例如税务部门可以使用企业画像技术降低税收风险,科创服务部门则能通过企业画像完善科技金融服务体系。但是面向高质量专利的企业画像研究还很少,缺乏从高质量专利识别到企业画像的全流程框架。

2 基于高质量专利的企业画像框架

本文提出的基于高质量专利的企业画像框架如图2所示,分为4层组织结构,包括数据层、识别层、画像层和应用层。数据层实现包括专利文献数据、产业数据、网络数据、法律数据以及事实数据的分布式采集、大数据存储和规范化索引;识别层通过构建高质量专利识别指标模型,实现高质量专利的识别,完成高质量专利数据库的构建;画像层面向特定领域数据特征,结合静态属性、动态属性和专利属性建立企业画像模型;应用层结合具体需求,针对领域特征进行分析解读。

图2 基于高质量专利的企业画像框架

2.1 数据层

专利是技术创新的重要成果之一,本研究以高质量专利为基础进行基于高质量技术创新的企业画像研究。因此框架下的数据层主要指的是以专利数据为核心的多源异构数据,这里既包括专利数据,也包括非专利数据。专利数据具备大数据的4V特征,即体量大、种类多、速度快和高价值。随着各个国家和地区知识产权保护意识的增强,全球专利申请数量不断增长,截止2019年1月,EPO收录的全球专利总量已经突破1亿;从数据类型的角度来看,每条专利除了包含半结构化的专利著录项数据和法律状态数据,还有以PDF、TIFF或PNG等格式存储的专利全文和专利附图等非结构化数据。非专利数据的来源则更具多源异构特征,例如新闻等网络数据,企业基础信息等产业数据,Wiki百科等事实数据,裁判文书网、PTAB案例检索工具和Lexis Advance等中外知识产权法律数据库。

2.2 识别层

高质量专利识别主要包括选定专利数据库集、专利信息抽取、高质量专利识别指标体系构建、指标计算等四个步骤。下面针对核心的高质量专利识别指标体系进行介绍。通过对前面高质量专利识别相关研究的调研,本文设计的高质量专利识别指标体系如表1所示,包括维度、特征和具体指标三个层级。法律维度的权利稳定性特征设置了专利是否有效指标,专利有效说明企业正在通过专利费的手段维持该专利;权利保护范围特征设置了权利要求、专利同族和保护区域数量三个指标,其中权利要求数量越多体现了技术保护范围越大,专利同族和保护区域数量越多体现技术在不同国家或地区获得的保护越多。经济维度的经济效益特征设置了质押、转让、许可次数指标,这三个法律状态的变更体现了专利的经济价值;市场前景特征设置了专利维护费支付次数和是否三方专利,专利维护费支付次数越多说明企业对专利市场前景的认可,成为三方专利说明该专利在全球知识产权非常重视的三个地区寻求保护。技术维度的创造性特征设置了专利的后向引用数量指标,被引次数越多说明技术具备一定的创造性,成为其他专利的研究参考;先进性特征设置了专利类型指标,一般来说,发明专利比实用新型或者外观设计更具有技术的先进性;实用性特征设置了IPC技术宽度指标,该指标说明了专利的技术内涵涉及范围较广。在选取标准上,高质量专利只是缩小专利价值评估评价范围的第一步,相关标准不易设得过高。因此专利权利要求数量设置为大于5,保护区域数量和IPC技术宽度均设置为大于1,同族专利数量、专利维护费支付次数、专利的后向引用数量和质押、转让、许可次数均设置为大于等于1。

表1 高质量专利识别指标体系

需要注意的是,本文提出的指标体系只是针对一般情况,在指标的实际使用中,需要具体考虑数据的可获得性、操作的便利性以及覆盖的全面性等因素。因此,需要对指标进行一些调整,相应增加或减少某些指标。同时,不同指标的阈值选择也需要弹性、灵活的调整,需要具体领域具体分析。

2.3 画像层

画像层的核心是建立企业画像描述标签模型,如图2所示。本模型中,领域属性根据分析目的进行调整,本文主要是从高质量专利出发进行企业画像,因此领域属性包含了以专利活动为主的指标。因此模型标签的生成流程是先生成专利属性中的模型标签,然后根据具体企业名称去获取成立时间和地理位置等静态属性和动态属性的标签。在领域属性的标签生成中,由于专利信息包括名称、申请号、申请日、公开(公告)号、公开(公告)日、申请(专利权)人、申请人地址、发明人、专利类型、摘要、主权项、IPC、法律状态信息、代理信息等,通过对申请日、公开日、授权日、IPC、法律状态信息和摘要等进行实体抽取,为专利申请、专利技术布局、专利技术转让和专利技术功效等指标打标签。在静态属性和动态属性的标签生成中,首先遴选出类型为企业的专利申请(专利权)人,然后采用网络爬虫和自然语言处理等技术进行相关标签信息的抽取,从企业主页和百科数据中抽取企业成立时间、所属行业和地理位置等标签信息,从新闻网站和裁判文书网抽取新闻动态和法律动态等标签信息。在获得多维度企业画像描述标签以后,最终构建企业画像数据库。

2.4 应用层

基于企业画像数据库,可以进行多种分析。面向了解地域之间的创新差别、企业的成立时间和行业差异,需要针对静态属性进行企业地理分布、企业成立时间和企业所属行业等分析;面向了解企业的社会关注度大小和评估企业风险,需要针对动态属性进行企业关注度和风险度等分析;面向了解企业技术创新能力、技术布局和竞争水平,需要针对专利属性进行专利申请数量、专利技术布局、专利技术转让和专利技术功效等分析。

3 案例分析

3.1 研究对象

网络安全是数字经济时代的护航者,数字经济的快速发展离不开网络安全产业的不断壮大,因此网络安全技术已成为国家的核心竞争力之一。四川在“十三五”期间出台了一系列有利于网络安全产业创新发展、应用落地和引领示范的政策和措施。2019年3月,四川省发布了《新一代网络技术产业培育方案》,其中网络安全是重点发力方向。2020年3月成都市出台《成都市加快网络信息安全产业高质量发展的若干政策(征求意见稿)》,准备通过较强的激励措施大力促进地区网络安全产业高质量发展。经过长期不断的支持,四川在网络安全方面获得了不少具有一定影响力的成果,例如量子密码、网络测绘等前沿技术[26]。本文选择四川网络安全产业的高质量专利为数据基础,面向从事网络安全产业的企业进行画像,针对本文提出的基于高质量技术创新的企业画像框架进行实证研究。

3.2 数据处理

本文使用IncoPat全球专利数据库作为数据源,检索范围限制为中国专利,截至2020年10月29日,检索到四川省“网络安全”技术领域的四川相关专利10438条。参考前文的高质量专利识别指标体系,综合考虑到数据的实际可获得性和数据覆盖面等因素,对指标进行调整,即不使用保护区域数量、是否三方专利和质押、转让、许可次数三个指标。经过数据清洗,最终得到四川网络安全领域高质量专利共计1033条,对这些专利进行统计,统计区间为2010-2019年,统计结果如图3所示,大体上呈增长态势。通过对专利申请人的规范去重,共计得到259个企业,采用前文的画像技术对这些企业进行画像。

图3 四川网络安全领域专利授权公开趋势

3.3 分析解读

3.3.1 企业地理分布分析

从四川网络安全领域相关企业地理分布(图4)可以看出,四川网络安全领域高质量专利的相关企业主要集中在成都(239家),另有20家企业分布在绵阳、宜宾、内江和德阳四个城市。

图4 四川网络安全领域相关企业地域分布

3.3.2 企业成立时间分析

四川网络安全领域超过90%的企业成立时间是在2000年以后,通过对企业的成立时间进行分析,只有9.84%的企业成立时间在2000年以前,成立时间在2000–2010年的占比54.1%,2011–2020年的占比36.06%,如图5所示。

图5 四川网络安全领域相关企业成立时间分布

3.3.3 企业所属行业分析

四川网络安全领域相关企业主要集中在软件和信息技术服务业、研究和试验发展、计算机、通信和其他电子设备制造业和信息传输、软件和信息技术服务业四个行业,如图6所示。

图6 四川网络安全领域相关企业所属行业分布

3.3.4 专利申请数量分析

四川网络安全领域专利申请数量排名前十的企业(图7)所拥有的专利为488条,占比47.2%,依次为:华为数字技术(成都)有限公司、四川长虹电器股份有限公司、迈普通信技术股份有限公司、中国电子科技集团公司第三十研究所、成都卫士通信息产业股份有限公司、成都秦 川物联网科技股份有限公司、中国电子科技网络信息安全有限公司四川九洲电器集团有限责任公司、成都三零瑞通移动通信有限公司和成都天钥科技有限公司。

图7 四川网络安全领域TOP10企业专利数量分布

3.3.5 企业关注度和风险度分析

针对专利申请数量排名前十的企业进行关注度和风险度分析,四川长虹电器股份有限公司、中国电子科技网络信息安全有限公司、四川九洲电器集团有限责任公司、成都卫士通信息产业股份有限公司和迈普通信技术股份有限公司拥有较高的企业关注度;华为数字技术(成都)有限公司、中国电子科技集团公司第三十研究所、成都天钥科技有限公司、成都三零瑞通移动通信有限公司和迈普通信技术股份有限公司则拥有较低的企业风险度。如图8所示。

图8 四川网络安全领域TOP10企业关注度和风险度分布

3.3.6 专利技术布局分析

对四川省网络安全相关专利企业申请人进行专利IPC统计分析,申请数量最多的IPC号为H04L(数字信息的传输等)、G06F(电数字数据处理等)、H04W(无线通信网络等)。四川网络安全专利申请人中排名企业榜首位的是华为数字技术(成都)有限公司,其专利集中于H04L和G06F;排名第二的四川长虹电器股份有限公司,其专利主要集中于H04L、H04W和H04N(图像通信等);排名第三的迈普通信技术股份有限公司,其专利主要集中于H04L和H04W。总体而言,四川省企业申请的网络安全相关专利呈现的特点为:在H04L、G06F、H04W三个领域数量较多;G06Q领域大部分企业均有涉及,但专利数量相对较少;H04N、G07F、G05B三个领域虽然申请企业数量较少,但已有企业形成专利数量优势;G07C、G06K与H04B领域目前企业专利数量相对较少,是较少有企业涉及的领域。四川网络安全领域TOP10企业技术布局分布如图9所示。

图9 四川网络安全领域TOP10企业技术布局分布

3.3.7 专利技术转让分析

截至2020年10月,四川省网络安全领域专利转让共计143件,占比13.8%,其中发生1次转让的专利114件,占比79.7%;发生2次转让的专利27件,占比18.9%;发生3次转让的专利2件,占比1.4%,专利转让趋势如图10所示。转让数量排名前5位的企业是华为技术有限公司、成都科来软件有限公司、四川虹微技术有限公司、四川长虹通信科技有限公司、中国电子科技集团公司第三十研究所。

图10 四川网络安全领域专利转让趋势

3.3.8 专利技术功效分析

专利中出现次数最多的技术功效短语分别是安全提高、便利性提高、成本降低、可靠性提高、效率提高、数据安全提高、传递保持、复杂性降低、灵活性提高和密钥安全提高,其中与安全提高相关的专利数量为154条,图11展示了排名前五的技术功效短语近10年来的分布情况。

图11 四川网络安全领域专利技术功效短语分布

3.3.9 结论

案例分析显示了本文的高质量专利画像框架具备可操作性,实现了多维度描述标签的生成,打通了从高质量专利识别到企业画像的全流程,融合了企业画像研究与专利分析、自然语言处理和大数据挖掘等技术方法,使得本研究有助于提升企业画像研究的深度和广度。

4 结束语

本文首先对高质量专利识别和企业画像进行了梳理,介绍了高质量专利的概念、专利质量和高质量专利识别的研究现状,讨论了企业画像的概念、流程、应用和存在的问题。其次提出了基于高质量技术创新的企业画像框架:由数据层、识别层、画像层和应用层等组成。最后以四川网络安全产业的高质量专利为数据基础,面向从事网络安全产业的企业进行画像,并利用本文提出的基于高质量技术创新的企业画像框架进行案例分析。

自从画像的概念被提出之后,相关技术从用户画像应用到了企业画像中,但是在高质量发展不断被强调的今天,还缺乏能够对进行高质量技术创新的企业进行画像的框架。因此本文提出了一个基于高质量专利的企业画像框架,建立了高质量专利识别指标体系和企业画像描述标签模型。通过研究分析,本文提出的企业画像框架不仅能够简便有效地实现高质量专利识别,还扩展了用户画像的应用范围,结合专利挖掘技术从高质量专利中挖掘出多维度的描述标签,能够对具体领域企业进行高质量专利发展的现状进行清晰地呈现。然而本文的不足之处在于仅研究分析单标签,未能考虑多维度标签之间的层次性和语义关联性,未来,我们将对本研究提出的企业画像框架进行不断完善。

猜你喜欢
画像标签专利
威猛的画像
“00后”画像
画像
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
让衣柜摆脱“杂乱无章”的标签
科学家的标签
潜行与画像
2007年上半年专利授权状况统计