常用中国专利数据库评析

2020-03-30 13:53黎子辉刘亚娟

图书馆研究 2020年1期

黎子辉，刘亚娟

（1.华南理工大学知识产权信息服务中心，广东广州 510640；2.北京栈桥知识产权代理事务所（普通合伙），北京 100090）

1 引言

自党的十九大以来，明确提出了“倡导创新文化，强化知识产权创造、保护、运用”的新时代知识产权工作历史使命，国家的知识产权事业进入高质量发展新征程［1］。在此背景下，情报界对知识产权信息服务的探讨研究更加广泛［2-3］。无论是传统的科技查新和专利检索，还是新兴的专利技术分析、专利导航和知识产权分析评议等，都要求检索人员配备适用的检索工具，以提升专利检索与分析的工作效率［4-6］。据笔者了解，目前国内公司开发的专利相关数据库就超过20个，实际工作证明，各个专利数据库的可检索能力各有不同。有研究者曾对国家知识产权局网站（SIPO）、中国知识产权网（CNIPR）等9个中国专利检索网站进行了比较［7］。但该研究只是凭借检索结果数量衡量各库的优劣，并未结合检索结果的细致比对和文本分析，未能挖掘检索结果差异的原因。事实上，进行资源数据库检索能力的对比，需要做更丰富的样本测试和更精细的结果差异对照。较早前也要学者对中国专利三个检索系统进行比较分析，但检索案例单一且未能实现精细对比和深层次的信息挖掘［8］。而且，时至今天，各常用专利库的可供检索字段已大同小异，用户普遍关心的是数据库的资源情况。据用户采访显示，对于中国专利文献检索，普通检索用户认可的是国家知识产权局官方网站，图书馆员经常使用CNIPR、中国知网和万方数据，而专业专利分析人员较多使用合享IncoPat和智慧芽Patsnap。由于广大用户迫切关心各个常用中国专利库的使用感受，不少的网络测评提供了用户真实体验对比，但都是从定性层面进行简要陈述，未能进行系统研究［9，10］。

本文以CNIPR、万方专利数据库、中国知网（CNKI）专利数据库、合享IncoPat以及智慧芽Patsnap五个常用的中国专利数据库为研究对象，通过检索结果记录的精细比对和文本分析，探寻各库检索结果的差异是由数据源因素还是检索系统因素造成的，从数据完整性和准确性、数据更新情况以及检索精确度等方面对以上常用专利库做出评价，为专利检索用户及情报分析人员提供重要参考和使用建议。

2 研究方法

以CNIPR、万方专利库、CNKI专利库、IncoPat以及Patsnap这5个常用的中国专利数据库为研究对象，并以国家知识产权局免费官网（http：//psssystem.cnipa.gov.cn/，以下简称“官网”）数据作为比对标尺，随机选取了5个具有代表性的不同领域技术（见表1），分别使用基础检索、专利名称检索、综合检索以及针对新专利的检索等，考察相同的检索策略下检索结果数量差值，并以此出发挖掘结果记录差异的原因，从数据源上比较上述5个常用中国专利数据库的数据准确性和检索完整性，从而评价各库的检索能力及各自的优势。检索结果涵盖中国发明专利申请（以下简称“发明”）、中国实用新型专利（以下简称“新型”）和中国外观设计专利（以下简称“外观”）。为了更好地进行横向对比，检索过程中均不启用“主题词扩展/同义词扩展”，且检索词限定为“精确检索”。全部测试数据采集时间为2019年2月19日晚。

3 检索结果对比分析

3.1 基础检索

在专利检索过程中，一般先将检索字段限制在“专利名称或摘要”，再根据该初步检索结果调整检索策略［11］。对此，本环节测试将检索字段限制为“专利名称或摘要”，比较在基础检索中5个研究对象的检索结果（见表2）。

从表2可以看出，本环节测试中CNIPR的检索结果基本上略多于官网，但差异微小；IncoPat和Patsnap的检索结果非常相近，且往往获得比CNIPR稍多的检索结果（具体原因将在以下测试中继续分析），未见出现检索结果少于官网的“漏检”情况；而万方和CNKI的检索结果相对官网则略有偏差，大多表现为明显少于官网，“漏检”情况较为突出。为了探寻CNIPR的检索结果略多于官网的原因，进行人工比对发现，官网的检索在“查全”方面确实存在缺陷。

如样本3的外观设计，在官网的检索结果为0，但在CNIPR、IncoPat和Patsnap都能检索出“数据采集传输仪CN201830575133.0”和“电积槽CN201530411136.7”两件外观设计专利，而且说明书摘要中的确出现了“重金属”“废水”“处理”3个检索词，证实该2件外观设计专利出现在检索结果中是正确的。通过专利号或专利名称反查，均能在官网上检索到所述2件专利的数据记录，说明在官网上是有相应专利记录，但检索过程中系统未能检全，反映出官网系统的检索不一定能在自身数据中确保100%检全。

表2 基础检索的结果数量

3.2 定位检索

在技术调研的过程中，如果检索结果过多，往往会把关键词限制在“专利名称”以获取密切相关的专利文献［12］。本环节测试将检索字段限制为“专利名称”，比较在定位检索中5个研究对象的检索结果情况（见表3）。

表3 定位检索的结果数量

从表3可以看出，本环节测试中CNIPR、Inco-Pat和Patsnap的检索结果与官网基本相同；相比之下，万方和CNKI的大部分检索结果数量仍明显少于官网，反映出该两个常用中文数据库在专利检索“查全”方面仍显劣势。另外，官网的检索结果仍然全部出现略少于CNIPR的情况，如样本3在官网的发明记录为553条，而CNIPR为557条。

通过人工比对，发现缺少的记录是“一种待处理废水重金属成分检测工艺CN201811402768”、“一种重金属络合废水处理电Fenton氧化装置CN109354128A”等4件最新公开的专利，该4件专利公开/公告日都是2019-02-19，即本文测试组数据采集当天。通过专利号或专利名称在官网上反查，未能检索到上述4件专利，证实官网的确缺少相应数据，而并非系统的原因未能检出。本环节测试显示，CNIPR在数据完整性方面最具优势，其新公开专利上线速度甚至比官网更快。

3.3 综合检索

专利检索中，最普遍的检索方式是“专利名称/摘要+IPC分类号+申请年份”，以此精准获得相关专利技术信息［13］。本环节测试将检索字段限制为“专利名称或摘要”，并添加IPC分类号（表1）和申请年份（2013.01.01—2018.12.31）两项限制条件，进一步比较5个研究对象在综合检索中的结果情况。因外观设计不使用IPC分类号，本环节测试不考虑外观设计的检索结果（见表4）。

表4 综合检索的结果数量

从表4看出，和前面的测试类似，CNIPR的检索结果比官网略多，人工比对后发现多出来的记录同样是测试组数据采集当天公开的最新专利。IncoPat和Patsnap的检索结果依然基本相同的，但与表2部分数据类似，也是普遍出现检索结果数量比CNIPR和官网都稍多的情况。经人工比对、专家咨询及官方确认，证实多出来的专利记录主要是由于异常申请的原因（重复申请等），部分已被公开的专利申请文本（特别是2018年前后申请的）被撤回且在官网系统中被删除了数据记录，但在IncoPat、Patsnap、CNKI和万方等商业数据库中仍保留了该部分数据，形成了类似“百度快照”的记录效果。如此，反而让商业数据库可实现对已删除记录的另类“检全”作用。

此外，万方和CNKI则仍旧在“查全”上表现不佳，但在样本4中发生异常，其在万方检出的实用新型数量是21件，比CNIPR还多3件。经过文本比对，样本4中万方的检索结果更多的原因，是即便使用了“精确”检索，该库在检索中仍会自动拆分检索词，例如万方检出的专利“一种指纹真伪识别装置CN201621460937.8”的文本中，实际并未出现“指纹识别”的词组，而是分别出现了“指纹”和“识别”两个被拆分开来的关键词，因此该记录仅出现在万方的检索结果中，而并未出现在其他几个平台的检索结果中。以此看出，万方的自动拆词使该库在词组精确检索中未能严格获得精准的结果，但另一角度而言，又一定程度保证了用户在其资源库上“查全”。

3.4 新专利检索

从前面的测试结果看出，导致5个测试对象以及官网各自数据源的差异重要原因之一是有否最新公开的专利，即数据库的新增记录更新速度。为了更好地反映实验数据库对新专利的检索情况，本环节测试将专利申请时间设置为“2018.01.01—2019.02.19”，检索字段限制为“专利名称或摘要”，比较研究对象的检索结果情况。

从表5看出，CNIPR在各次检索中结果数量最多，通过人工比对，再次发现CNIPR比其余库多出的记录确实就是与本文测试组数据采集同一天公开的新专利，反映出CNIPR的新记录上线速度最快。IncoPat和Patsnap数据上线速度稍逊于CNIPR，但接近与官网同步。而CNKI的新专利数据量上则明显逊色，万方更是在数据更新方面明显不佳，各个测试样本在其上的新专利检索结果数据量均为最低值。

为了进一步测试实验数据库对新专利的收录情况，随机选取10件3个月以内的新公开专利，考察实验数据库是否可检索出所述测试组新专利。

表5 新专利检索结果数量

表6 新专利检索情况

从表6看出，CNIPR数据最完整，最适合做专利数量标尺；IncoPat和Patsnap基本与官网同步，都可保证一周以内的更新速度；CNKI在测试组中近2个月的新公开专利数据尚未见收录，公开时间2个月以上的测试组专利则均可检索；而万方在测试组中的全部新公开专利均未见收录。

3.5 机构检索

专利统计与分析往往需要进行专利申请人/专利权人统计。本环节测试选取清华大学、中国科学技术大学、哈尔滨工业大学、南京理工大学和华南理工大学5所具有代表性的不同区域的理工类高校，用以测评几个实验数据的数据准确性与检索精确度。为了排除数据上线速度的影响，专利公开时间选择为2013年1月1日—2017年12月31日。由于万方专利检索只能限制发表时间（即申请时间）区间，不可限制专利公开时间区间，因此暂未不列入对比。

表7 机构检索结果数量

通过对表7结果的数据分析及相应文本比对，发现一些情况。

（1）数据准确性方面：①官网在机构2上只检出1件外观设计专利，但CNIPR等其余数据均可检出2件，经比对，该专利“上转换单光子探测器CN201530041934.5”的文本在官网的申请人（专利权人）著录项是“山东量子科学技术研究院有限公司”，而在CNIPR等其余的数据库相应著录项是“山东量子科学技术研究院有限公司；中国科学技术大学先进技术研究院”，即同一专利的申请人（专利权人）著录项在官网和CNIPR等数据库不一致，经专家咨询和官方确认，该情况属于官网修正了数据记录，但其余商业数据库未能实现相应修改，即商业数据库对已录入数据的修改更新不能保证。②Patsnap在机构3的数据发生异常，明显多于官网及其余商业数据库。经人工比对，发现Patsnap在该次检索中将“黑龙江大学”的相关数据也列入其内，属于系统错检的情况，但在其他测试组中并未出现类似问题。③在排除更新速度的影响后，CNKI的检索结果与官网高度相符，反映出CNKI对已公开1年以上的专利检索准确度很高。

（2）检索精确度方面：①官网在机构1的外观设计出现较多漏检专利，如“液体工作站（Labkeeper）CN201330221507.6”出现在除官网以外其余数据库的检索结果中。经过专利号或专利名称反查，发现该专利在官网中的申请人（专利权人）著录项是“博奥生物有限公司”，而在CNIPR等则是“博奥生物有限公司；清华大学”，出现了两种不同的著录信息。事实上，该专利发生了专利权人变更，变更后为清华大学，应该被作为有效数据统计入内，属于因著录项未及时更新导致的漏检，即官网也会因部分信息更新不及时导致漏检。

4 评析与使用建议

根据上述针对检索结果数据完整性、准确性以及检索精确度的系列测试结果，对国家知识产权局官方网站、CNIPR专利检索平台、万方专利库、中国知网专利库、合享IncoPat专利数据库以及智慧芽Patsnap专利数据库几个常用的中文专利数据库作出以下评价和使用建议：（1）作为数据源标准，国知局官网仍可能会发生因著录项变更（如专利权人转移）更新不及时导致漏检的情况，也可能会发生因系统原因未能在其数据源中100%检全的问题，而且检索速度较慢、检索功能相对单一，因此在科技查新、专利信息分析等需要兼顾查全率及工作效率时，建议使用商业数据库进行辅助检索；（2）CNIPR的数据更新速度基本可实现每日更新，其新公开专利数据上线最快，也未见发生明显的“漏检”情况，适宜用作专利的常规检索与统计工具；（3）IncoPat和Patsnap的检索功能齐全且具有一定的专利分析功能，有较多可以直接输出的可视化数据图表，便于专利分析人员完成专利分析报告，而且新记录更新速度基本能与官网同步，但其对已录入数据的部分修改与更新仍望跟进，以实现该部分数据与官网的一致性；（4）作为常用中文文献综合检索平台，CNKI和万方能为跨库的一站式检索提供很大的便利，适用于技术调研、成果评价等文献综合分析的场景，但仅针对其专利库而言，两者的数据更新速度还需提升，尤其是对近2～3月内的新公开专利数据缺失严重；（5）对新专利的检全率及数据更新速度排序是：CNIPR＞官网≈IncoPat≈Patsnap＞CNKI＞万方；（6）单个数据库（包括官网）容易出现错检漏检情况，做精准统计时建议联合使用不少于两个专利检索平台；（7）万方、CNKI、IncoPat和Patsnap等商业数据库保留了官网和CNIPR中被删除了的数据记录，形成了类似“百度快照”的记录效果，其数据的不同步反而使所述商业数据库可实现对已删除记录的另类“检全”作用，有可能用于研究专利不良申请行为等。