利用词嵌入模型实现基于网站访问日志的专利聚类研究

2018-05-15 10:17文奕陈文杰张鑫杨宁赵爽

现代情报 2018年4期

文奕陈文杰张鑫杨宁赵爽

〔摘要〕[目的/意义]专利信息是人类科学技术进步的结晶，随着社会的发展，专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利信息进行自动分类，在实现信息有序归并管理的同时，有助于用户高效而全面的获取相关技术领域中的集成专利信息，具有重要的现实意义，传统聚类研究方法效率与准确度存在不足。[方法/过程]本文通过对专利信息服务网站（中国科学院知识产权网）访问日志数据的清洗与分析，生成专利信息点击序列，基于深度学习词嵌入模型，设计了PatentFreq2Vec模型，计算得出专利关联信息。[结果/结论]利用PatentFreq2Vec模型分析计算访问日志数据，能够得到关联专利信息，实现专利聚类，且聚类准确度高于传统方法。

〔关键词〕专利；聚类；深度学习；词嵌入；访问日志

DOI：10.3969/j.issn.1008-0821.2018.04.016

〔中图分类号〕G202 〔文献标识码〕A 〔文章编号〕1008-0821（2018）04-0112-06

〔Abstract〕[Purpose/Significance]Patent information is the fruit of the progress of science and technology.With the development of society，patent information will play an increasingly important role in promoting scientific and technological innovation.Through patent clustering analysis，it is possible to aggregate isolated information according to different aggregation degree，so that they can be transformed from ordinary information to valuable Patent Competitive intelligence.The traditional clustering methods have some efficiency and accuracy problems.[Method/Process]Based on cleaning and analysis access log data of the patent information service website （Intellectual property network of the Chinese Academy of Sciences），the sequence data of patent clicking were generated and input into the PatentFreq2Vec model based on word embedding to obtaine patent related information with the learning algorithm.[Result/Conclusion]This could cluster the patents and improve accuracy of the patent clustering.

〔Key words〕patent；clustering；deep learning；Word Embedding；access log

以專利文献为主的专利信息是人类科学技术进步的结晶。随着经济全球化快速发展，知识经济迅猛崛起，尤其是随着我国“双创”活动全面开展，专利信息将为促进科技创新以及社会发展发挥重要作用，世界各国每年发布与出版大量专利文献信息[1]，近年来专利信息及其关联资源更呈现爆炸式增长，如何有效的组织管理海量专利信息，帮助用户精准把握专利技术内涵，提高专利技术信息的利用率，是文本信息处理领域的重要研究方向之一[2]。专利聚类是专利文献信息分析的重要方法，但现有方法在准确性与效率方面存在不足。近年来，随着深度学习技术的迅猛发展，诸多算法与工具在专利文献分析中发挥日益重要的作用。

1 专利聚类

1.1 专利聚类的重要性

专利信息分析的主要目的是通过对数据信息的有效整合管理，利用技术分析手段，将海量分散的信息按照一定的规则进行有序组织、过滤与汇集，对其技术内涵进行挖掘与凸显，将普通的专利文献信息转化为有价值的专利技术情报，根据这些情报可以从技术分布、交叉、演化等角度揭示机构专利布局及所处地位、核心专利权人、合作网络等综合信息，从而研判分析企业、研究所、高校、地区或国家在产业技术领域的重点发展方向，洞察主要竞争对手的技术组合、研发、投资动向，避开专利技术壁垒，制定专利研发战略[3]，在专利技术竞争中取得先机。

利用聚类技术可以将海量专利信息进行自动分类，在实现信息有序归并管理的同时，处于同一类别中的专利往往在技术上存在高度关联，有助于用户高效而全面的获取相关技术领域中的集成专利信息。这不仅能适应专利信息数据的快速增长，也能显著提高专利分析的效率与准确性，具有重要的现实意义[4]。

1.2 专利聚类常用方法及存在的不足

专利文本聚类的首要问题是文本数据的数学模型表示。常用的聚类方法包括K-Means、LDA等。

K-Means首先由MacQueent[5]提出，该算法认为文本聚类是由向量空间上距离相近的文本对象组成的，完美的聚类应该是得到高度接近且与其他类相分离的文本对象集。其优点主要表现在算法快速而又简单，计算复杂度较低，时间复杂度与文档数量成线性关系，因此计算效率较高，适合挖掘大规模数据集。而且它伸缩性较强，随着数据集的增长，它体现较强的适应性，因此K-Means在大数据聚类中被广泛使用，很多聚类研究都是以K-Means为基础根据研究需要进行相应改进而开展的。

LDA（Latent Dirichlet Allocation）主题模型由Blei等于2003年提出，它可以训练计算文档集中每篇文档的主题概率分布，当给定一个文档集时，它可以计算抽取文档的主题，并可根据主题分布实现主题聚类或文本分类。LDA的基本原理是将文本信息从词汇空间的分布变换到主题空间的分布，显而易见主题数量远低于词汇数量，从而达到文本信息在向量空间表示上降维的效果，解决维数灾难问题[6]。

总的来说，目前多数文本聚类算法的数学基础都是向量空间模型，类似的文本表示方法较为简单且容易理解，在文本信息降维方面效果较好，但高维稀疏的问题却难以避免，同时由于文献在向量空间表达时，文本特征的空间维数很高，导致聚类算法时间开销大，文本聚类算法性能下降，效率和准确性受到较大影响。

2 利用PatentFreq2Vec实现专利聚类

本文提出利用PatentFreq2Vec模型结合网站访问日志数据进行分析与处理，借鉴了Word2Vec词嵌入式模型的思想，实现专利聚类，当用户访问专利数据时，利用聚类信息即可向用户精准推送专利关联信息，帮助用户全面获取其所关心的技术领域的专利信息。

2.1 Word2Vec

Word2Vec是Google在2013年发布的一个工具包，利用神经网络为单词寻找一个连续向量空间中的表示。它是一种深度学习模型，基于人工神经网络，利用递归处理模式，通过复合多层感知机将初始设定的底层特征组合为更抽象更准确的高层特征，并将高层特征用于普通的机器学习方法以得到更好的效果[8]。Word2Vec的核心是矩阵分解，简单地说，矩阵表达了每个词和其上下文的词的集合的相关关联信息。对这个矩阵进行分解，只取每个词对应在隐含空间的向量，通过对词向量空间中的向量运算，向量空间上的相似度可以用来表示单词语义上的相似度。Word2Vec主要采用连续词袋模型[7]（Continuous Bag-of-Words，CBOW）以及Skip-Gram[8]模型。从图1可以看到CBOW模型的目的是通过上下文预测当前词汇出现的概率，而Skip-Gram是通过给定的当前词汇来预测上下文[9]。

利用Word2Vec对文本数据进行训练，并结合训练集利用余弦向量值即可以对关键词进行近义词计算，表1是利用Word2Vec进行近义词聚类的示例。

Word2Vec在近义词聚类上有非常明显的效果，国内外论文中有很多对比实验。如Mikolov在利用Word2Vec进行的实验结果表明，利用词向量作为初始值替代随机设定的初始值，实验效果有较显著的提升（识别命名实体的准确率从81.47%提升到88.67%，标注词性的准确率从96.37%提升到97.20%）。同时诸多试验都表明测试效果与语料集的规模成正比，语料集数据规模越大，Word2Vec测试效果越好[10]。

由上可见，Word2Vec具有坚实的数学基础，是深度学习算法在文本处理上的典型应用，在近义词计算上也表现出优异的性能。但Word2Vec并不是只能用于近义词计算，作为一个算法模型，只要提供符合输入格式的数据，Word2Vec可计算出相应的输出结果，通过对计算结果进行专业解读，可以实现Word2Vec在不同领域的应用。归纳来说，只要符合以下特征即可以利用Word2Vec进行数据模型构建计算：

特征1：数据量应具备一定的规模，从理论上来说，数据量越大，Word2Vec的效果越好；

特征2：可以将数据表示成以行为单位的数据序列，单行数据由若干数据单元组成，数据单元间具有前后关联规则约束；

特征3：数据单元会在数据集中频繁复用，复用频率越高，Word2Vec效果越好。

2.2 利用词嵌入模型的访问日志关联分析

通过对Word2Vec的输入文本数据接口进行分析，可以发现其格式可表示为如表2所示。

每1行表示1篇文献由若干个词组成，若干篇文献构成一個输入数据，上下文单词序列具有明显的有方向的语义关联性。如果有其他的应用情景，能够将数据输入格式表示成类似的结构，那么也可以构造相应的词嵌入模型来进行训练与计算，得到相应的输入结果。Paragraph2vec、Sentence2vec，Doc2vec等模型是其中一些代表，在相应的到文本分析任务中也取得了很好的效果。

网站的访问日志适合利用类似Word2Vec的词嵌入模型进行计算分析，以中国科学院知识产权网为例：1）该网站集成了中国科学院众多专利信息，用户访问量较大，中国科学院专利信息具有较高的社会关注度，每年生成海量的用户访问日志，如此规模的数据集更能够避免样本不足造成的Word2Vec计算结果不准确，使得计算结果具备更高的准确性与可信性；2）用户对知识产权网进行访问时带有较强的目的性，更可能对同一类型的专利具有较高的兴趣，在某一时间段内连续点击的专利很可能具有相应的关联，而且当前点击的专利很大程度上会影响用户对下一条专利的选择，这使得整个点击过程具有时序性和关联规则，可以将访问日志表示为以单个专利为行为数据的序列；3）同一条专利会出现在不同用户的访问序列中，重复率较高。所有这些特征表明可以利用词嵌入模型对网站访问统计日志进行计算分析，为每一条专利计算分析出相似度高的关联专利，从而实现专利数据的聚类。

2.3 对专利关联序列进行处理挖掘

由于用户对专利信息的点击在具有目的性的同时，也带有一定的随意性，这会造成最终得到的关联专利序列具有较多的噪音，为提高数据分析处理的准确性，可利用频繁序列模式挖掘算法对数据结果进行进一步处理，频繁序列模式挖掘（Sequence Pattern Mining，SPM）是指从序列数据库中寻找频繁子序列作为模式的知识发现过程[11]。其基本思路是给予若干有顺序的输入序列，预设规定阈值，在输入序列中寻找出现次数大于阈值的序列子串。序列模式挖掘最早由Agrawal等人提出，通过多年来不断的完善与发展，其已经成为数据挖掘领域的重要研究课题之一，性能良好的序列模式挖掘算法不断被研究者提出。

序列模式挖掘算法主要分为

1）基于Apriori特征的算法，如AprioriAll，GSP算法[12]等；

2）基于垂直格式的算法，如SPADE算法[13]，SPAN算法[14]等

3）基于投影数据的算法，如FreeSpan算法[15]和PrefixSpan算法[16]等等。

4）基于内存索引的算法和其他算法等。

基于投影数据的算法是将已经发现的频繁序列作为起始数据集，在更小的投影数据库上将其递归投影，并在投影数据库中继续计算子序列，最后将得到的序列进行拼接，从而获取完整序列模式。由于一个频繁子序列的前缀序列肯定是频繁子序列，因此PrefixSpan算法可以根据频繁前缀构造投影数据库。投影算法可以避免反复扫描整个数据集的次数，极大减少了时间开销，效率较高，故本文采用投影算法进行频繁序列挖掘。

3 实证研究

3.1 系统架构

综合词嵌入模型与频繁序列挖掘算法，我们设计PatentFreq2Vec模型用于基于网站访问日志的专利聚类，PatentFreq2Vec模型的整体处理流程如图2所示。

3.2 研究流程

3.2.1 数据清洗、处理

数据源选择：我们选择中国科学院知识产权网2011-2016年5年的网站访问统计数据作为数据源，由于访问统计数据会包含网站所有数据对象，而我们只关注专利的被点击情况，因此需要对数据进行清洗，经过清洗后，得到500万条具体专利的访问点击数据。

数据处理：数据清洗完成后，需要将数据处理为词嵌入模型的输入格式，我们的处理规范如下。

规范1：每一个IP在某一时间段内对专利的点击序列作为一条数据；

规范2：点击序列按照用户的点击次序顺序排列；

规范3：一个点击序列点击次数至少为5次；

考虑到有很多爬虫程序对网站数据进行自动抓取，而这部分非浏览器访问数据对于试验结果的影响较大，容易导致试验结果失真，因此我们以页面停留时间作为筛选条件，将页面停留时间少于10秒的访问数据剔除。

3.2.2 生成训练集

本文基于Spark的MLib工具包，基于Word2Vec实现了PatentFreq2Vec模型算法程序。模型提供多个参数选择，具体如表4所示：

本文的技术模式是通过给定专利来预测关联专利，因此选择Skip-Gram算法来进行训练与计算。

3.2.3 利用训练集为每条专利计算关联专利序列

训练集生成后，即可计算出每一条专利的近似关联专利，实现专利聚类，计算结果如表5所示，可以看出，计算结果中尤其是概率较高的关联专利，都与目标专利表现出较强的关联性。

3.2.4 对关联专利序列进行进一步分析处理

我们选取Spark的MLlib工具包中集成的PrefixSpan算法进行进一步处理，PrefixSpan算法包含3个参数：

·minSupport：最小支持度，序列最小出现次数占输入序列总数的比例

·maxPatternLength：最大序列长度。

·maxLocalProjDBSize：投影数据库局部迭代开始之前，前缀投影数据库最大容量。

由于输入序列长度一致，且序列长度比较短，故实验中取maxPatternLength为输入序列长度为20.分别取最小支持度minSupport为0.001，0.0015，0.002，（即序列最小出现次数分别取50，75，100）得到高频序列结果。

3.2.5 研究结果

实验结果采用经典的平均准确率（AP）和（MAP）指标来进行评价。AP表示对每条专利进行关联查询获得首个结果中有关联的專利的平均百分比，而MAP指标则表示对每条专利进行关联查询获得前5个结果中有关联的专利的平均百分比，测试值越高模型相对越准确。实验将K-MEANS、LDA的测试结果与本文方法进行比较，每组实验取10次计算平均值。结果如表6所示。

由表6可知，PatentFreq2Vec和其他的方法相比，AP和MAP均有一定的提高，这说明将用户对专利的点击序列模拟为PatentFreq2Vec的输入数据集，通过PatentFreq2Vec进行词向量相关度计算后，可以挖掘出隐含的专利关联信息，效果较好有三方面原因：一是因为词嵌入模型具有坚实的数学基础，可以通过词向量上下文关系进行出现概率的迭代计算，从而分析出高相关度的关联专利；二是因为访问日志中用户对于专利的点击序列与词嵌入模型的文本单词序列高度相似，可以将同一用户的访问序列类比为文档，以专利序列类比文档中的单词序列，采用基于Skip-Gram的词嵌入模型进行训练，加之频繁序列发现算法进行去噪声，保证了计算结果的准确性；三是中国科学院知识产权网用户访问量较大，可以得到较大规模的用户对专利信息的点击序列，保证算法的收敛性和有效性，这也是词嵌入模型成功应用的必要条件。

4 结语

词嵌入模型是深度学习算法在文本处理方面应用的一个典范，利用Word2Vec对海量文本数据进行处理，可以实现较高准确率的关键词聚类与关联发现，本文通过对词嵌入模型原理及功能的深入学习，将用户对专利信息的点击序列为样本，设计了PatentFreq2Vec模型，再通过频繁序列模式挖掘，取得了较好的专利聚类效果，拓展了词嵌入模型的应用范围，具有较好的意义，未来将进一步研究深度学习方法在用户点击序列与专利信息关键词聚类上的综合应用。

参考文献

[1]林伟峰，丁海晖.试论专利信息的作用[J].图书情报导刊，2004，14（3）：14-15

[2]徐晓明.专利文本聚类及关键短语抽取的研究[D].沈阳：东北大学，2011.

[3]徐丹丹.专利文本聚类分析及可视化研究[D].南京：南京理工大學，2009.

[4]罗璇.基于数据挖掘技术的专利信息分析及应用研究[D].北京：首都经济贸易大学，2011.

[5]MacQueen J.Some Methods for Classifi Cation and Analysisof Multivariate Observations[C].Proceedings of 5th Berkeley Symposium on Mathematics.Statistics and Science，1967：281-296.

[6]范宇，符红光，文奕.基于LDA模型的专利信息聚类技术[J].计算机应用，2013，33（S1）：87-89，93.

[7]Tomas Mikolov，Kai Chen，Greg Corrado，and Jeffrey Dean.Efficient Estimation of Word Representations in Vector Space[C].In Proceedings of Workshop at ICLR，2013.

[8]Tomas Mikolov，Ilya Sutskever，Kai Chen，Greg Corrado，and Jeffrey Dean.Distributed Representations of Words and Phrases and their Compositionality[C].In Proceedings of NIPS，2013.

[9]宁建飞，刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术，2016，（6）：20-27.

[10]Mikolov，Tomas，Wen-tau Yih，and Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Representations[C].Proceedings of NAACL-HLT，2013.

[11]王虎，丁世飞.序列模式挖掘研究与发展[J].计算机科学，2009，（12）：14-17.

[12]Agrawal R，Srikant R.Mining Sequential Pattern[C].Proc.of the 11th International Conference on Data Engineering，1995.

[13]Srikant R，Agrawal R.Miningsequential Patterns：Generaliza-Tions and Performance Improvements[C].Proceedings of the 5th In-Ternational Conference on Extending Database Technology，1996.

[14]Sui Yi，Shao Fengjing，Sun Rencheng，et al.Asequential Pattern Mining Algorithmbased on Improved FP-Tree[C].Proceedings of 9th ACIS Int.and SNPD 2008，2008.

[15]Hsieh Chia-Ying，Yang Don-Lin，Wu Jungpin.An Efficient Sequential Pattern Mining Algorithm Based on the 2-Sequence Matrix[C].Proceedings of IEEE International Conference on Data Mi-ning Workshops，ICDM Workshops 2008，2008.

[16]Xifeng Yan，Jiawei Han，Ramin Afshar.CloSpan：Mining Closed Sequential Pattens in Large Databases[C]. SIAM International Conference on Data Mining， 2003.

（责任编辑：孙国雷）