基于共现词映射的中英韩跨语种文档相似度计算

2018-05-04 06:46崔荣一赵亚慧

中文信息学报 2018年3期

刘娇，崔荣一，赵亚慧

(延边大学计算机科学与技术学院智能信息处理研究室，吉林延吉 133002)

0 引言

互联网包含的海量数据使人们足不出户依然可以深入了解全球多元文化。在这样的环境下，对不同语言形式的数据进行综合分析和利用成为不可或缺的信息需求。作为跨语种文档处理方法的基础，不同语种文档之间的相似度计算是在不同语种文档间建立语义等价关系的基础性工作。近年来对跨语种文档的相似度计算方法一直在突破中，它被广泛应用于跨语种文献抄袭检测、多语种网页去重、跨语言检索等任务。

Barrón等人[1]的CL-ASA算法结合概率翻译，通过统计双语字典和相似性分析，在字词级别对齐文档基础上形成平行语料库，可将任意文档与语料库中的文档进行匹配计算。Potthast等[2]在维基百科多语种概念库的基础上提出了CL-ESA算法，即任意文档都用长度为N的语言无关向量表示，计算给定文档与N个wiki概念间的相关程度，用计算所得向量之间的余弦距离来代表文档间的相似度。由于每个wiki概念都表示为多语种形态，所以任意文档都可在维基百科这个可比语料库中计算[3]，但是若要获得高精度的计算结果需要规模比较大的语料库。Franco等人[4]提出的CL-KGA算法根据文档内容生成跨语种的语义网络，这个网络是一个加权和标记过的图谱，可以与一组词表示的原始概念联系起来,加以扩展可表示与上下文之间的关系，从而在语义空间中实现了衡量跨语种文本的相似度。基于机器翻译[5]的跨语种相似度计算方法则使用机器翻译方法将不同语种的信息统一到同一个空间中，再借用单语言领域的相似度计算方法进行计算。Mikolov等人[6]通过构造关于不同语种空间的结构模型，证实了不同语种空间中词和词之间的线性关系可以用作机器翻译，对英语和西班牙语的翻译准确率高达90%。

本文结合Mikolov和Potthast的思想，利用翻译语料库获得隶属于不同语种的各个词语在每篇文档中的权重，得到每个词语关于各个文档的权重向量。这个向量是语言无关的词向量，而最相关的两个词向量在各个文档中的分布相似，可认为它们共现。即两个不同语种的词若互为共现词，则它们在各自的语种空间中的分布也相近。利用翻译语料库获得不同语种间词的共现信息，对给定的两个不同语种的文档，利用词共现关系[7-8]，将其中一个文档向量映射到另一语种空间中，再将文档投射到潜在语义空间中。映射和投射的过程保留了文档的语义信息，最终使两个文档得以在同一语种空间中计算相似度。该方法不需借助外部词典、语言学知识和人工标注语料的指导，计算快速简便，即使在小规模语料库中也可获得较好的效果。

1 共现词映射

基于语料的共现词获取方法是基于分布性假设[9]，它基于大规模语料库，将词语在各个文档中的分布表示成向量，通过计算向量间的相关度来选取共现词。在语料库中，若两个词通常共现在同一篇文档中，则可认为这两个词在语义上相互关联。共现词的概念大都被应用于信息检索的查询扩展中，当一篇文档与查询要求相关但是不包含查询词语的时候，可以通过查询扩展即共现词作为相关信息进行查询[10-11]。本文将共现词应用于跨语种文档相似度的计算中，在其他语种的文档中统计出对应于各个英语词语的共现词。共现词对不同于词典中的翻译词对，互为共现词不一定能直译，但是语义高度相关。例如，“考试”的共现词可能不是“exam”，而是“paper”，它代表对出现“考试”这个词的文档来说，它所对应的英文文档极可能会出现“paper”。因此，我们可通过对不同语言间的共现词进行权重映射来获得相似度计算结果。

1.1 共现词表的获取

对各语种的文档集表示的向量空间模型构成如下形式的词项—文档矩阵,如式(1)所示。

(1)

每个语种的文档集都可表示成如上形式，每一列代表文档集中的文档向量，每行代表一个词向量，n为文档数目，m为单词数目，wmn为第m个词在第n个文档中的tf-idf权重[12]，那么语种A和语种B向量空间模型的词项—文档矩阵可以用CA和CB表示，这两种语言之间的共现词获取遵循以下二元关系，如式(2)所示。

(2)

其中,

(3)

其中,VA和VB分别表示语种A和语种B文档集的词项序号集。B-index(j)的值为语种B文档集中与语种A文档集的第j个单词共现的词项序号。在式(3)中调换语种标示符号A和B，即可获取语种A文档集中对应于语种B文档集第j个单词的共现词序号A-index(j)。通过式(2)，可以得到一个共现词表。

1.2 共现词映射

针对t篇测试集文档(待计算相似度的文档)向量进行共现词映射，将语种A的文档向量映射为语种B的文档向量,如式(4)所示。

f:R|VA|×t→R|VB|×t

(4)

在此映射下，语种B的文档向量通过语种A的文档向量确定，两个语种文档向量的词项—文档矩阵元素关系如式(5)所示。

(5)

映射(4)并不是一一对应映射，CB的元素可能没有原像或者有不同的多个原像。没有原像的CB元素值置为0。这对应于多个A语种单词对应的共现词为同一个B语种单词的情况，如图1所示。CB中某位置已有元素的情况下再产生映射，该位置会被后映射的元素覆盖。所以A语种文档向量映射为B语种向量时，向量会变得非常稀疏，这势必会影响相似度的计算。

图1 共现词映射过程

2 基于潜在语义分析的共现词映射

解决前述稀疏向量的方案是将向量投影到语种B的潜在语义空间中，在这个空间中，通过降维方式来压缩缺失的部分向量，即对语种B的矩阵做奇异值分解(singular value decomposition, SVD)。在同一个语义空间中，对矩阵进行的压缩只是将许多近义项合并，这个过程消除了噪声，同时也减小了高度稀疏的矩阵对实验的影响[13]，下文中将基于潜在语义分析的同义词映射简写为CO -SVD。在潜在语义分析模型中，词项—文档矩阵为C(维数为M×N)，词项即为特征，一般情况下，特征数会多于文档数，即M>N。为了得到语料库中同一语种空间下的特征之间的相关性，对C做奇异值分解得式(6)。

C=UΣVT

(6)

设rank(C)=r，则存在l，使l

(7)

对这两个投影结果计算余弦相似度，如式(10)所示。

(10)

SimA-B的结果代表的是使用式(5)将语义空间从语种A转化到语种B后的向量和同源翻译向量在语种B潜在语义空间中的相似度，以此来度量不同语种文档间的相似程度。

3 实验结果及分析

3.1 实验过程

Step1将收集的文献分为训练集和测试集两部分，其中训练集用于构建共现词表和单语言语义空间，测试集用于构建映射向量并在某种语义空间中计算文献的相似度值。

Step2对不同语种的文献分别进行分词等预处理操作、特征选择、特征值计算[14]，最后构造词项-文档矩阵。特征值的计算采用传统的tf-idf算法[12]，三种语言分别对应的三个特征矩阵，三个特征矩阵的文档语义是按列对齐的。

Step3分别将各个矩阵中的词向量与其他两个矩阵的词向量计算余弦距离，对每个词向量取最大余弦值所在词作为共现词，形成一个包含不同语种的共现词表。

Step4对三个语种的矩阵分别进行奇异值分解，构造单语言语义空间模型，计算出当语义近似度为80%时的潜在语义空间维数k。

Step5将训练集构成的某语种词项—文档矩阵映射到另一个语种空间中，并与该语种空间中的矩阵(翻译得到的同语义矩阵)一起通过Fold-in方法[15-16]加入到已经构建的单语言语义空间中，对投影得到的两个矩阵按列进行向量间的余弦距离计算。

任意两种语言之间的跨语种计算框架如图2所示。

图2 跨语种文献相似度计算框架

3.2 共现词表获取结果

获取了英文—中文、英文—韩文、中文—韩文的共现词表，部分结果如表1所示。

表1 部分共现词表

在翻译的过程中，一般会有一个不成文的规定，即上下文的翻译尽量不出现重复的词语，所以某些情况下，共现词的特征值更能代表另一个语种中词语的特征值，即它可以合理地运用到跨语种相似度的计算中。

3.3 多语种数据集

本文实验主要使用了两种数据： (1)Google翻译的平行语料库； (2)人工翻译语料。

Dataset1来源于各个类别文献的中文资料600篇，使用Google对中文文档进行翻译，得到中、英、韩文文档一共1 800篇，形成了内容对齐的翻译语料库。其中1 200篇为训练集，600篇为测试集。Dataset2为人工翻译的同等规模的平行语料库。

为了测试机器翻译得到的语料与人工语料的异同，分别对这两个语料库进行实验。在实验过程中，训练集和测试集不交叉，因此本实验属于开放性实验。

3.4 跨语种文档相似度计算结果

在本实验中，面临潜在语义阶段的取值问题，SVD降维维数根据所保留前l个奇异值的平方和占总体的百分比p来确定，p一般取80%左右的值，可根据实验方法评价其合理性。

将三种语言间的检索和相似度计算分成三组实验，每组实验中包括两种语言，根据SVD和CO-SVD算法计算：

(1) 两种算法条件下互相对齐的不同语种文档之间余弦值的平均值；

(2) 两种算法条件下互相对齐的不同语种文档之间检索率的平均值。给定一篇语种A的文档，在语种B的测试语料库中逐篇查找译文。对不同语种的测试文档之间互相计算相似度，并对计算的相似度值进行降序排序，若不同语种的文档之间余弦相似度最高的文档对互为译文，则认为检索正确。

图中横轴为p的取值，范围从0.5到0.95，左边竖轴代表检索率的大小，右边竖轴为余弦值。实验结果如图3、图4所示。

从图3和图4中可以看出，p的值越小，对齐的文档间的余弦值就越大，但是p值的减小会降低对齐文档的检索率，这说明p的取值对跨语种文档相似度的计算非常重要。根据实验结果，当p取0.9时，检索率总是能保持在最高水平。

图3 不同p值下Dataset1的检索率和余弦值

图3 (续)

图4 不同p值下Dataset2的检索率和余弦值

图4 (续)

为了验证本文方法的有效性，采用三种方式对跨语种相似度的计算进行了实验测评: (1)在多语种潜在语义空间中计算两个语种的文献的相似度[15]； (2)计算映射向量和对齐文档向量之间的余弦值； (3)结合共现词映射与潜在语义分析技术计算跨语种相似度。

表2中表头为“英文—中文”的列结果表示共现词表是由英文映射到中文的，后几列的物理意义以此类推，而该列分为两部分，第一部分是用200个测试集计算余弦值所得的结果，第二部分是测试集中余弦值大于0.7的测试文档在测试集中的比重(大于0.7说明文档信息还原度足够高[17])。从表中可以看出，用共现词映射的时候，文档会丢失一部分信息，这体现在文档向量的缺失上，所以这种方法计算得到的余弦相似度比较低。而共现词与潜在语义结合的方法则体现出了它的优势，相比只用潜在语义空间投影的方法，它考虑到了两种语言之间的信息共现性，结果证明，这种方法对同语义的跨语种文档计算比较合适，信息还原度较高。

表2 跨语种文献相似度计算结果

从表3中可以看出共现词映射的方法对跨语种文档的检索能力有明显提高，共现词与潜在语义结合的方法效果更好，检索到同内容文档的概率接近百分之百，这说明共现词与潜在语义结合的方法保证了不同语种的信息在语种空间中自由转换，保留文档语义的同时实现了跨语种文献相似度的计算。

表3 跨语种文献译文检索结果

4 总结

跨语种文献的相似度计算对自然语言处理技术的发展起到了推进的作用，它跨越了语言的鸿沟，改善了信息交流的方式。本文以中英韩三个语种的文献为载体，研究不同语种间文献的相似性比较方法，可以将不同语言放在多语种空间中进行比较，也可以将不同的语种转换到同一语种空间中进行计算。本文就是采用共现词映射的方式转变文献的语种空间，再通过潜在语义分析压缩向量来合并近义项。实验结果表明，共现词映射结合潜在语义分析可以有效地改进跨语种相似度的计算，也可以非常准确地找出不同语种的译文。

该算法的优点是：不需要外部词典或者非常大的平行语料库，只需要小规模的文档集就能得到不同语种的共现词表，共现词表不同于双语词典，表中不同语种的词并不是一一对齐的，但是语义高度相关，它的获取方便而且效率高。此次训练只针对了三个语种的小规模文档集，下一步研究计划将该应用扩展到其他语言中去，进一步验证算法的有效性。

[2] Potthast M, Stein B, Anderka M. A wikipedia-based multilingual retrieval model[C]//Proceedings of the UK: Advances in Information Retrieval, European Conference on Ir Research, 2008: 522-530.

[3] 胡弘思,姚天昉.基于维基百科的双语可比语料的句子对齐[J].中文信息学报, 2016(1): 198-203.

[4] Franco Salvador M, Gupta P A, Rosso P. Cross-language plagiarism detection using multilingual semantic network[J], Lecture Notes in Computer Science, 2013: 710-713.

[5] 胡亚楠, 舒佳根, 钱龙华,等. 基于机器翻译的跨语言关系抽取[J]. 中文信息学报, 2013, 27(5): 191-198.

[6] Mikolov T, Le Q V, Sutskever I. Exploiting similarities among languages for machine translation[J]. arXiv preprint arXiv: 1309.4168, 2013.

[7] 王明文,付翠琴,徐凡,等.基于词项共现关系图模型的中文观点句识别研究[J].中文信息学报,2015, 29(6): 185-192.

[8] 常鹏, 冯楠. 基于词共现的文档表示模型[J]. 中文信息学报, 2012, 26(1): 51-57.

[9] Harris Z S. Mathematical structures of language[M]. NewYork: Wiley, 1968.

[10] Adriani M. Using statistical term similarity for sense disambiguation in cross-language information Retrieval[J]. Information Retrieval, 2000,2(1): 67-78.

[11] Pratibha Bajpai, Parul Verma, S Q Abbas. Improved query translation for English to Hindi cross language information retrieval[C]//Proceedings of the International Journal of Innovative Research in Computer and Communication Engineering, 2016.

[12] 李国和,岳翔,吴卫江,等.面向文本分类的特征词选取方法研究与改进[J].中文信息学报,2015, 29(4): 120-125.

[13] Fei Wang, Cai-hong Li, Jing-shan Wang, et al. A two-stage feature selection method for text categorization by using category correlation degree and latent semantic indexing[J]. Journal of Shanghai Jiaotong University, 2015, 20(1): 44-50.

[14] 宗成庆.统计自然语言处理[M].北京: 清华大学出版社, 2013.

[15] Mori T, Kokubu T, Tanaka T. Cross-lingual information retrieval based on LSI with multiple word spaces[C]//Proceedings of the 2nd NTCIR Workshop Meeting on Evaluation of Chinese & Japanese Text Retrieval and Text Summarization, 2001.

[16] Bradford R, Pozniak J. Combining modern machine translation software with LSI for cross-lingual information processing[C]//Proceedings of the Eleventh International Conference on Information Technology: New Generations, 2014: 65-72.

[17] 袁松翔. 基于译文特征与译文内容的中英文跨语种抄袭识别技术研究[D].上海: 上海交通大学硕士学位论文, 2011.