基于话题翻译模型的双语文本纠错

2016-09-26 07:30
计算机应用与软件 2016年3期
关键词:英文单词语料语义

陈 欢 张 奇

(复旦大学计算机科学技术学院 上海 210000)



基于话题翻译模型的双语文本纠错

陈欢张奇

(复旦大学计算机科学技术学院上海 210000)

近年来,随着信息全球化的影响,社交网络文本上的多语言混合现象越来越普遍。许多中文文本中混杂着其他语言的情况已很常见。绝大多数现有的自然语言处理算法都是基于单一语言的,并不能很好地处理多语言混合的文本,因此在进行其他自然语言处理任务之前对文本进行预处理显得尤为重要。面对网络文本语义空间双语对齐语料的匮乏,提出一种基于话题翻译模型的方法,利用不同语义空间的语料计算网络文本语义空间的双语对齐概率,再结合神经网络语言模型将网络混合文本中的英文翻译成对应中文。实验在人工标注的测试语料上进行,实验结果表明,通过不同的对比试验证明文中的方法是有效的,能提升翻译正确率。

网络文本话题翻译模型神经网络语言模型

0 引 言

随着近年来网络的飞速发展,越来越多的人加入到了社交网络中。与此同时,信息的国界性变得不明显,人们可能会使用各国语言发表评论,最为常见的就是文本中混杂英文的情况。近年来国内较为活跃的社交网络就有新浪微博、微信朋友圈和人人网等,其中每天都会产生大量的文本,由于参与人群主要是年轻人,导致这些文本中包含很多非规范用语,中英文混合就是其中一个重要现象。

新浪微博是目前国内最活跃的社交媒体之一,通过对两亿余条微博的分析,我们发现有15%以上的微博包含至少一个英文单词,这些英文单词可能是单个字母,某个英文单词,拼音组合等。例如:“小王这人真nice”(小王这人真好)。人们在微博中会将某个中文单词按照另一种形式来表达,对于他们的阅读受众,并不会造成很大理解上的影响。

而现有的许多自然语言处理算法例如:分词、句法解析、情感挖掘等都是基于单一语言的,并不能很好地处理多语言混合的情况。与此同时,这种非规范的网络文本缺乏标注的对齐语料,许多自然语言处理任务的效率都受到了影响。因此在网络文本上进行自然语言处理工作之前,对文本进行预处理显得尤为重要。经过预处理工作将非规范文本转换成规范的单一语言的规范文本,会极大地方便接下来的工作。

文本纠错任务主要分为三步来完成。

第一步识别出需要纠错的词。本文中将着眼于网络文本中混杂的英文单词,对于拼音和一些可能的拼写错误暂不考虑,我们通过简单的字典匹配来识别需要处理的英文。

第二步产生每个非规范词的替换词列表。鉴于网络文本的双语对齐语料的缺乏,本文考虑利用其他语义空间(例如新闻语料)的双语对齐语料统计出对齐概率表,再根据不同语义空间的映射来产生网络语义空间的双语对齐概率表。

第三步挑选出最合适的替换词对非规范词进行替换。本文中利用神经网络语言模型,对第二步中产生的候选词列表进行重新排序,最终排序代表了候选词替换的概率。

Zhang等[10]首先提出了一种结合翻译模型与语言模型来解决社交网络语义空间中英文混合文本的翻译方法。使用了GIZA++在非网络语义空间生成中英文单词对齐概率表,再结合神经网络语言模型的训练,对候选词进行重新排序。本文中将在该方法的基础上进行改进。

本文的主要研究内容包括:① 将中英文混合网络文本纠错工作看作是翻译问题,通过话题翻译模型和神经网络语言模型的整合产生合适的替换词。② 利用网络语义空间外的训练语料产生词对齐列表,再将该语义空间映射到网络语义空间,这样就解决了网络文本训练语料缺乏的问题。③ 神经网络语言模型的结合能有效利用网络文本上下文信息,对替换词列表就行重新排序。④ 所有训练语料和测试语料均通过网络爬取,并针对测试语料进行了人工标注。

1 相关工作

随着用户生成文本的日益增多,国内外有许多文本纠错方面的研究。Aw等[1]将文本纠错工作看作是非规范英文到规范英文的翻译工作,通过对于短信息文本的研究,提出了一种短语级别翻译的方法来完成此工作。Kobus等[2]研究了法文短信息的字词正确拼写方法,提出了一种基于机器翻译的方法,结合了不确定音素来实现文本纠错。Han等[3]利用了一种有监督的方式来检测费规范词并利用音位形态上的相似性来生成正确的规范词,再根据非规范词和规范词的相似度以及上下文信息来重新排序候选词对。Liu等[4]提出了一种整合的纠错系统,通过设置一系列字母转换的模式并结合字母转换、可视化刺激和字符相似度来进行文本纠错。Han等[5]介绍了一种基于字典的方法,鉴于规范词与非规范词更多出现在相同的上下文中,自动构建出了一个规范化字典。Wang[6]等设计了一个定向搜索解码器来解决缺失词复原、标点纠错、单词纠错和分割的问题。

以上这些方法在非规范文本纠错方面达到了很好的效果,但这些工作都是着眼于单一语言的文本,因此中英文混合的情况在这里并不适用。

文本纠错的工作可以看作是机器翻译的工作,文本中混杂的非规范词看作是源文本,其对应的规范词看作是目标文本。对于相同语义空间的文本来说,很容易训练出一个翻译模型来解决文本纠错的问题。但是由于社交网络训练语料的匮乏,而其它语义空间双语对齐语料相比很容易获得。最好的方法是能够利用其它语义空间的双语对齐语料,进行一些调整来适应网络文本语义空间。Liu等[7]提出了一种话题翻译模型,根据其它语义空间的双语对齐语料和目标语义空间的话题分布进行映射,最终可以得到一个训练语料充足且适应性强的模型。文中利用了隐藏马尔可夫话题模型,由Gruber等[9]在2007年提出。该模型将文档中词的话题看作一条马尔可夫链,假定相同句子和相邻句子中的词应该属于相同的话题,来计算话题分布。最终可以得到每个话题下产生单词的概率(单词|话题)和每个句子属于某个话题的概率(话题|句子)。

2 双语文本纠错

在这个部分将详细描述如何解决网络双语混合文本纠错的问题。通过对非规范词发掘、规范词对生成和规范词排序三个步骤,将中文网络文本中混杂的英文单词转换成结合了上下文信息最合适的规范替换词。用下面公式来表示最终纠错系统:

(1)

式中,c表示中文规范词,C表示中文词的字典,p(c)表示单词的语言模型计算概率,p(c|t)表示句子t下单词的翻译概率。

2.1非规范词发掘

中文网络文本中包含很多类型的非规范词。这里我们先通过英文字母的正则匹配从海量微博中挑选出包含英文字母的微博,之后根据标准英汉字典挑选出包含英文单词的微博。

2.2规范词对生成

在统计机器翻译的工作中,词对齐发挥了很大的作用。参考了Liu等[7]的工作,对于一个源句子,e=e1,…,ei,…,eI,和一个目标句子c=c1,…,cj,…,cJ,将词对齐处理视为两个句子单词位置的笛卡尔积集合:

a⊆(i,j):i=1,…,I;j=1,…,J

(2)

其中,i和j分别表示词在句子中的位置。对于双语对齐语料中的所有单词。本文通过每个词的词对齐来估计该词的可能翻译词。结合了话题信息后,可以这样定义英文单词到中文单词的翻译概率:

(3)

等式右端第一项表示在给定话题tc下,英文单词e翻译成中文单词c的概率,第二项英文单词对应的话题分布。根据隐藏话题马尔可夫模型在非网络语义空间语料Cout的训练,我们可以分别再计算特定话题下英文单词对应中文单词的分布P(中文|话题,英文)和英文的话题分布P(话题|英文)。因为需要进行不同语义空间的映射,我们还需要在网络语义空间语料Cin进行话题模型训练。为了区分,本文将网络语义空间的话题用tc_in表示,非网络语义空间的话题用tc_out表示。由于两个不同语义空间的话题维度可能不同,这里需要再引入网络文本语义空间话题对应非网络文本语义空间的概率分布。非网络文本语义空间的单词对应话题的分布可以用下面的公式来计算:

(4)

这里可以理解为通过英文单词在网络文本空间的分布和不同语义空间的映射得到英文单词对应非网络文本空间的话题分布。则式(3)就可以进一步表示为:

(5)

接下来通过对于不同部分的计算来得到英文单词对应中文单词的翻译概率。过滤掉较小的值之后,得到的每个英文单词对应的翻译词表便是可能的候选词。

首先需要定义在非网络文本语义空间的特定话题下,英文单词对应中文单词的翻译概率。类似Su等[7]的工作,根据每个句子的话题分布,可以计算出英文词对应中文词的条件分布。不同的是因为这里双语对齐语料的话题空间相同,因此使用中文的话题分布,再利用到了最大似然估计的知识,定义话题相关的翻译概率为:

(6)

式中,Cout表示非网络文本语义空间语料集,表示语料中对齐的两个句子,即e表示英文句子,c表示中文句子,count表示在句子对中英文单词和中文单词共同出现的次数。P(tc_out|c)表示该中文句子c对应的话题分布。

接下来要定义不同语义空间的映射概率分布。由于不同语义空间的出现的词可能不同,这里根据两个语义空间的公有词来定义映射概率分布:

(7)

式中,P(c|tc_in)可以直接通过隐藏话题马尔可夫模型直接得到,可以进一步通过句子对应的话题分布来计算P(tc_out|c):

(8)

式中,countc(c)表示在句子c中单词c的出现次数。

最后,定义英文单词对应网络文本语义空间的话题分布计算方法,类似于之前的最大似然估计方法,按如下公式处理:

(9)

2.3规范词筛选

为了更好地利用到用户的历史信息,这里引入一个用户相关的神经网络语言模型。该模型根据一段词序列和某个用户发表的句子,来估计当前序列的下一个词。参考了Huang等[8]的神经网络语言模型,本文的语言模型结构如图1所示。

图1 用户历史信息相关的神经网络语言模型结构

整个神经网络语言模型由两个打分的部分组成,即词序列信息和用户历史信息。给定一个词序列c和用户历史信息u,我们的目标是从所有词中挑选出正确的序列最后一个词。s(c,u)表示神经网络的得分函数,由局部序列得分scorel和用户历史信息得分scoreu加和得到。c表示当前的序列,cw表示最后一个词被w替换后的词序列。要找出比其余分数s(c,u)都高1以上的s(cw,u),可以对于每个语料中的(c,u),求解下列最小化损失目标函数:

(10)

神经网络中第一个部分词序列信息可以由以下方式计算。对于词序列c=w1,w2,…,wn可以用一个词向量列表x=(x1,x2,…,xn)来表示,xi是第i个词wi的词向量,c由每个词的词向量连接组成。整个词向量矩阵E由每个字典中的词的行向量组成,在训练过程中将会不断更新。最终词序列信息得分scorel由下列公式计算:

a1=f(W1[x1,x2,…,xn]+b1)

(11)

scorel=W2a1+b2

(12)

式中f是激活函数,这里我们使用正切函数tanh,Wn是第n层神经网络的权重转移矩阵,bn是第n层的偏移矩阵,由于神经网络只有一个隐藏层,所以n的取值只有1、2。

接下来需要定义神经网络中第二个部分用户历史信息的计算方式。首先对于一个用户文档,计算其加权平均值:

(13)

最后的分数通过词序列信息分数和用户历史信息分数加和得到:

score=scorel+scoreu

(14)

神经网络训练过程使用传统的反向传播算法,通过训练可以得到每个词的词向量以及神经网络权重转移矩阵和偏移矩阵,进而可以对任意句子计算其语言模型分数score。通过语言模型分数和之前翻译模型分数的乘积,就可以对整个候选词列表就行重新排序。

3 实验及结果分析

由于在中英混合文本纠错领域还没有公开的标注数据集用来评测,这里将使用人工抓取并标注的数据用来训练与测试,我们将与Zhang等[10]的工作进行对比,最后进行结果的分析。

3.1实验数据

为了使提出的模型有更好的文本纠错能力, 本文从新浪微博上爬取了2亿条微博。从中随机选取了500条包含英文单词的中英混合微博,经过人工标注正确答案后作为测试集。同时 从射手网爬取了16 032 145条中英对齐电影字幕语料作为非网络语义空间的训练文本。本文使用了FudanNLP作为中文分词工具,openHTMM作为训练隐藏马尔科夫话题模型的工具。

3.2实验结果与分析

针对中英文混合文本中的英文单词,话题翻译模型可以为其生成候选词列表,再结合神经网络语言模型分数计算,可以对候选词列表重新排序。实验中将分别对第一个,前五个,前十个结果的正确率进行评测。对比试验设置为使用字典方法与使用GIZA产生概率表的对比和使用n元语言模型与使用神经网络语言模型的对比,实验结果如表1所示。

表1 文本纠错正确率

表中方法部分分别表示翻译模型-语言模型。D表示基于字典查找的方式寻找翻译词,这里产生的翻译词没有翻译概率,因而将每个候选词的初始概率设定为统一数值。GIZA表示使用GIZA++工具包产生对齐概率表,HTM为本文中提出的隐藏话题翻译模型。LM表示n元语言模型,NLM表示本文中提出的神经网络语言模型。

根据实验结果表格中的结果可以看出,在不使用翻译模型结合基本的n元语言模型时,可以对中英文混合文本中的英文词达到25.2%的翻译正确率,而使用了神经网络语言模型后,正确率提升到了27.4%,同时对于前五结果的正确率也有一定的提升。鉴于字典中一般没有词超过10个解释,所以前十结果正确率几乎相同。在相同翻译模型下,神经网络语言模型相比n元语言模型产生了更好的效果,这也说明了我们提出的神经网络语言模型能更好地在这种用户相关的语义空间中捕捉上下文信息。使用GIZA++产生翻译对时,因为涉及到真实世界里的翻译场景,会生成更多的翻译词,并且可能产生一些字典中没有的网络释义,这种释义更接近微博语义空间中的真实环境,因此在正确率上取得了较大幅度的提升。最后引入的隐藏话题翻译模型和神经网络语言模型的结合取得了最高的正确率60.4%,同时在前五、前十结果也取得了最高的正确率72.6%,77.2%,这是因为隐藏话题翻译模型能更好的结合相同词在不同语义空间的上下文信息,同时由于系统设置,模型训练不需要网络语言空间的双语对齐语料,使得本文的方法更容易被应用。

4 结 语

本文针对中文社交网络进行了文本纠错工作, 对于中英混合的社交文本,我们能够有效地对混杂的英文进行翻译,并且结合当前语境产生出合适的翻译词进行替换。经过了这一步预处理工作,能极大地方便接下来的后续自然语言处理工作。

我们定义了话题相关的翻译模型来产生英文词的翻译对,这一步能有效利用上下文信息初步生成具有概率值的候选词列表。再结合用户历史信息相关的神经网络语言模型能最终生成正确的英文词替换词。这对于当今爆炸式的信息处理有很大的积极作用。

本文的工作还有很大提升空间,接下来会考虑利用深度学习网络来挖掘翻译词,可能会产生更好的结果。

[1]AwAT,ZhangM,XiaoJ,etal.Aphrase-basedstatisticalmodelforSMStextnormalization[C]//ProceedingsoftheCOLING/ACLonMainconferencepostersessions.AssociationforComputationalLinguistics,2006:33-40.

[2]KobusC,YvonF,DamnatiG.NormalizingSMS:aretwometaphorsbetterthanone?[C]//Proceedingsofthe22ndInternationalConferenceonComputationalLinguistics-Volume1.AssociationforComputationalLinguistics,2008:441-448.

[3]HanB,BaldwinT.Lexicalnormalisationofshorttextmessages:Maknsensa#twitter[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies-Volume1.AssociationforComputationalLinguistics,2011:368-378.

[4]LiuF,WengF,JiangX.Abroad-coveragenormalizationsystemforsocialmedialanguage[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:1035-1044.

[5]HanB,CookP,BaldwinT.Automaticallyconstructinganormalisationdictionaryformicroblogs[C]//Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.AssociationforComputationalLinguistics,2012:421-432.

[6]WangP,NgHT.Abeam-searchdecoderfornormalizationofsocialmediatextwithapplicationtomachinetranslation[C]//ProceedingsofNAACL-HLT,2013:471-481.

[7]SuJ,WuH,WangH,etal.Translationmodeladaptationforstatisticalmachinetranslationwithmonolingualtopicinformation[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:459-468.

[8]HuangEH,SocherR,ManningCD,etal.Improvingwordrepresentationsviaglobalcontextandmultiplewordprototypes[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:873-882.

[9]GruberA,WeissY,Rosen-ZviM.HiddentopicMarkovmodels[C]//InternationalConferenceonArtificialIntelligenceandStatistics,2007:163-170.

[10]ZhangQ,ChenH,HuangX.Chinese-Englishmixedtextnormalization[C]//Proceedingsofthe7thACMinternationalconferenceonWebsearchanddatamining.ACM,2014:433-442.

TOPICSTRANSLATIONMODEL-BASEDBILINGUALTEXTERRORSCORRECTION

ChenHuanZhangQi

(School of Computer Science,Fudan University,Shanghai 210000,China)

Alongwiththeglobalisationofinformationinrecentyears,multilingualmixingphenomenahavebecomeincreasinglypopularinsocialnetworkstexts.ItisquitecommoninChinesetextsthatotherlanguagesaremixed.Sincemostoftheexistingnaturallanguageprocessingalgorithmisthemonolingualtask-based,themultilingualmixedtextcan’tbewellprocessed,thereforeitiscrucialtopre-processthetextbeforecarryingoutothernaturallanguageprocessingtasks.Forthelackofthecorpusofbilingualalignmentinnetworktextsemanticspace,weproposedatopicstranslationmodel-basedmethod,itcalculatestheprobabilityofbilingualalignmentofnetworktextsemanticspaceusingthecorpusindifferentsemanticspaces,thenincorporatesneuralnetworklanguagemodeltotranslatetheEnglishinmixednetworktexttocorrespondingChinesetext.Theexperimentwassetonamanuallabelledtestcorpus.Experimentalresultindicatedthatthroughdifferentcomparativeexperimentsitwasprovedthattheproposedapproachwaseffectiveandwasabletoimprovetranslationaccuracy.

NetworktextTopicstranslationmodelNeuralnetworklanguagemodel

2014-06-05。陈欢,硕士,主研领域:自然语言处理,机器学习。张奇,副教授。

TP391

ADOI:10.3969/j.issn.1000-386x.2016.03.067

猜你喜欢
英文单词语料语义
语言与语义
基于语料调查的“连……都(也)……”出现的语义背景分析
外出玩
“上”与“下”语义的不对称性及其认知阐释
华语电影作为真实语料在翻译教学中的应用
英文
认知范畴模糊与语义模糊
《苗防备览》中的湘西语料
海滩边度假
国内外语用学实证研究比较:语料类型与收集方法